重新思考研究:用于投资分析的私人GPT


在数据隐私和效率至关重要的时代,投资分析师和机构研究人员可能会越来越多地问:我们可以利用生成AI的力量而不会损害敏感数据吗?答案是肯定的。

该聊天机器人风格的工具允许分析师以普通语言查询复杂的研究材料,而无需将敏感数据暴露于云中。

“私人GPT”的案件

对于从事买方投资研究(无论是股票,固定收益还是多资产策略)的专业人员,使用ChatGPT和类似工具引起了主要关注:机密性。将研究报告,投资备忘录或草稿提供给基于云的AI工具的草稿通常不是一个选择。

这就是“私人GPT”所在的地方:一个完全建立在开源组件上的框架,在您自己的机器上本地运行。不依赖应用程序编程接口(API)键,不需要Internet连接,也没有数据泄漏的风险。

此工具包的利用:

  • Python脚本 用于摄取和嵌入文本文档
  • 霍拉马,用于在计算机上托管本地LLM的开源平台
  • 简化 用于构建用户友好的界面
  • Mistral,DeepSeek, 和 其他开源型号 用自然语言回答问题

此示例的基础Python代码在此处公开包含在GitHub存储库中。该项目的支持文档提供了有关该项目技术方面的逐步实施的其他指南。

查询研究,例如聊天机器人,没有云

该实现的第一步是在个人计算机上启动基于Python的虚拟环境。这有助于维护仅馈入此应用程序的独特版本的软件包和实用程序。结果,在Python中用于其他应用程序和程序中使用的软件包的设置和配置仍然不受干扰。安装后,脚本将使用嵌入模型读取并嵌入投资文档。这些嵌入使LLM可以在颗粒状层面上理解文档的内容,以捕获语义含义。

由于该模型是通过Ollama在本地机器上托管的,因此文档保持安全,并且不会离开分析师的计算机。在处理专有研究时,这一点尤其重要,即私募股权交易或内部投资票据等非公共财务。

一个实用的演示:分析投资文件

该原型的重点是消化长期的投资文件,例如收益呼叫笔录,分析师报告和发表声明。将TXT文档加载到个人计算机的指定文件夹中后,该模型将处理并准备进行交互。此实现支持从Microsoft Word(.docx),网站页面(.html)到PowerPoint演示文稿(.pptx)的各种文档类型。分析师可以在本地Web浏览器中呈现的简单聊天机器人式接口中通过所选模型开始查询文档。

分析师使用基于Web浏览器的接口,可以通过所选模型开始查询文档。即使这启动了Web浏览器,该应用程序也不会与Internet进行交互。在此示例中,使用基于浏览器的渲染来演示便捷的用户界面。可以将其修改为命令行接口或其他下游表现。例如,在摄入AAPL的收入呼叫笔录后,人们可能会简单地问:

“蒂姆·库克在AAPL上做什么?”

在几秒钟内,LLM从成绩单中解析内容并返回:

“……蒂莫西·唐纳德·库克(Timothy Donald Cook)是苹果公司的首席执行官(首席执行官)……”

该结果在工具中进行了交叉验证,这还准确地显示了从中获取的信息。使用鼠标单击,用户可以在基于浏览器的接口中的每个响应下方列出的“源”项目。基于相关性/重要性对该答案的不同来源进行排序。可以修改程序以列出不同数量的源参考。此功能可以提高透明度和对模型输出的信任。

模型切换和配置以增强性能

一个出色的功能是能够单击一次在不同的LLM之间切换。示威活动表现出在Mistral,Mixtral,Llama和Deepseek等开源LLM中循环的能力。这表明可以将不同的模型插入相同的体系结构以比较性能或改善结果。 Ollama是一个开源软件包,可以在本地安装并促进这种灵活性。随着更多的开源型号可用(或现有的模型已更新),Ollama启用了相应下载/更新它们。

这种灵活性至关重要。它允许分析师测试哪种最适合当前特定任务的细微差别,即法定语言,财务披露或研究摘要,而无需访问付费API或企业范围的许可证。

该模型的其他维度可以修改,以针对给定的任务/目的定位更好的性能。这些配置通常由独立文件(通常称为“ config.py”)控制。例如,可以调制文档中文本块之间的相似性阈值,以使用高值(例如,大于0.9)来识别非常接近的匹配。这有助于减少噪声,但如果阈值太紧,对于所选的环境,则可能会错过语义上相关的结果。

同样,最小块长度可用于识别和淘汰很短的文本,这些文本是无助或误导的。重要的考虑因素也来自块之间的大小和重叠的选择。这些共同决定了如何将文档分为分段以进行分析。较大的块尺寸可以每个答案提供更多上下文,但也可能在最终响应中稀释主题的重点。重叠的量可确保随后的块之间的平稳连续性。这样可以确保该模型可以解释跨文档多个部分跨越的信息。

最后,用户还必须确定应重点关注查询的最重要项目中的几块文本,以进行最终答案。这导致速度和相关性之间的平衡。在每个查询响应中使用过多的目标块可能会减慢工具并进食潜在的干扰。但是,使用太少的目标块可能会冒出错过重要上下文的风险,而这些上下文可能并非总是在文档中近距离近距离写/讨论。结合通过Ollama提供的不同模型,用户可以配置这些配置参数的理想设置以适合其任务。

缩放研究团队

示威起源于股票研究空间,但含义更广泛。固定收益分析师可以加载与财政部,公司或市政债券有关的声明和合同文件。宏观研究人员可以从中央银行和第三方研究人员那里摄取美联储的演讲或经济前景文件。投资组合团队可以预加载投资委员会备忘录或内部报告。买方分析师可能特别是在使用大量研究。例如,对冲基金Marshall Wace,每天处理30多个数据,相当于近4000亿封电子邮件。

因此,此框架中的总体过程是可扩展的:

  • 在文件夹中添加更多文档
  • 重新运行摄入这些文档的嵌入脚本
  • 开始互动/查询

所有这些步骤都可以在安全的内部环境中执行,而内部环境除了本地计算资源之外无需操作。

将AI放在分析师的手中 – 安全地

生成AI的兴起不必意味着放弃数据控制。通过为私人,离线使用配置开源LLMS,分析师可以在此处讨论的聊天机器人构建内部应用程序,这些应用程序与某些商业替代方案相比,在此处讨论的聊天机器人都有能力和无限安全。

这个“私人GPT”概念使投资专业人员能够:

  • 使用AI进行文档分析而无需暴露敏感数据
  • 减少对第三方工具的依赖
  • 量身定制系统以特定的研究工作流程

该应用程序的完整代码库可在GitHub上找到,可以在任何机构投资环境中进行扩展或量身定制。该体系结构提供了几个灵活性,使最终用户能够为特定用例实施他们的选择。内置功能有关检查响应源的内置功能有助于确定该工具的准确性,以避免LLMS中常见的幻觉陷阱。该存储库旨在作为构建下游的本地应用程序的指南和起点,这些应用程序“微调”到企业范围内或个人需求。

生成AI不必妥协隐私和数据安全。谨慎使用时,它可以增强专业人员的能力,并帮助他们更快,更好地分析信息。像这样的工具将生成性AI直接放在分析师的手中 – 没有第三方许可,没有数据妥协,也没有洞察力和安全之间的权衡。



关键词:

重新思考研究用于投资分析的私人GPT
Comments (0)
Add Comment