The news is by your side.

在开源社区中打造法学硕士学位:呼吁投资专业人士采取行动

18


ChatGPT 和其他自然语言处理 (NLP) 聊天机器人已经实现了对强大的大型语言模型 (LLM) 的民主化访问,提供了促进更复杂的投资技术和可扩展性的工具。这正在改变我们对投资的看法并重塑投资行业的角色。

我与特许金融分析师协会 (CFA Institute) 高级投资数据科学家 Brian Pisaneschi 坐下来讨论他最近的报告,该报告为投资专业人士在开源社区开始攻读法学硕士学位提供了必要的便利。

该报告将吸引那些想要了解更多有关替代和非结构化数据以及如何将机器学习(ML)技术应用于其工作流程的投资组合经理和分析师。

皮萨内斯基说:“紧跟技术趋势、掌握解析复杂数据集的编程语言、敏锐地意识到增强我们工作流程的工具,都是在日益技术化的投资领域推动行业向前发展的必需品。”

“非结构化数据和人工智能:微调法学硕士以改善投资流程”涵盖了一个正在迅速重新定义现代投资流程的领域的一些细微差别——另类数据和非结构化数据。皮萨内斯基解释说,另类数据不同于传统数据(如财务报表),而且通常采用非结构化形式,如 PDF 或新闻文章。

他建议,需要更复杂的算法方法来从这些数据中获得洞察力。他补充说,NLP 是 ML 的一个子领域,可以解析口语和书面语言,特别适合处理许多替代和非结构化的数据集。

ESG 案例研究证明了法学硕士的价值

NLP 技术的进步、计算能力的飞速提升以及蓬勃发展的开源社区共同推动了生成式人工智能 (GenAI) 模型的出现。至关重要的是,与前辈不同,GenAI 能够通过推断训练数据来创建新数据。

在他的报告中,皮萨内斯基通过展示环境、社会和治理 (ESG) 投资案例研究,展示了建立 LLM 的价值,展示了它们在从公司社交媒体信息中识别重大 ESG 披露方面的用途。他认为 ESG 是一个适合采用人工智能的领域,并且可以使用替代数据来利用低效率来获取投资回报。

NLP 日益强大的能力以及从社交媒体数据中挖掘出的越来越多的见解促使 Pisaneschi 开展了这项研究。然而,他感到遗憾的是,自 2022 年进行这项研究以来,所使用的部分社交媒体数据已不再免费。他解释说,人们越来越认识到 AI 公司训练模型所需的数据的价值。

微调法学硕士

LLM 具有无数用例,因为它们能够在称为微调的过程中进行定制。在微调过程中,用户可以根据自己的偏好创建定制解决方案。Pisaneschi 首先概述了 NLP 的进步以及 ChatGPT 等前沿模型的创建,从而探索了这一过程。他还提供了启动微调过程的结构。

自 ChatGPT 发布以来,微调小型语言模型与使用前沿 LLM 执行分类任务的动态发生了变化。“这是因为传统的微调需要大量人工标记的数据,而前沿模型只需几个标记任务示例就可以执行分类。”Pisaneschi 解释道。

当任务需要大量标记数据来理解分类之间的细微差别时,对较小语言模型进行传统的微调仍然比使用大型前沿模型更有效。

社交媒体替代数据的力量

Pisaneschi 的研究凸显了机器学习技术在解析社交媒体衍生的替代数据方面的强大功能。他指出,ESG 重要性可能对小型股公司更有益处,因为与可持续发展报告或投资者电话会议相比,社交媒体披露的信息更接近实时信息。“它强调了 ESG 数据可能存在效率低下的问题,尤其是在应用于较小的公司时。”

他补充道:“这项研究展示了使用社交媒体或其他实时公共信息的沃土。但更重要的是,它强调了一旦我们拥有了数据,我们就可以通过对数据进行细分并寻找表现中的模式或差异,轻松地定制我们的研究。”

这项研究考察了市值在重要性方面的差异,但皮萨内斯基表示,还可以分析其他差异,比如行业的差异,或指数中的不同加权机制,以发现其他模式。

“或者我们可以扩大标签任务,包括更多实质性类别或关注披露的细微差别。可能性仅受研究人员创造力的限制,”他说。

CFA 协会研究与政策中心 2023 年的调查——生成式 AI/非结构化数据和开源——是投资专业人士的宝贵入门读物。该调查收到了 1,210 份回复,深入探讨了另类数据投资专业人士正在使用什么以及他们如何在工作流程中使用 GenAI。

调查涵盖了哪些库和编程语言对于投资专业人员与非结构化数据相关的工作流程的各个部分最有价值,并提供了来自调查参与者的有价值的开源替代数据资源。

CFA 协会研究与政策中心广告

投资行业的未来深深植根于人工智能和人类智能的交叉协作及其互补的认知能力。GenAI 的引入可能预示着 AI 加 HI(人类智能)格言的新阶段。



关键词: