ChatGPT 和大型语言模型:语法和语义


有关投资管理中人工智能 (AI) 的更多信息,请查看 人工智能与大数据投资应用手册作者为特许金融分析师 Larry Cao,CFA,来自特许金融分析师协会研究基金会。


金融的新前沿?

银行和金融业是人工智能 (AI) 和机器学习 (ML) 技术的早期采用者之一。这些创新使我们能够开发替代性挑战者模型,并快速有效地改进现有模型和分析,涉及从信贷和市场风险管理、了解客户 (KYC)、反洗钱 (AML) 和欺诈检测到投资组合管理、投资组合构建等各种功能领域。

机器学习使大部分模型开发流程自动化,同时压缩并简化了模型开发周期。此外,机器学习驱动的模型表现不亚于传统模型,甚至更好。

如今,ChatGPT 和大型语言模型 (LLM) 更广泛地代表了 AI/ML 技术的下一个发展方向。这带来了许多影响。

鉴于法学硕士强大的功能和广泛的适用性,金融行业对法学硕士的兴趣并不令人意外。ChatGPT 似乎可以“理解”人类语言,并对几乎任何主题的查询提供连贯的响应。

它的用例几乎是无限的。风险分析师或银行贷款官员可以让它评估借款人的风险评分并对贷款申请提出建议。高级风险经理或高管可以使用它来总结银行当前的资本和流动性状况,以解决投资者或监管机构的担忧。研究和量化开发人员可以指导它开发一个 Python 代码,使用某个优化函数来估算模型的参数。合规或法律官员可以让它审查法律、法规或合同,以确定其是否适用。

但法学硕士确实存在局限性和危险。尽管早期的热情和快速的采用,专家们还是敲响了各种警钟。苹果、亚马逊、埃森哲、摩根大通和德意志银行等公司已禁止在工作场所使用 ChatGPT,一些地方学区也禁止在课堂上使用,理由是存在相关风险和滥用的可能性。但在我们弄清楚如何解决这些问题之前,我们首先需要了解这些技术的工作原理。

ChatGPT 和 LLM:它们如何运作?

当然,ChatGPT 神经网络及其训练的精确技术细节超出了本文的范围,实际上也超出了我的理解范围。不过,有些事情是清楚的:法学硕士不 理解 单词或句子的排列方式与人类相同。对于人类来说,单词以两种不同的方式组合在一起。

句法

一方面,我们研究一系列单词的语法,试图根据适用于特定语言的构造规则来理解它。毕竟,语言不仅仅是一堆乱七八糟的单词。关于单词如何组合在一起来传达其含义,有明确、明确的语法规则。

LLM 可以通过从训练数据中的所有文本中识别出的规律和模式来猜测语言的句法结构。这类似于一个以英语为母语的人,他可能从未在学校学习过正式的英语,但他知道根据上下文和自己过去的经历,一系列单词后面可能会跟着哪些单词,即使他们对语法的掌握可能远非完美。LLM 也是如此。由于他们缺乏对句法规则的算法理解,他们可能会错过一些形式上正确的语法情况,但他们在交流方面不会遇到任何问题。

语义

“一条邪恶的鱼快乐地绕着电子游戏转。”

句法为语言提供了一层约束,而语义则提供了更复杂、更深层的约束。单词不仅要按照句法规则组合在一起,还必须有意义。而要有意义,它们必须传达意义。上面的句子在语法和句法上都是合理的,但如果我们按照定义来处理这些单词,它就是胡言乱语。

语义学假设了一个世界模型,其中逻辑、自然法则、人类感知和经验观察发挥着重要作用。人类对这个模型几乎天生就有了解——如此天生以至于我们称之为“常识”——并在日常讲话中无意识地运用它。ChatGPT-3 拥有 1750 亿个参数和 600 亿到 800 亿个神经元,而人类大脑只有大约 1000 亿个神经元和 100 万亿个突触连接,那么它是否隐含地发现了“语言模型”或以某种方式破译了人类创造有意义句子的语义法则?不完全是。

ChatGPT 是一个基于人类文本进行训练的巨型统计引擎。它没有正式的通用语义逻辑或计算框架来驱动。因此,ChatGPT 并不总是有意义的。它只是根据训练数据“听起来像”什么来产生“听起来正确”的东西。它从神经网络中积累的统计传统智慧中提取出连贯的文本线索。

ChatGPT 的关键:嵌入和注意力

ChatGPT 是一个神经网络;它处理的是数字而不是单词。它将单词或单词片段(总共约 50,000 个)转换为称为“标记”的数值,并将它们嵌入到其含义空间(本质上是单词簇)中,以显示单词之间的关系。以下是三维嵌入的简单可视化。


三维聊天GPT意义空间


当然,单词具有许多不同的上下文含义和关联。在 ChatGPT-3 中,我们在上面的三个维度中看到的是 12,228 捕捉词语的所有复杂细微差别及其相互关系所需的维度。

除了嵌入向量之外,注意力头也是 ChatGPT 中的关键功能。如果嵌入向量赋予单词意义,注意力头允许 ChatGPT 将单词串在一起并以合理的方式继续文本。每个注意力头都会检查迄今为止编写的嵌入向量序列块。对于每个嵌入向量块,它会重新加权或“转换”它们为新向量,然后将其传递到完全连接的神经网络层。随着新文本的添加,它会在整个文本序列中连续执行此操作。

注意力头转换是一种回顾迄今为止的单词序列的方法。它重新打包过去的文本字符串,以便 ChatGPT 可以预测可能添加哪些新文本。例如,这是一种让 ChatGPT 知道在序列之后出现或将出现的动词和形容词会修饰几个单词之前的名词的方法。


ChatGPT 的最大优点是它能够 _________

最有可能
下一个单词
可能性
学习 4.5%
预测 3.5%
制作 3.2%
理解 3.1%
2.9%
来源:“ChatGPT 在做什么……它为什么有效?” Stephen Wolfram, Stephen Wolfram 著作

一旦原始的嵌入向量集合经过注意块,ChatGPT 就会拾取最后一个转换集合并对其进行解码,以生成下一个标记的概率列表。一旦在文本序列中选择了一个标记,整个过程就会重复。

因此,ChatGPT 发现了人类语言的一些结构,尽管是以统计的方式。它是否在算法上复制了系统的人类语言?根本不是。尽管如此,结果 令人震惊且与人类极为相似,让人想知道是否有可能通过算法复制人类语言的系统结构。

在本系列的下一篇文章中,我们将探讨 ChatGPT 和其他 LLM 的潜在局限性和风险以及如何减轻这些局限性和风险。

如果你喜欢这篇文章,别忘了订阅 进取的投资者


所有文章仅代表作者的观点。因此,这些文章不应被视为投资建议,所表达的观点也不一定反映 CFA 协会或作者雇主的观点。

图片来源:©Getty Images/Yuichiro Chino


CFA 协会会员的专业学习

CFA 协会会员有权自行决定和报告所获得的专业学习 (PL) 学分,包括以下内容 进取的投资者. 会员可以使用在线 PL 追踪器轻松记录积分。



关键词:

ChatGPT和大型语言模型语法和语义
Comments (0)
Add Comment