ChatGPT 和大型语言模型：其风险和局限性

有关投资管理中人工智能 (AI) 的更多信息，请查看 人工智能与大数据投资应用手册作者为特许金融分析师 Larry Cao，CFA，来自特许金融分析师协会研究基金会。

性能和数据

尽管 ChatGPT 看似具有“神奇”的特性，但它与其他大型语言模型 (LLM) 一样，只是一个巨大的人工神经网络。其复杂的架构由大约 400 个核心层和 1750 亿个参数（权重）组成，这些参数均基于从网络和其他来源抓取的人工编写文本进行训练。这些文本源总计约 45 TB 的初始数据。如果没有训练和调整，ChatGPT 只会生成一堆乱码。

我们可以想象，LLM 的惊人能力仅受其网络规模和训练数据量的限制。这在一定程度上是正确的。但 LLM 的投入需要花钱，即使是性能的小幅提升也需要更多的计算能力。据估计，训练 ChatGPT-3 消耗了约 1.3 千兆瓦时的电力，OpenAI 总共花费了约 460 万美元。相比之下，更大的 ChatGPT-4 模型的训练成本将达到 1 亿美元或更多。

OpenAI 的研究人员可能已经到达了一个转折点，一些人承认，进一步的性能改进必须来自于除了提高计算能力之外的其他因素。

尽管如此，数据可用性可能是 LLM 进步的最关键障碍。ChatGPT-4 已使用互联网上所有可用的高质量文本进行了训练。然而，更多高质量文本存储在个人和公司数据库中，OpenAI 或其他公司无法以合理的成本或规模访问。但这些精心挑选的训练数据，加上额外的训练技术，可以对预先训练的 LLM 进行微调，以更好地预测和响应特定领域的任务和查询。这样的 LLM 不仅会胜过更大的 LLM，而且更便宜、更易于访问、更安全。

但难以获取的数据和计算能力的限制只是阻碍法学硕士发展的两个障碍。

幻觉、不准确和误用

ChatGPT 等基础 AI 应用程序最相关的用例是收集、情境化和总结信息。ChatGPT 和法学硕士 (LLM) 帮助撰写论文和大量计算机代码，甚至参加并通过了复杂的考试。公司已将法学硕士商业化以提供专业支持服务。例如，Casetext 公司已在其 CoCounsel 应用程序中部署了 ChatGPT，以帮助律师起草法律研究备忘录、审查和创建法律文件以及准备审判。

然而，无论他们的写作能力如何，ChatGPT 和 LLM 都是统计机器。他们根据在培训期间“看到”的内容提供“合理”或“可能”的答案。他们无法总是验证或描述答案背后的推理和动机。虽然 ChatGPT-4 可能通过了多州律师资格考试，但经验丰富的律师不应该比相信第一年助理撰写的法律备忘录更信任它的法律备忘录。

ChatGPT 的统计特性在被要求解决数学问题时最为明显。提示它对某个多项三角函数进行积分，ChatGPT 可能会给出看似合理但不正确的答案。要求它描述得出答案所采取的步骤，它可能会再次给出看似合理的答案。再次询问，它可能会给出完全不同的答案。应该只有一个正确答案，并且只有一个分析步骤序列来得出该答案。这强调了一个事实，即 ChatGPT 并不“理解”数学问题，也不应用数学解决方案所需的计算算法推理。

LLM 的随机统计性质也使它们容易受到数据科学家所谓的“幻觉”的影响，即他们把幻想当成现实。如果他们能提供错误但令人信服的文本，LLM 也可能传播错误信息并被用于非法或不道德的目的。例如，不良行为者可能会促使 LLM 以知名出版物的风格撰写文章，然后将其作为虚假新闻传播。或者他们可以利用它来欺骗客户，获取敏感的个人信息。出于这些原因，摩根大通和德意志银行等公司已禁止使用 ChatGPT。

我们如何解决与 LLM 相关的不准确、意外和误用问题？对经过预先训练的 LLM 进行微调，使其能够根据精选的特定领域数据提高响应的准确性和适当性。例如，Casetext 公司依靠预先训练的 ChatGPT-4，但为其 CoCounsel 应用程序补充了额外的训练数据（来自美国所有联邦和州司法管辖区的法律文本、案例、法规和法规），以改进其响应。它根据用户想要完成的特定法律任务推荐更精确的提示；CoCounsel 始终引用其获取响应的来源。

在初始训练的基础上应用某些额外的训练技术，例如从人类反馈中强化学习 (RLHF)，也可以降低 LLM 被误用或误传的可能性。RLHF 根据人类判断对 LLM 的回答进行“评分”。然后，这些数据作为训练的一部分反馈到神经网络中，以降低 LLM 将来对类似提示做出不准确或有害回答的可能性。当然，什么是“适当”的回答取决于观点，因此 RLHF 并非万能药。

“红队”是另一种改进技术，用户可以通过该技术“攻击”LLM 以发现其弱点并加以修复。红队成员编写提示来说服 LLM 做它不应该做的事情，以防现实世界中恶意行为者做出类似的尝试。通过识别潜在的不良提示，LLM 开发人员可以围绕 LLM 的响应设置护栏。虽然这样的努力确实有帮助，但并非万无一失。尽管在 ChatGPT-4 上进行了广泛的红队测试，但用户仍然可以设计提示来绕过其护栏。

另一个可能的解决方案是部署额外的人工智能来监督 LLM，方法是创建一个与 LLM 并行的二级神经网络。这个第二个人工智能经过训练，可以根据某些道德原则或政策判断 LLM 的回答。根据判断人工智能，LLM 的回答与“正确”回答之间的“距离”会作为其训练过程的一部分反馈给 LLM。这样，当 LLM 考虑对提示的回答选择时，它会优先考虑最合乎道德的回答。

透明度

ChatGPT 和 LLM 具有 AI 和机器学习 (ML) 应用程序的共同缺点：它们本质上是黑匣子。甚至连 OpenAI 的程序员都不知道 ChatGPT 是如何配置自身以生成文本的。模型开发人员通常在将模型提交给程序代码之前设计模型，但 LLM 使用数据来配置自身。LLM 网络架构本身缺乏理论基础或工程：程序员选择许多网络功能只是因为它们有效，而不一定知道它们为什么有效。

这种固有的透明度问题导致了一个全新的 AI/ML 算法验证框架的出现——所谓的可解释或可解释的 AI。模型管理社区已经探索了各种方法来围绕 AI/ML 预测和决策建立直觉和解释。许多技术试图了解输入数据的哪些特征产生了输出，以及它们对某些输出的重要性。其他人则对 AI 模型进行逆向工程，以在仅适用某些特征和输出的局部领域中构建更简单、更可解释的模型。不幸的是，随着模型的变大，可解释的 AI/ML 方法变得越来越复杂，因此进展缓慢。据我所知，还没有一种可解释的 AI/ML 成功应用于 ChatGPT 规模和复杂性的神经网络。

鉴于可解释或可解读的人工智能/机器学习进展缓慢，有充分理由对 LLM 制定更多监管规定，以帮助公司防范不可预见或极端的情况，即“未知的未知数”。LLM 的日益普及和生产率提高的潜力使得彻底禁止使用它们变得不切实际。因此，公司的模型风险管理政策不应过多地关注验证这些类型的模型，而应关注实施全面的使用和安全标准。这些政策应优先考虑 LLM 的安全和负责任的部署，并确保用户检查输出响应的准确性和适当性。在这种模型治理范式中，独立模型风险管理不会检查 LLM 的工作方式，而是审核业务用户依赖 LLM 执行特定任务的理由和理由，并确保使用它们的业务部门在模型输出和业务流程本身中都已采取了保障措施。

下一步是什么？

ChatGPT 和 LLM 代表了 AI/ML 技术的巨大飞跃，让我们更接近通用人工智能。但采用 ChatGPT 和 LLM 也存在重大限制和风险。企业必须首先采用上述新的模型风险管理标准，然后才能在其业务中部署 LLM 技术。良好的模型治理政策重视 LLM 的巨大潜力，但通过降低其固有风险来确保其安全和负责任地使用。

如果你喜欢这篇文章，别忘了订阅 进取的投资者。

所有文章仅代表作者的观点。因此，这些文章不应被视为投资建议，所表达的观点也不一定反映 CFA 协会或作者雇主的观点。

CFA 协会会员的专业学习

CFA 协会会员有权自行决定和报告所获得的专业学习 (PL) 学分，包括以下内容 进取的投资者. 会员可以使用在线 PL 追踪器轻松记录积分。

关键词：

ChatGPT 和大型语言模型：其风险和局限性

性能和数据

幻觉、不准确和误用

透明度

下一步是什么？

CFA 协会会员的专业学习

Related Posts

伊朗核协议是什么，特朗普为什么从美国撤出了美国？

每年的低点有3个选秀权。

零哈什通过Polkadot集成扩展区块链生态系统

劳动鞭辞去了计划中的英国福利削减

白厅官员试图说服戈夫勋爵掩盖美容丑闻，他告诉天空新闻|政治新闻

美国法官阻止特朗普计划将各州的运输资金与移民执法联系起来

以色列说伊朗发射了堆积的炸弹导弹