介绍
苹果公司最近的一份出版物认为,大型语言模型 (LLM) 无法有效地进行推理。虽然这种关于开箱即用性能的说法有一些优点,但本文表明,通过正确的应用,法学硕士确实可以解决复杂的推理问题。
最初的实验:爱因斯坦之谜
我们开始使用爱因斯坦谜题来测试法学硕士的推理能力,这是一个复杂的逻辑问题,涉及 5 个具有不同特征的房子和 15 条线索来确定谁拥有一条鱼。我们对领先的法学硕士的初步测试显示出不同的结果:
· OpenAI 的模型正确猜出了答案,但没有明确的推理
· 克劳德提供了错误的答案
· 当我们用新元素(汽车、爱好、饮料、颜色和工作)修改谜题时,两种模型都显着失败
思想树方法及其挑战
我们实施了思想树方法,该模型将:
1. 猜测房屋布置
2.利用批评家来评估违规行为
3.将此信息反馈给下一轮
然而,这揭示了一些有趣的推理失败:
逻辑解释问题
批评家常常在基本逻辑概念上遇到困难。例如,在评估规则“水管工住在粉红房子旁边”时,我们收到了以下令人困惑的回应:
“水管工住在 2 号房子,也就是粉红色的房子。由于水管工住在粉红色的房子里,这意味着水管工住在粉红色的房子旁边,也就是 1 号房子(橙色)。”
偏置干扰
这些模型有时会在推理中插入毫无根据的偏见。例如:
“橙色的房子不能在 1 号房子里,因为水管工住在那里,而且水管工不开保时捷。”
这些模型还对保时捷驾驶员会听什么音乐进行了假设,展示了内部偏见如何干扰纯粹的逻辑推理。
通过代码生成的解决方案
虽然直接推理存在局限性,但我们发现法学硕士在用作代码生成器时可以表现出色。我们要求 SCOTi 编写 MiniZinc 代码来解决这个难题,从而产生了格式良好的约束规划解决方案。这种方法的主要优点是:
1.每条规则都可以清晰地翻译成代码语句
2. 生成的代码具有高度可读性
3. MiniZinc可以高效解决难题
清晰规则翻译示例
MiniZinc 代码展示了谜题规则到约束的优雅转换。例如:
% Statement 11: The man who enjoys Music lives next to the man who drives Porsche % Note /\ means AND in minizinc constraint exists(i,j in 1..5)(abs(i-j) == 1 /\ hobbies(i) = Music /\ cars(j) = Porsche);
如果您想获得完整的 MiniZinc 代码,请私信我。
影响和结论
该实验揭示了有关 LLM 能力的几个重要见解:
1. 复杂逻辑的直接推理对于法学硕士来说可能具有挑战性
2. 简单的规则应用效果很好,但当需要多个推理步骤时性能会下降
3. 法学硕士在用作代理来生成解决逻辑问题的代码时表现出色
4. LLM代码生成和传统约束求解工具的结合创建了强大的解决方案
关键的一点是,虽然法学硕士可能会在某些类型的直接推理方面遇到困难,但当它们作为一个更大的系统的组件正确应用时,它们可以非常有效。这代表了软件开发能力的重大进步,展示了法学硕士在战略性使用而不是作为独立推理引擎时如何能够带来变革。
这项研究强化了这样的观点:法学硕士最好被理解为变革性软件组件,而不是完整的推理系统。随着我们更好地了解如何利用它们的优势并克服它们的局限性,它们对软件开发和问题解决的影响将继续发展。
关键词:Finextra,新闻,在线,银行,银行,技术,金融,金融,fin,科技,fintech,IT, )打破(t)最新(t)零售(t)交易(t)贸易(t)执行(t)头条新闻(t)区块链(t)数字(t)投资(t)移动(t)商业(t)挑战者,支付,监管科技,保险科技,服务