超越嗡嗡声:GPT-5是失望还是安静的革命?:Andrei Smirnov的


数据科学实习生Soraya Panambalom的其他研究和报告

当GPT-5发布时,互联网上充斥着冷淡的评论。许多人称这是令人失望的,他认为这不是他们所承诺的“巨大飞跃”。因此,我们决定将其投入最终测试:一系列16个真正的英国会计考试

我们发现的是,这个故事并不是一个单一的飞跃。这是关于幕后发生的一场安静的革命。 AI的世界已经分为两条截然不同的道路……

  • “快速助手”(聊天模型):这些是GPT-4和标准GPT-5等日常AI。每次更新都聪明,快速且越来越好。 我们的测试表明,GPT-5聊天可实现稳定,一致的收益,例如,将管理会计评分从78%的GPT-4O提高到86%。这是一种进化,而不是一场革命。
  • “专家专家”(思维模型):这是魔术发生的地方。这些新的“思考”模型是为一件事而设计的:准确性。它们有意慢,因为他们从多个角度深入分析问题。他们不只是回答;他们是推理。这使得这是惊人的。例如,在艰难的会计法考试中,“快速助手”获得了74%的传球。 “专家专家”飙升至88%。这就是从能力到真正熟练程度的飞跃。

我们的会计评估中的第一个完美分数

这种新的GPT-5“思维”模型是明确的领导者,甚至超过其直接的前任O3思维模型。最令人惊叹的结果是在ACCA(特许认证会计师协会)管理会计考试中获得了完美的100%分数。

对于任何依赖准确性的企业,最终跳到完美的分数就是一切。这是有用的工具和值得信赖的顾问之间的区别。这是AI对于高风险金融世界变得足够可靠的那一刻。

我们看到的最强大的趋势是稳定,不可否认的迈向能力。看到这一点的最清晰方法是查看AI考试中的16个考试中有多少。

  • 18个月前,AI失败了这些考试中的6个。
  • 在我们的测试中,GPT-4O失败了4。
  • 新的GPT-5“思维”模型仅失败了1。

这是真实的故事。尽管公众寻求一个浮华的突破,但专业人士应该 – 并且将对这一一致,可预测的进步感到兴奋。对于企业而言,稳定的改善远比炒作更有价值。

那么,GPT-5是失望的吗?如果您只使用“快速助手”,您可能会这样认为。但是,如果您看着“专家专家”,您会看到一个安静但肯定可以掌握复杂专业世界的AI。

对我们来说,这是唯一重要的突破。

(tagstotranslate)FineXtra(T)新闻(T)在线(T)银行(T)银行(T)技术(T)技术(T)财务(T)财务(T)Financial(T)Fin(T)Tech(T)Tech(T)Fintech(T)Fintech(T)IT(T)IT(T)破坏(T)最新(T)最新(T)最新(T)零售(t)零售(T)t剥夺(t)贸易(t)执行(t)头条新闻(t)区块链(t)数字(t)投资(t)移动(t)业务(t)挑战者(t)付款(t)付款(t)Regtech(T)Regtech(T)Insurtech(T)Insurtech(t)服务



关键词:

Smirnov的超越嗡嗡声GPT5是失望还是安静的革命Andrei
Comments (0)
Add Comment