费利克斯·平克斯顿
2024年8月23日 13:42
探索为确认实现人类水平的通用人工智能 (AGI) 而提出的关键测试,详见 SingularityNET (AGIX)。
SingularityNET (AGIX) 表示,确认实现人类级别的通用人工智能 (AGI) 需要经过多项严格测试。这些测试旨在探索机器像人类一样思考、推理和行动的不同维度。
图灵测试:智力的基本测量方法
图灵测试由艾伦·图灵于 1950 年提出,至今仍是人工智能领域的标志性基准。它评估机器是否能够表现出与人类无异的智能行为。尽管图灵测试具有基础地位,但通过它主要证明的是机器的语言能力,而不是真正的理解或意识。有趣的是,一些大型语言模型已经通过了这项测试,成功欺骗对话伙伴的几率为 54%。
Winograd Schema 挑战:从语言到理解
Winograd Schema Challenge (WSC) 要求机器通过常识推理和世界知识来解决歧义代词,从而解决了图灵测试的局限性。成功应对此类挑战表明理解水平更高,更接近人类的认知过程。尽管大型语言模型在处理 Winograd Schema 类任务方面表现出一定能力,但它们并没有像最初设想的那样始终如一地通过 WSC。
咖啡测试:物理世界中的实用智能
咖啡测试由苹果联合创始人史蒂夫·沃兹尼亚克提出,要求人工智能机器人进入普通家庭,在无人干预的情况下制作一杯咖啡。这项测试衡量人工智能将各种形式的知识整合成连贯而有目的的行动的能力,展示现实世界应用所必需的实用情境智能。
机器人大学生测试:实现多元化知识
机器人大学生测试最初由 SingularityNET 首席执行官 Ben Goertzel 博士提出,设想一个 AGI 系统进入大学,与人类学生一起上课,并成功获得学位。这项测试要求人工智能展示其在各个学科领域的熟练程度,参与讨论,完成作业并通过考试。
就业测试:在人性化的工作环境中发挥作用
就业测试评估人工智能是否能够胜任人类可以做的任何工作,而无需特殊调整。这项测试要求人工智能快速学习新工作、适应不断变化的工作条件,并以社交适宜的方式与人类同事互动。
道德推理测试:探索人类价值观和道德
道德推理测试评估人工智能做出符合人类价值观的决策的能力,特别是在经典电车难题等道德困境中。该测试评估人工智能的推理过程、对道德原则的理解以及以与人类道德直觉产生共鸣的方式证明其决策合理性的能力。
确认 AGI 的多方面挑战
确认 AGI 不仅仅涉及技术进步,它还需要在机器中复制人类认知的深度和广度。这些测试中的每一个都针对通用智能的不同方面,形成了一个全面的框架,用于评估工程系统是否真正实现了人类水平的 AGI。结合各个领域的严格评估——语言理解、推理、实际问题解决、社交互动和道德决策——可能会对人工智能的能力进行全面评估。
如需阅读原始详细文章,请访问 SingularityNET。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news