The news is by your side.

Anthropic 推出 RSP 版本 3,进行重大人工智能安全检修

12


托尼·金
2026 年 2 月 24 日 20:48

经过 2.5 年的测试,Anthropic 发布了第三版负责任的扩展政策,将公司承诺与全行业建议分开。




Anthropic 发布了第三次负责任的扩展政策,标志着这家人工智能公司在实际实施两年半后,对如何缓解灾难性风险进行了重大调整。

该更新于 2026 年 2 月 24 日发布,引入了三项重大变化:明确区分 Anthropic 单独可以实现的目标与需要全行业行动的目标、具有公共问责指标的新前沿安全路线图,以及在某些条件下对风险报告进行强制外部审查。

实际发生了什么变化

最显着的转变? Anthropic 现在公开承认,某些安全措施根本无法由一家公司来实施。之前的 RSP 的更高级别的保障措施(ASL-4 及更高级别)故意含糊不清,事实证明这不仅仅是谨慎,而是因为单方面实现这些保障措施可能是不可能的。

Anthropic 援引兰德公司的一份报告称,旨在阻止顶级网络威胁的“SL5”安全标准“目前不可能”,“可能需要国家安全界的帮助”。

Anthropic 没有淡化这些要求以使合规变得容易,而是选择完全重组。新的RSP现在明确规划了两条轨道:无论外部因素如何,公司都将履行的承诺,以及它认为整个人工智能行业需要采纳的建议。

诚实的评估

Anthropic 对 RSP 版本 1 和 2 的事后剖析令人耳目一新的坦率。有效的方法:该政策迫使内部团队将安全视为启动要求,而 OpenAI 和 Google DeepMind 等竞争对手在几个月内就采用了类似的框架。 ASL-3 保障措施于 2025 年 5 月成功启动。

什么不起作用:事实证明,能力阈值比预期的更加模糊。生物风险评估提供了一个生动的例子——模型现在通过了大多数快速测试,因此很难说风险较低,但结果也不足以证明风险较高。当湿实验室试验完成时,更强大的模型已经发货。

政治环境并没有起到帮助作用。随着政策重点转向人工智能竞争力和经济增长,联邦以安全为导向的讨论陷入停滞。

新的问责机制

前沿安全路线图引入了具体的、公开分级的目标,包括信息安全的“登月研发”项目、超过当前漏洞赏金贡献的自动化红队系统,以及所有关键人工智能开发活动的综合记录——由人工智能分析内部威胁。

风险报告将每 3-6 个月发布一次,解释功能、威胁模型和缓解措施如何结合在一起。具有“未编辑或最低限度编辑权限”的外部审阅者将公开批评 Anthropic 的推理。

尽管当前模型尚未触发外部审查要求,但该公司已经开始进行试点。

行业影响

此次重组是在人工智能治理框架面临越来越严格的审查之际进行的。加州的 SB 53、纽约的 RAISE 法案和欧盟人工智能法案的实践准则都已开始要求前沿开发人员发布灾难性风险框架——Anthropic 通过其现有的前沿合规框架满足了这些要求。

竞争对手是否会效仿 Anthropic 将单方面承诺与行业建议分开的做法还有待观察。这种方法本质上承认自愿的自我监管是有局限性的,同时让公司倡导协调政府行动,而不是要求公司自己无法遵守的规则。

对于更广泛的人工智能领域来说,Anthropic 透明地承认单个公司无法单独实现的目标可能比技术政策细节本身更具影响力。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻