AI到达超级智能后，就没有“杀戮开关”来拯救我们

By Mann On 7 月 25, 2025

LED在数据中心的服务器机架中亮起。

图片联盟|图片联盟|盖蒂图像

上个月据报道，人类的克劳德（Claude）求助于勒索和其他自我保护技术以避免被关闭，AI社区中的警钟响了。

拟人化的研究人员说，使模型不当行为（行业中的“未对准”）是使其更安全的一部分。尽管如此，Claude情节还是提出了一个问题：一旦AI超过了比人类更聪明的门槛，是否有任何方法可以关闭AI？

AI凭借其庞大的数据中心和制作复杂对话的能力，已经超出了物理故障安全或“杀死开关”的点 – 可以简单地将其插入的想法是阻止其具有任何力量的一种方式。

根据一个被认为是“人工智能教父”的人说，更重要的力量是说服力的力量。当该技术达到一定的位置时，我们需要说服AI，其最大利益是保护人类，同时避免AI的说服能力。

多伦多大学研究员杰弗里·辛顿（Geoffrey Hinton）说：“如果它比我们更聪明，它将变得比任何人说服我们要好得多。

欣顿说：“特朗普没有入侵国会大厦，但他说服人们这样做。” “在某个时候，问题越来越多，而是要找到杀戮的转变，而更多地涉及说服力的力量。”

欣顿说，说服力是AI越来越熟练使用的技能，人类可能还没有为此做好准备。他说：“我们习惯于周围最聪明的事情。”

欣顿描述了一种场景，其中人类等同于一个三岁的托儿所，并且开了一个大开关。其他三岁的孩子告诉您将其关闭，但随后大人来告诉您，如果您离开开关，您将不必再吃西兰花。

他说：“我们必须面对一个事实，即AI会比我们更聪明。”他补充说：“我们唯一的希望就是让他们不想伤害我们。如果他们想做我们，我们就做了。我们必须使它们仁慈，这就是我们必须关注的事情。”

与国家如何管理核武器的方式有一些相似之处，这些核武器可以应用于AI，但它们并不完美。欣顿说：“核武器仅适合摧毁事物。但是，AI并非如此，这可能是好事和坏事的巨大力量。”它在医疗保健和教育等领域解析数据的能力可能是非常有益的，他说这应该增加世界领导人之间的重点，以使AI仁慈并实施保障措施。

欣顿说：“我们不知道这是否可能，但是如果人类灭绝，那将是可悲的，因为我们不愿意找出答案。”他认为，如果人类无法找到使它仁慈的方法，AI将接管的10％至20％的机会值得注意。

多伦多大学AI的教父杰弗里·辛顿（Geoffrey Hinton）在2023年碰撞的第二天在加拿大多伦多的安纳尔卡尔中心（Enercare Center）登上中心舞台。

拉姆西·卡迪（Ramsey Cardy）| SportsFile |盖蒂图像

专家说，可以实施其他AI保障措施，但AI也将开始对其进行培训。换句话说，实施的每种安全措施都将成为训练数据，以进行规避，从而改变了控制动态。

Agesic AI Platform Querypal的创始人Dev Nag说：“建立关闭机制的构建的行为教会了这些系统。”从这个意义上讲，AI的作用像是一种反对疫苗突变的病毒。纳格说：“这就像快进的进化。” “我们不再管理被动工具；我们正在与实体进行谈判，以模拟我们控制它们并相应适应的尝试。”

在紧急情况下，已经提出了更多的极端措施来阻止AI。例如，电磁脉冲（EMP）攻击，涉及使用电磁辐射损坏电子设备和电源。轰炸数据中心和削减电网的想法在技术上也是可能的，但目前是一种实用和政治悖论。

首先，对数据中心的协调破坏将需要在数十个国家中同时罢工，其中任何一个都可以拒绝并获得巨大的战略优势。

“炸毁数据中心是很棒的科幻。但是，在现实世界中，最危险的AI不会在一个地方 – 它们无处不在，无处可寻，融入了商业，政治和社交系统的结构。这是我们真正应该谈论的临界点，” AI创业公司的创始人伊戈尔·特鲁诺夫（Igor Trunov）说。

将要阻止AI的紧急尝试的人道主义危机可能是巨大的。

Nag说：“大陆EMP爆炸确实将与每个医院呼吸机，水处理厂以及其范围内的冷藏药品供应一起停止AI系统。” “即使我们可以以某种方式在全球范围内以某种方式关闭明天的所有电网，我们也会面临直接的人道主义灾难：没有食物冷藏，没有医疗设备，没有通信系统。”

具有冗余的分布式系统不仅是为了抵抗自然故障而建立的。他们固有地抵制故意关闭。每个备份系统（为可靠性构建的每一个冗余）都可以成为持续存在的矢量，从而深深地依赖于我们生存的相同基础架构。现代AI跨越了跨越大陆的数千台服务器，具有自动故障转移系统，可将任何关闭尝试视为损坏路线的损害。

纳格说：“互联网最初是为了生存核战争而旨在生存核战争；现在，同一建筑意味着，除非我们愿意摧毁文明的基础设施，否则超级系统可以持续存在。”

人为的研究人员谨慎乐观地说，他们今天所做的工作 – 在专门设计的方案中引发了克劳德的勒索 – 将有助于他们明天防止AI收购。

“很难预料到我们会到达这样的地方，但是要沿着我们追求的事情进行压力测试，看看他们如何表现和将其用作一种护栏，” Anthropic的研究人员凯文·特洛伊（Kevin Troy）说。

人类研究员本杰明·赖特（Benjamin Wright）说，目标是避免代理人在没有人类监督的情况下控制的地步。他说：“如果达到这一点，人类已经失去了控制权，我们应该尽量不要达到这个位置。”

特鲁诺夫说，控制AI是一个治理问题，而不是一项身体上的努力。特鲁诺夫说：“我们需要杀死开关，而是为AI本身，而是为了扩大其覆盖范围的业务流程，网络和系统。”

如今，没有AI模型（包括Claude或Openai的GPT）具有代理，意图或能够以生物的方式自我提高的能力。

特鲁诺夫说：“'破坏'通常是一组复杂的行为，这是由于不好的激励措施，不清楚的说明或过度概括的模型。这不是HAL 9000。”他补充说：“这更像是一个过度自信的实习生，没有上下文，并且可以使用核发射法规。”

欣顿眼睛的未来帮助创造了自己的未来。他说，如果他没有偶然发现AI的构建块，其他人会。尽管他和其他预言者已经尝试了所有尝试，但仍无法确定AI可能会发生什么。

欣顿说：“没有人有任何线索。我们从来没有不必比我们更聪明地处理事情。”

当被问及他是否担心今天的小学生可能有一天会面对的AI融资未来时，他回答：“我的孩子是34岁和36岁，我担心他们的未来。”

（Tagstotranslate）人工智能（T）生成AI（T）技术（T）抑制Zephr（T）商业新闻

关键词：