我们是AI机器中的新Gremlins

By Prof.Brand On 6 月 26, 2025

随时通知免费更新

我的一位亲戚在共同大流行期间在医疗保健工作中工作时听到了一些奇怪的故事。她的工作是帮助呼叫者完成锁定期间使用数百万次的快速横向流程测试。但是一些呼叫者对该程序显然感到困惑。 “所以，我在管子里喝了液体。我现在该怎么办？”问一个。

这种用户混乱可能是一个常见技术问题的极端例子：普通人如何在现实世界中使用产品或服务可能与设计师在实验室中的意图差异。

有时，无论好坏，滥用都可能是故意的。例如，没有边界的竞选组织记者试图通过隐藏在几个威权国家的自由言论 Minecraft 视频游戏服务器。同时，犯罪分子一直在使用Home 3D打印机来制造不可追踪的枪支。但是，与共同测试一样，滥用通常是无意的。称其为无意的滥用问题，或简称为“小鬼”。机器中的新gremlins很可能是聊天机器人中的小脑。

以通用聊天机器人（例如Chatgpt）为例，其中17％的美国人每月至少一次使用一次自我诊断的健康问题。这些聊天机器人具有惊人的技术功能，几年前看起来像是魔术。根据各种测试，就临床知识，分类，文本摘要和对患者问题的回答而言，最好的模型可以与人类医生相匹配。例如，两年前，英国的一位母亲成功地使用了Chatgpt来识别她的儿子中有17位医生错过的儿子中的束缚绳综合症（与Spina Bifida有关）。

这提示了这些聊天机器人有一天可能成为医疗保健提供的新“前门”的前景，以较低的成本提高了访问权限。本周，英国卫生部长Wes Streeting承诺使用人工智能升级NHS应用程序，以提供“口袋里的医生，以指导您照顾您”。但是最好使用它们的方式与最常用的方式并不相同。牛津互联网研究所（Oxford Internet Institute）最新的一项研究突出了一些令人不安的缺陷，用户努力有效地使用它们。

研究人员招募了1,298名参与者参加了一项随机，对照试验，以测试他们如何使用聊天机器人来应对10种医疗情况，包括急性头痛，骨折和肺炎。要求参与者确定健康状况并找到建议的行动方案。使用了三个聊天机器人：OpenAI的GPT-4O，Meta的Llama 3和Cohere's Command R+，它们的特征略有不同。

当将测试方案直接输入AI模型时，聊天机器人在94.9％的情况下正确识别了条件。但是，参与者的情况差得多：他们提供了不完整的信息，聊天机器人经常误解了他们的提示，导致成功率下降到仅为34.5％。这些模型的技术能力并没有改变，但人类的投入确实会导致非常不同的输出。更糟糕的是，测试参与者的表现也胜过对照组，他们无法访问聊天机器人，而是咨询了常规搜索引擎。

此类研究的结果并不意味着我们应该停止使用聊天机器人进行健康建议。但这确实表明，设计师应该更加关注普通人如何使用其服务。一家AI公司的创始人告诉我：“工程师倾向于认为人们错误地使用了技术。因此，任何用户故障都是用户的错。但是考虑用户的技术技能对于设计至关重要。”寻求医疗建议的用户尤其如此，其中许多人可能是绝望的，生病的或老年人，表现出精神劣化的迹象。

更多的专业医疗保健聊天机器人可能会有所帮助。但是，最近的一项斯坦福大学的研究发现，一些广泛使用的治疗聊天机器人有助于解决心理健康挑战，还可以“引入偏见和失败，从而导致危险后果”。研究人员建议，应该包括更多的护栏，以完善用户提示，主动请求信息以指导互动并更清楚地进行交流。

科技公司和医疗保健提供商还应在现实情况下进行更多的用户测试，以确保适当使用其模型。开发强大的技术是一回事。学习如何有效部署它们是另一回事。当心小鬼。

[email protected]

关键词：

我们是AI机器中的新Gremlins