卡罗琳·毕晓普(Caroline Bishop)
2025年4月11日07:27
NVIDIA的NEMO GuardRails与清洁行的可信赖语言模型合作,旨在通过防止AI生成的响应中的幻觉来提高AI的可靠性。
随着企业在其应用程序中越来越多地采用大型语言模型(LLM),出现了一个紧迫的问题:产生误导性或不正确的输出,通常称为“幻觉”。为了解决这个问题,NVIDIA将清洁行的可信语言模型(TLM)集成到其Nemo Guardrails平台中,旨在提供强大的解决方案来增强AI可靠性。
NVIDIA NEMO护栏概述
Nvidia Nemo Guardrails是一个综合平台,旨在在生成AI应用程序中执行AI政策。它提供了一个可扩展的框架,可确保内容安全性,检测潜在的越狱和控制对话主题。该平台集成了NVIDIA的专有安全机制和第三方解决方案,为AI安全提供了统一的方法。
例如,Nemo Guardrails与NVIDIA的Llama 3.1 Nemoguard内容安全NIM和Meta的Llama Guard一起利用LLM自我检查。这些工具对AI生成的文本进行实时审核,以针对预定义的策略,立即标记任何违规行为。此外,该平台还支持与ActiveFence的ActivesCore等外部护栏的集成,从而增强了其灵活性和全面性。
清洁lab可信的语言模型概述
将清洁行的可信语言模型集成到NEMO护栏中标志着AI安全方面的重大进步。 TLM通过先进的不确定性估计技术得分LLM输出的可信值。此功能对于诸如客户支持系统之类的应用至关重要,如果认为不可信任的话,可以将AI生成的响应升级为人类代理。
TLM在需要检索增强发电(RAG)的情况下特别有益,在该场景中,它会标记潜在的不可靠响应。它支持自动化的LLM系统在分类信息和执行工具调用方面具有更大的可靠性。
现实世界应用:客户支持AI助理
为了展示TLM与Nemo Guardrails的集成,NVIDIA为电子商务平台开发了客户支持AI助理。该助手使用公司政策作为上下文指南处理有关运输,退货和退款的查询。
实际上,当客户查询产品的退货政策时,AI助手参考了该政策,以确保其响应与已记录的指南保持一致。如果响应似乎不信任,TLM会提示系统提供后备响应或向人类代理升级查询。
评估和实施
在各种客户支持方案中,护栏已经证明了它们有效检测和管理幻觉的能力。例如,当被问及非缺陷项目的退款时,AI助理提供了具有很高的可信度得分的答复,并紧密地遵守了政策指南。
相反,在政策模棱两可的情况下,例如有关返回特定类型珠宝的询问,护栏将回应标记为潜在的误导,选择升级该问题进行人类审查。
这些护栏的实现涉及配置Nemo Guardrails框架以利用清洁行的TLM API,该框架评估了AI响应的可信度。根据可信赖性分数,系统决定是向用户提供响应还是升级。
结论
NVIDIA将清洁行的可信语言模型集成到Nemo Guardrails中,为增强AI应用程序的可靠性提供了有力的解决方案。通过应对幻觉的挑战,这项合作为开发人员提供了建立更安全,更值得信赖的AI系统的工具。清洁行的参与NVIDIA的成立计划进一步强调了其对AI技术和创新的承诺。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: