艾丽斯·科尔曼
2024年8月27日 19:56
NVIDIA NIM 改进了检索增强生成 (RAG) 应用程序,简化了兽医学等专业领域的 AI 解决方案。
大型语言模型 (LLM) 的出现极大地促进了 AI 行业的发展,提供了能够生成类似人类的文本并处理各种任务的多功能工具。然而,虽然 LLM 展示了令人印象深刻的通用知识,但它们在兽医学等专业领域的表现在开箱即用时却受到限制。为了增强它们在特定领域的实用性,业界通常采用两种主要策略:微调和检索增强生成 (RAG)。
微调与 RAG
微调涉及在精心策划和结构化的数据集上训练模型,这需要大量硬件资源以及领域专家的参与,这个过程通常既耗时又费钱。不幸的是,在许多领域,以符合业务限制的方式获得领域专家的帮助非常困难。
相反,RAG 涉及构建一个全面的知识文献语料库,以及一个有效的检索系统,该系统提取相关文本块以解决用户查询。通过将检索到的信息添加到用户查询中,LLM 可以产生更好的答案。虽然这种方法仍然需要主题专家来策划数据集的最佳来源,但它比微调更易于处理和业务兼容。此外,由于不需要对模型进行大量训练,因此这种方法的计算量更少,成本效益更高。
NVIDIA NIM 和 NLP 管道
NVIDIA NIM 使用 LLM 简化了 NLP 管道的设计。这些微服务简化了跨平台生成式 AI 模型的部署,使团队能够自行托管 LLM,同时提供构建应用程序的标准 API。
NIM 抽象了模型推理内部结构(如执行引擎和运行时操作),从而确保使用 TensorRT-LLM、vLLM 等实现最佳性能。主要功能包括:
- 可扩展部署
- 通过优化的引擎支持多样化的 LLM 架构
- 灵活集成到现有工作流程中
- 具有安全张量和持续 CVE 监控的企业级安全性
开发人员可以使用 Docker 运行 NIM 微服务并使用 API 进行推理。通过修改容器命令,专门训练的模型权重还可用于特定任务,例如文档解析。
利用人工智能重新构想兽医护理
AITEM 是 NVIDIA 初创企业启动计划的成员,与 NVIDIA 的合作主要集中在多个领域的 AI 解决方案上,包括工业和生命科学。在兽医领域,AITEM 正在开发 LAIKA,这是一款创新的 AI 副驾驶,旨在通过处理患者数据并提供诊断建议、指导和说明来协助兽医。
LAIKA 集成了多个 LLM 和 RAG 管道。RAG 组件从精选的兽医资源数据集中检索相关信息。在准备过程中,每个资源被分成多个块,并计算嵌入并将其存储在 RAG 数据库中。在推理过程中,查询经过预处理,并使用几何距离度量计算其嵌入并将其与 RAG 数据库中的嵌入进行比较。最接近的匹配被选为最相关的,并用于生成响应。
由于 RAG 数据库中可能存在冗余,多个检索到的块可能包含相同的信息,从而限制了提供给答案系统的概念多样性。为了解决这个问题,LAIKA 采用最大边际相关性 (MMR) 算法来最大限度地减少块冗余并确保更广泛的相关信息。
NVIDIA NeMo Retriever 重新排名 NIM 微服务
NVIDIA API 目录包括 NeMo Retriever NIM 微服务,使组织能够将自定义模型无缝连接到各种业务数据并提供高度准确的响应。NVIDIA Retrieval QA Mistral 4B 重新排名 NIM 微服务旨在评估给定文本段落包含与回答用户查询相关的信息的概率。将此模型集成到 RAG 管道中可以过滤掉未通过重新排名模型评估的检索,确保只使用最相关和最准确的信息。
为了评估此步骤对 RAG 管道的影响,AITEM 设计了一个实验:
- 从 LAIKA 用户中提取约 100 个匿名问题的数据集。
- 运行当前 RAG 管道来检索每个问题的块。
- 根据重新排序模型提供的概率对检索到的块进行排序。
- 评估每个块与查询的相关性。
- 分析重新排序模型与步骤 4 中确定的相关性相关的概率分布。
- 将步骤 3 中块的排名与步骤 4 中的相关性进行比较。
LAIKA 中的用户问题形式各异。有些问题包含对情况的详细解释,但缺乏具体问题。有些问题包含有关研究的精确询问,而有些问题则根据临床病例或分析文件寻求指导或鉴别诊断。
由于每个问题的块数量很多,AITEM 使用 Llama 3.1 70B Instruct NIM 微服务进行评估,该微服务也可在 NVIDIA API 目录中找到。
为了更好地了解重新排序模型的性能,我们详细检查了特定查询和模型响应。表 1 突出显示了有关猫体重减轻的鉴别诊断的示例查询的顶部和底部重新排序块。
文本 | 重新排序 Logit |
体重减轻的原因可能特别难以诊断……包括不引起呕吐的胃病、不引起呕吐或腹泻的肠道疾病、肝脏疾病…… | 3.3125 |
对厌食、体重减轻、呕吐和腹泻等非特异性症状的鉴别诊断……猫很少患急性胰腺炎……症状不具有特异性且定义不清(厌食、嗜睡、体重减轻)。 | 2.3222 |
当出现癌症恶病质、消化不良/吸收不良时,可能会出现严重的体重减轻(伴有或不伴有食欲增加)……在某些情况下,例如猫的甲状腺功能亢进症,食欲可能会增加……但是,正常的食欲并不排除存在严重疾病。 | 2.2265 |
总体而言,体重减轻是最常见的症状……各组之间差别不大…… | -5.0078 |
其他客户投诉包括嗜睡、厌食、体重减轻、呕吐…… | -7.3672 |
有 6 只英国短毛猫、4 只欧洲短毛猫和 1 只孟加拉猫……主人报告的临床症状包括:食欲不振或厌食…… | -10.3281 |
图 4 比较了相关(好)和不相关(坏)块之间的重新排序模型概率输出分布(以 logit 为单位)。与坏块相比,好块的概率更高,t 检验证实了这种差异具有统计学意义,p 值低于 3e-72。

图 5 显示了重新排序引起的排序位置的分布差异:好块主要位于顶部位置,而坏块则位于较低位置。Mann-Whitney 检验证实这些差异具有统计意义,导致 p 值低于 9e-31。

图 6 显示了排名分布,有助于定义有效的截止点。在前五名中,大多数块都是好的,而位置 11-15 中的大多数块都是坏的。因此,仅保留前五次检索或其他选定的数字可以作为有效排除大多数坏块的一种方法。

为了优化检索管道,并在最大限度地提高准确性的同时最大限度地降低摄取成本,可以将轻量级嵌入模型与 NVIDIA 重新排名 NIM 微服务配对,以提高检索准确性。执行时间可以提高 1.75 倍(图 7)。

使用 NVIDIA Reranking NIM 微服务获得更好的答案
结果表明,将 NVIDIA 重新排序 NIM 微服务添加到 LAIKA RAG 管道会对检索到的块的相关性产生积极影响。通过将更精确、更专业的信息转发到下游应答 LLM,它为模型提供了兽医学等高度专业化领域所需的知识。
NVIDIA 重新排名 NIM 微服务(可在 NVIDIA API 目录中找到)简化了采用过程,因为您可以轻松提取和运行模型并通过 API 推断其评估结果。这消除了与环境设置和手动优化相关的压力,因为它已针对几乎所有平台进行了预量化和优化,并使用 NVIDIA TensorRT 进行了优化。
有关 LAIKA 和其他 AITEM 项目的更多信息和最新更新,请参阅 AITEM 解决方案并在 LinkedIn 上关注 LAIKA 和 AITEM。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news