NVIDIA的Llama 3.2 Nemo Retriever增强了多模式的抹布管道

乔格·希勒（Joerg Hiller）
7月1日，2025年02:53

NVIDIA引入了Llama 3.2 Nemo ReTriever多模式嵌入模型，通过整合视觉和文本数据处理来提高检索效率的生成管道的效率和准确性。

NVIDIA揭示了Llama 3.2 Nemo Retriever多模式嵌入模型，这是检索效果生成（RAG）管道的重大进步，从而增强了视觉和文本数据处理的整合。根据NVIDIA的博客，该模型旨在解决多模式数据的复杂性，该数据涵盖了图像，视频，音频和其他文本以外的其他格式。

视觉语言模型的进步

视觉语言模型（VLM）在弥合视觉和文本信息之间的差距方面一直是关键的。这些模型通过处理文本和图像来促进应用程序，例如视觉提问和多模式搜索。 VLMS的最新进展导致了Gemma 3，Paligemma和Llava-1.5等模型的发展，这些模型更有效地处理复杂的视觉数据。

传统的RAG管道主要集中在文本数据上，需要从文档中进行复杂的文本提取过程。 VLM的引入简化了这些过程，尽管它们仍然容易受到不准确的影响，称为幻觉。为了抵消这一点，NVIDIA强调了由多模式嵌入模型促进的精确检索步骤的重要性。

Llama 3.2 Nemo Retriever多模式嵌入模型，其16亿参数经过精心设计，可将图像和文本映射到共享的特征空间中，从而增强了跨模式检索任务。该模型对于诸如产品搜索引擎或内容推荐系统之类的应用程序特别有效，在这些应用程序中，快速准确的检索至关重要。

该模型通过绕过基于文本文档嵌入所需的传统多步工作流来简化文档检索过程。它直接嵌入了原始页面图像，在捕获文本语义的同时保留了视觉信息，从而简化了检索管道。

与其他视觉嵌入模型相比，诸如Vidore V1，Digital Corpora和收入等数据集的绩效评估证明了该模型的出色检索精度，该检索精度与其他视觉嵌入模型相比。这些基准强调了其在检索相关文档图像和有效回答用户查询方面的能力。

NVIDIA介绍Nemo Retriever Microservice标志着开发强大的多模式RAG管道迈出的一步，为企业增强了增强的工具，以提供高精度和数据隐私的实时业务见解。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：