优化AI检索:选择最佳的分块策略


艾里斯·科尔曼(Iris Coleman)
6月18日,2025年17:01

探索AI系统的最佳分量策略,以提高检索准确性。从NVIDIA的实验中发现有关页面级,部分级别和基于令牌的块的见解。




在人工智能的领域,特别是在检索增强的一代(RAG)系统中,将大型文档分解成较小,易于管理的作品(众所周知的小块)的方法至关重要。根据NVIDIA的博客文章,较差的分解可能会导致结果和效率低下,从而影响AI响应的业务价值和功效。

块的重要性

分解在用于抹布管道的预处理中起着至关重要的作用,因为它涉及将文档分为可以有效地索引和检索的较小片段。实施良好的块策略可以显着提高检索的精度和上下文信息的连贯性,这对于产生准确的AI响应至关重要。对于企业而言,这可能意味着由于有效的资源利用率而降低了用户满意度和降低运营成本。

通过分块策略进行实验

NVIDIA的研究评估了各种分类策略,包括基于令牌的,页面级和部分级别的分块,跨多个数据集。目的是建立基于特定内容和用例的最有效方法的准则。这些实验涉及诸如DigitalCorpora767,FinanceBench等数据集,重点是检索质量和响应准确性。

实验的发现

该实验表明,页面级分块通常提供了最高的平均精度和不同数据集的最一致性。基于代币的块状虽然也有效,但根据块大小和重叠而显示出不同的结果。将文档结构用作自然边界的截面级别的块表现良好,但通常比页面级别的块表现出色。

分组策略选择指南

根据调查结果,提出了以下建议:

  • 页面级分块 由于其稳定的性能,建议将其作为默认策略。
  • 对于财务文件,请考虑将512或1,024的令牌尺寸考虑潜在的改进。
  • 查询的性质应指导块大小选择;事实查询受益于较小的块,而复杂的查询可能需要较大的块或页面级别的块。

结论

该研究强调了选择适当的分块策略以优化AI检索系统的重要性。虽然页面级分块作为强大的默认值出现,但数据和查询的特定需求应指导最终决策。使用实际数据测试对于实现最佳性能至关重要。

有关更详细的见解,您可以阅读NVIDIA博客上的完整博客文章。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

优化AI检索选择最佳的分块策略
Comments (0)
Add Comment