NVIDIA引入了高性能的FlashInfer，以进行有效的LLM推理

达里乌斯·巴鲁（Darius Baruo）
6月13日，2025年11:13

NVIDIA的FlashInfer通过优化的计算内核增强了LLM推理速度和开发人员速度，为有效的LLM服务引擎提供了可自定义的库。

Nvidia揭开了FlashInfer，这是一个尖端的库，旨在提高大语模型（LLM）推论的性能和开发人员速度。正如Nvidia最近的博客文章所强调的那样，这种发展将彻底改变推理内核的部署和优化。

FlashInfer的主要功能

FlashInfer旨在通过高度优化的计算内核最大化基础硬件的效率。该库是适应性的，可以快速采用新内核以及模型和算法的加速度。它利用块 – 板块和可组合格式来改善内存访问并减少冗余，而负载均衡的调度算法则适应动态用户请求。

Flashinfer集成到领先的LLM服务框架中，包括MLC引擎，SGLANG和VLLM，强调了其多功能性和效率。图书馆是保罗·G·艾伦·艾伦（Paul G.

该图书馆提供了一种灵活的体系结构，将LLM工作负载分为四个操作员家庭：注意力，GEMM，交流和采样。每个家庭都通过高性能的集体来暴露，这些集体将无缝集成到任何服务引擎中。

例如，注意模块利用统一的存储系统和模板和JIT内核来处理不同的推理请求动力学。 GEMM和通信模块支持高级功能，例如Experts和Lora层的混合物，而令牌采样模块则采用基于拒绝的，无排序的采样器来提高效率。

FlashInfer确保LLM推论保持灵活和防止，从而可以改变KV-CACHE布局和注意力设计，而无需重写内核。该能力使GPU的推理路径保持了高性能。

FlashInfer在PYPI上可用，可以使用PIP轻松安装。它提供了旨在从内核执行中解除内核编译和选择的割炬新型API，从而确保了低延迟LLM推理服务。

有关更多技术细节并访问库，请访问NVIDIA博客。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：