达里乌斯·巴鲁(Darius Baruo)
6月13日,2025年11:13
NVIDIA的FlashInfer通过优化的计算内核增强了LLM推理速度和开发人员速度,为有效的LLM服务引擎提供了可自定义的库。
Nvidia揭开了FlashInfer,这是一个尖端的库,旨在提高大语模型(LLM)推论的性能和开发人员速度。正如Nvidia最近的博客文章所强调的那样,这种发展将彻底改变推理内核的部署和优化。
FlashInfer的主要功能
FlashInfer旨在通过高度优化的计算内核最大化基础硬件的效率。该库是适应性的,可以快速采用新内核以及模型和算法的加速度。它利用块 – 板块和可组合格式来改善内存访问并减少冗余,而负载均衡的调度算法则适应动态用户请求。
Flashinfer集成到领先的LLM服务框架中,包括MLC引擎,SGLANG和VLLM,强调了其多功能性和效率。图书馆是保罗·G·艾伦·艾伦(Paul G.
技术创新
该图书馆提供了一种灵活的体系结构,将LLM工作负载分为四个操作员家庭:注意力,GEMM,交流和采样。每个家庭都通过高性能的集体来暴露,这些集体将无缝集成到任何服务引擎中。
例如,注意模块利用统一的存储系统和模板和JIT内核来处理不同的推理请求动力学。 GEMM和通信模块支持高级功能,例如Experts和Lora层的混合物,而令牌采样模块则采用基于拒绝的,无排序的采样器来提高效率。
Future-Prover-Proving LLM推断
FlashInfer确保LLM推论保持灵活和防止,从而可以改变KV-CACHE布局和注意力设计,而无需重写内核。该能力使GPU的推理路径保持了高性能。
Flashinfer入门
FlashInfer在PYPI上可用,可以使用PIP轻松安装。它提供了旨在从内核执行中解除内核编译和选择的割炬新型API,从而确保了低延迟LLM推理服务。
有关更多技术细节并访问库,请访问NVIDIA博客。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: