NVIDIA的Helix并行性用数百万令牌推理彻底改变了AI


丽贝卡·莫恩(Rebeca Moen)
7月9日,2025年01:36

NVIDIA引入了Helix ParalleleSism,这是AI中的突破性,可以更快地使用数百万个to语的上下文,增强性能和用户体验。




在朝着增强人工智能能力的大步迈进的过程中,NVIDIA揭开了螺旋并行性,这是一种开创性的方法,旨在优化处理数百万tove环境的AI模型。在NVIDIA的博客中强调的这一发展有望彻底改变AI应用程序在维持实时互动的同时如何管理大量数据。

解决AI模型中的瓶颈

现代AI应用程序通常由于解码瓶颈而面临挑战,主要源于键值(KV)缓存流和前馈网络(FFN)重量负载。这些问题可能会阻碍AI模型的效率,尤其是在处理大型数据集时。 Helix并行性旨在通过引入混合碎片策略来应对这些挑战,从而破坏关注和FFN的并行策略,从而优化KV缓存和FFN权重过程。

螺旋并行性增强性能

与NVIDIA的Blackwell Systems共同设计的Helix ParalleleSism量身定制,以利用高带宽大型NVLINK域和FP4计算功能。通过在给定延迟下,同时使用的用户数量最大增加了32倍,此方法可显着提高AI代理和虚拟助手的速度和效率,从而使他们能够同时为更多的用户提供服务,而不会损害性能。

技术见解和执行流

螺旋并行性的执行流与并行的多个维度(KV,Tensor和Expert)交织在一起,使得统一的执行循环。这种方法确保AI模型的每个阶段都可以最佳运行,从而有效地解决了瓶颈。该策略涉及将数百万token的KV缓存沿序列维度分解,并在注意力头上应用张量并行性,以确保在GPU中不重复KV缓存,从而提高可扩展性并降低潜伏期。

模拟结果和未来的前景

NVIDIA的Blackwell硬件上的仿真表明,Helix ParalleleSism为长篇小说大型语言模型(LLM)解码设定了新的基准。该方法在吞吐量和延迟中均提供了重大改进,并能够将并发用户的数量提高32次,并提高用户交互性的数量1.5倍。这一进步推动了吞吐量延迟的帕累托边境,即使在较低的延迟下也可以实现较高的吞吐量。

随着NVIDIA继续创新,Helix并行性是AI技术中的关键发展。通过解决关键瓶颈和增强性能,它为更高效和互动的AI应用铺平了道路。有关更多见解,您可以访问NVIDIA博客上的原始博客文章。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

NVIDIA的Helix并行性用数百万令牌推理彻底改变了AI
Comments (0)
Add Comment