NVIDIA的Helix并行性用数百万令牌推理彻底改变了AI

丽贝卡·莫恩（Rebeca Moen）
7月9日，2025年01:36

NVIDIA引入了Helix ParalleleSism，这是AI中的突破性，可以更快地使用数百万个to语的上下文，增强性能和用户体验。

在朝着增强人工智能能力的大步迈进的过程中，NVIDIA揭开了螺旋并行性，这是一种开创性的方法，旨在优化处理数百万tove环境的AI模型。在NVIDIA的博客中强调的这一发展有望彻底改变AI应用程序在维持实时互动的同时如何管理大量数据。

解决AI模型中的瓶颈

现代AI应用程序通常由于解码瓶颈而面临挑战，主要源于键值（KV）缓存流和前馈网络（FFN）重量负载。这些问题可能会阻碍AI模型的效率，尤其是在处理大型数据集时。 Helix并行性旨在通过引入混合碎片策略来应对这些挑战，从而破坏关注和FFN的并行策略，从而优化KV缓存和FFN权重过程。

螺旋并行性增强性能

与NVIDIA的Blackwell Systems共同设计的Helix ParalleleSism量身定制，以利用高带宽大型NVLINK域和FP4计算功能。通过在给定延迟下，同时使用的用户数量最大增加了32倍，此方法可显着提高AI代理和虚拟助手的速度和效率，从而使他们能够同时为更多的用户提供服务，而不会损害性能。

技术见解和执行流

螺旋并行性的执行流与并行的多个维度（KV，Tensor和Expert）交织在一起，使得统一的执行循环。这种方法确保AI模型的每个阶段都可以最佳运行，从而有效地解决了瓶颈。该策略涉及将数百万token的KV缓存沿序列维度分解，并在注意力头上应用张量并行性，以确保在GPU中不重复KV缓存，从而提高可扩展性并降低潜伏期。

模拟结果和未来的前景

NVIDIA的Blackwell硬件上的仿真表明，Helix ParalleleSism为长篇小说大型语言模型（LLM）解码设定了新的基准。该方法在吞吐量和延迟中均提供了重大改进，并能够将并发用户的数量提高32次，并提高用户交互性的数量1.5倍。这一进步推动了吞吐量延迟的帕累托边境，即使在较低的延迟下也可以实现较高的吞吐量。

随着NVIDIA继续创新，Helix并行性是AI技术中的关键发展。通过解决关键瓶颈和增强性能，它为更高效和互动的AI应用铺平了道路。有关更多见解，您可以访问NVIDIA博客上的原始博客文章。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA的Helix并行性用数百万令牌推理彻底改变了AI

解决AI模型中的瓶颈

螺旋并行性增强性能

技术见解和执行流

模拟结果和未来的前景

Related Posts

印度团队很快再次访问华盛顿与我们进行贸易谈判：官方

铅笔金融推出了学生贷款的链链资本

欧洲天然气波动率在2021年以来最低的供应量最低

GBP/USD违反美元

为什么欧佩克+快速抽油并打硬球

PAGEGROUP帖子1​​0％Q2利润下降在欧洲弱点，确认前景

皇家邮政在周六报废二等职位|金钱新闻

PAGEGROUP帖子10％Q2利润下降在欧洲弱点，确认前景