劳伦斯·詹格(Lawrence Jengar)
7月18日,2025年08:45
AI共同推出了使用NVIDIA HGX B200对DeepSeek-R1-0528模型的世界最快推断,从而增强了现实世界应用的AI功能。
AI通过为DeepSeek-R1-0528型号提供了最快的推断,宣布了AI性能的重大进步,并利用了为NVIDIA HGX B200平台设计的推理引擎。根据ai的说法,这种开发将AI作为领先的平台,以大规模运行开源推理模型。
Nvidia Blackwell集成
今年早些时候,AI一起邀请了精选客户,包括Zoom和Salesforce等主要公司,在其GPU群集上测试NVIDIA Blackwell GPU。结果导致了更广泛的NVIDIA Blackwell支持,从而解除了AI应用程序的增强性能。截至2025年7月17日,该公司声称使用该技术实现了DeepSeek-R1的最快无服务器推理性能。
技术进步
新的推理引擎优化了堆栈的每一层,并结合了定制的GPU内核和专有推理引擎。这些创新旨在提高速度和效率,而不会损害模型质量。该堆栈包括最先进的投机解码方法和高级模型优化技术。
性能指标
AI的推理堆栈每秒可达到334个令牌,表现优于先前的基准。 NVIDIA的第五代张量核心和ThunderKittens框架的整合促进了这种性能,AI共同用于开发优化的GPU内核。
投机解码和量化
投机性解码可显着加速大型语言模型,通过使用较小,更快的投机器模型来预测前方的多个令牌。 AI的Turbo投机者通过在各种情况下保持高目标特异性对齐方式来超过现有模型。此外,AI共同开创了一种无损量化技术,该技术在降低计算开销的同时保持模型精度。
现实世界应用
这些增强功能旨在支持一系列AI工作负载,为推理和培训提供灵活的基础架构选项。专用端点提供了额外的优化,在保持质量和性能标准的同时,可提供大量速度的改进。
随着AI景观的继续发展,AI与NVIDIA的合作及其创新的推理引擎开发方法将其作为AI至上竞赛中强大的参与者。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: