NVIDIA NeMo 为 ASR 模型实现 10 倍速度提升

托尼·金
2024年9月26日 13:48

NVIDIA NeMo 的最新增强功能将 ASR 模型的速度提高了 10 倍，优化了语音识别任务的性能和成本效益。

据 NVIDIA 技术博客报道，NVIDIA NeMo 一直在开发自动语音识别 (ASR) 模型，这些模型为行业树立了标杆，尤其是那些在 Hugging Face Open ASR 排行榜上名列前茅的模型。最近的进展通过关键优化将这些模型的推理速度提高了 10 倍。

增强功能推动速度提升

为了实现这一显著的速度提升，NVIDIA 实现了多项增强功能，包括自动将张量转换为 bfloat16、创新的标签循环算法以及 CUDA Graphs 的引入。这些改进在 NeMo 2.0.0 中实现，它提供了一种快速且经济高效的 CPU 替代方案。

此前，一些瓶颈阻碍了 NeMo ASR 模型的性能，例如转换开销、计算强度低和发散性能问题。全半精度推理和批处理优化的实现显著减少了这些瓶颈。

自动转换行为、参数处理和频繁清除缓存是导致转换开销的主要问题。通过转向全半精度推理，NVIDIA 消除了不必要的转换，同时又不影响准确性。

对于 CTC 贪婪解码和特征规范化等操作，从顺序处理转变为完全批处理，可将吞吐量提高 10%，从而使总体速度提高约 20%。

RNN-T 和 TDT 模型之前被认为不适合服务器端 GPU 推理，因为它们具有自回归预测和联合网络。CUDA Graphs 条件节点的引入消除了内核启动开销，从而显著提高了性能。

由于原始贪婪搜索算法存在分歧，RNN-T 和 TDT 模型的批量推理面临问题。NVIDIA 推出的标签循环算法通过交换嵌套循环的角色解决了这个问题，从而大大加快了解码速度。

这些增强功能使传感器模型的逆实时因子 (RTFx) 更接近 CTC 模型，尤其是较小的模型。这些改进还带来了大量成本节省。例如，与基于 CPU 的替代方案相比，使用 GPU 进行 RNN-T 推理可以节省高达 4.5 倍的成本。

根据 NVIDIA 的比较，在 AWS 实例上使用 NVIDIA Parakeet RNN-T 1.1B 模型转录 100 万小时的语音具有明显的成本优势。基于 CPU 的转录成本为 11,410 美元，而基于 GPU 的转录成本仅为 2,499 美元。

NVIDIA 继续优化 Canary 1B 和 Whisper 等模型，以进一步降低运行注意力编码器解码器和基于语音 LLM 的 ASR 模型的成本。CUDA Graphs 条件节点与 TorchInductor 等编译器框架的集成有望进一步提高 GPU 速度和效率。

欲了解更多信息，请访问 NVIDIA 官方博客。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news