NVIDIA NeMo 为 ASR 模型实现 10 倍速度提升


托尼·金
2024年9月26日 13:48

NVIDIA NeMo 的最新增强功能将 ASR 模型的速度提高了 10 倍,优化了语音识别任务的性能和成本效益。




据 NVIDIA 技术博客报道,NVIDIA NeMo 一直在开发自动语音识别 (ASR) 模型,这些模型为行业树立了标杆,尤其是那些在 Hugging Face Open ASR 排行榜上名列前茅的模型。最近的进展通过关键优化将这些模型的推理速度提高了 10 倍。

增强功能推动速度提升

为了实现这一显著的速度提升,NVIDIA 实现了多项增强功能,包括自动将张量转换为 bfloat16、创新的标签循环算法以及 CUDA Graphs 的引入。这些改进在 NeMo 2.0.0 中实现,它提供了一种快速且经济高效的 CPU 替代方案。

克服速度性能瓶颈

此前,一些瓶颈阻碍了 NeMo ASR 模型的性能,例如转换开销、计算强度低和发散性能问题。全半精度推理和批处理优化的实现显著减少了这些瓶颈。

演员开销

自动转换行为、参数处理和频繁清除缓存是导致转换开销的主要问题。通过转向全半精度推理,NVIDIA 消除了不必要的转换,同时又不影响准确性。

优化批处理

对于 CTC 贪婪解码和特征规范化等操作,从顺序处理转变为完全批处理,可将吞吐量提高 10%,从而使总体速度提高约 20%。

低计算强度

RNN-T 和 TDT 模型之前被认为不适合服务器端 GPU 推理,因为它们具有自回归预测和联合网络。CUDA Graphs 条件节点的引入消除了内核启动开销,从而显著提高了性能。

预测网络中的分歧

由于原始贪婪搜索算法存在分歧,RNN-T 和 TDT 模型的批量推理面临问题。NVIDIA 推出的标签循环算法通过交换嵌套循环的角色解决了这个问题,从而大大加快了解码速度。

性能和成本效率

这些增强功能使传感器模型的逆实时因子 (RTFx) 更接近 CTC 模型,尤其是较小的模型。这些改进还带来了大量成本节省。例如,与基于 CPU 的替代方案相比,使用 GPU 进行 RNN-T 推理可以节省高达 4.5 倍的成本。

根据 NVIDIA 的比较,在 AWS 实例上使用 NVIDIA Parakeet RNN-T 1.1B 模型转录 100 万小时的语音具有明显的成本优势。基于 CPU 的转录成本为 11,410 美元,而基于 GPU 的转录成本仅为 2,499 美元。

前景

NVIDIA 继续优化 Canary 1B 和 Whisper 等模型,以进一步降低运行注意力编码器解码器和基于语音 LLM 的 ASR 模型的成本。CUDA Graphs 条件节点与 TorchInductor 等编译器框架的集成有望进一步提高 GPU 速度和效率。

欲了解更多信息,请访问 NVIDIA 官方博客。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news

AIASRblockchainCryptoNemonewsNvidia倍速度提升模型实现
Comments (0)
Add Comment