托尼·金
2024年9月26日 13:48
NVIDIA NeMo 的最新增强功能将 ASR 模型的速度提高了 10 倍,优化了语音识别任务的性能和成本效益。
据 NVIDIA 技术博客报道,NVIDIA NeMo 一直在开发自动语音识别 (ASR) 模型,这些模型为行业树立了标杆,尤其是那些在 Hugging Face Open ASR 排行榜上名列前茅的模型。最近的进展通过关键优化将这些模型的推理速度提高了 10 倍。
增强功能推动速度提升
为了实现这一显著的速度提升,NVIDIA 实现了多项增强功能,包括自动将张量转换为 bfloat16
、创新的标签循环算法以及 CUDA Graphs 的引入。这些改进在 NeMo 2.0.0 中实现,它提供了一种快速且经济高效的 CPU 替代方案。
克服速度性能瓶颈
此前,一些瓶颈阻碍了 NeMo ASR 模型的性能,例如转换开销、计算强度低和发散性能问题。全半精度推理和批处理优化的实现显著减少了这些瓶颈。
演员开销
自动转换行为、参数处理和频繁清除缓存是导致转换开销的主要问题。通过转向全半精度推理,NVIDIA 消除了不必要的转换,同时又不影响准确性。
优化批处理
对于 CTC 贪婪解码和特征规范化等操作,从顺序处理转变为完全批处理,可将吞吐量提高 10%,从而使总体速度提高约 20%。
低计算强度
RNN-T 和 TDT 模型之前被认为不适合服务器端 GPU 推理,因为它们具有自回归预测和联合网络。CUDA Graphs 条件节点的引入消除了内核启动开销,从而显著提高了性能。
预测网络中的分歧
由于原始贪婪搜索算法存在分歧,RNN-T 和 TDT 模型的批量推理面临问题。NVIDIA 推出的标签循环算法通过交换嵌套循环的角色解决了这个问题,从而大大加快了解码速度。
性能和成本效率
这些增强功能使传感器模型的逆实时因子 (RTFx) 更接近 CTC 模型,尤其是较小的模型。这些改进还带来了大量成本节省。例如,与基于 CPU 的替代方案相比,使用 GPU 进行 RNN-T 推理可以节省高达 4.5 倍的成本。
根据 NVIDIA 的比较,在 AWS 实例上使用 NVIDIA Parakeet RNN-T 1.1B 模型转录 100 万小时的语音具有明显的成本优势。基于 CPU 的转录成本为 11,410 美元,而基于 GPU 的转录成本仅为 2,499 美元。
前景
NVIDIA 继续优化 Canary 1B 和 Whisper 等模型,以进一步降低运行注意力编码器解码器和基于语音 LLM 的 ASR 模型的成本。CUDA Graphs 条件节点与 TorchInductor 等编译器框架的集成有望进一步提高 GPU 速度和效率。
欲了解更多信息,请访问 NVIDIA 官方博客。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news