The news is by your side.

NVIDIA通过耳语和金丝雀型扩展Riva ASR功能

11


丽贝卡·莫恩(Rebeca Moen)
2025年2月21日10:54

NVIDIA使用耳语和金丝雀模型通过新的多语言功能增强其Riva ASR,从而整合了离线和自动语音翻译的高级功能。




NVIDIA通过Riva 2.18.0容器和SDK引入增强功能,在推进其自动语音识别(ASR)系统方面取得了长足的进步。这些发展是NVIDIA持续努力的一部分,以完善其GPU加速语音和翻译AI微服务,如Sven Chilton在NVIDIA Developer Blog上所详述的那样。

新模型的整合

Riva的最新迭代包括对腰围体系结构的支持,该培养会促进流媒体的多语言ASR,以及离线ASR和自动语音翻译(AST)的耳语和金丝雀模型(AST)。由Openai开发的Whisper和HuggingFace的Distil-Whisper模型现在是Riva的离线ASR功能不可或缺的一部分,可以直接以多种语言将录音的转录和翻译到英语中。

Canary模型通过支持离线ASR和AST的多种语言组合,包括任何到英语,对任何一对一的翻译,进一步扩展了Riva的功能。这些模型满足了各种语言需求,为语言检测和翻译任务提供了强有力的支持。

选择性NMT停用

此更新中介绍的显着功能之一是能够使用该过程的神经机器翻译(NMT)进程的一部分 SSML标签。此功能允许用户指定不应翻译的文本段,从而对翻译输出提供更大的控制。此外,新的DNT词典还可以规范某些单词或短语应翻译,从而增强了翻译过程的自定义。

部署和用法

通过RIVA技能快速启动资源文件夹简化了部署这些新功能,其中包括设置带有耳语和金丝雀功能的RIVA服务器所需的脚本和配置文件。用户可以根据其特定的ASR需求在Whisper和Canary模型之间进行选择,并利用提供的脚本根据其GPU体系结构来优化模型部署。

NVIDIA致力于扩大其ASR系统的语言和功能范围的承诺在这些高级模型和功能的集成中很明显。通过支持更广泛的语言并提供增强的翻译控件,Riva继续在语音识别和翻译技术方面设定行业标准。

有关NVIDIA最新ASR进步的更多信息,请访问NVIDIA开发人员博客。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: