The news is by your side.

NVIDIA 推出 NIM 微服务,增强语音和翻译功能

23


劳伦斯·詹格
2024 年 9 月 19 日 02:54

NVIDIA NIM 微服务提供先进的语音和翻译功能,可将 AI 模型无缝集成到面向全球受众的应用程序中。




据 NVIDIA 技术博客报道,NVIDIA 推出了用于语音和翻译的 NIM 微服务,这是 NVIDIA AI Enterprise 套件的一部分。这些微服务使开发人员能够跨云、数据中心和工作站自行托管 GPU 加速推理,用于预训练和定制的 AI 模型。

高级语音和翻译功能

新的微服务利用 NVIDIA Riva 提供自动语音识别 (ASR)、神经机器翻译 (NMT) 和文本转语音 (TTS) 功能。此次集成旨在通过将多语言语音功能整合到应用程序中来增强全球用户体验和可访问性。

开发人员可以利用这些微服务来构建客户服务机器人、交互式语音助手和多语言内容平台,以最少的开发工作量实现大规模高性能 AI 推理优化。

交互式浏览器界面

用户可以使用 NVIDIA API 目录中提供的交互式界面直接通过浏览器执行基本推理任务,例如转录语音、翻译文本和生成合成语音。此功能为探索语音和翻译 NIM 微服务的功能提供了一个便捷的起点。

这些工具足够灵活,可以部署在各种环境中,从本地工作站到云和数据中心基础设施,从而可扩展以满足不同的部署需求。

使用 NVIDIA Riva Python 客户端运行微服务

NVIDIA 技术博客详细介绍了如何克隆 nvidia-riva/python-clients GitHub 存储库并使用提供的脚本在 NVIDIA API 目录 Riva 端点上运行简单的推理任务。用户需要 NVIDIA API 密钥才能访问这些命令。

提供的示例包括以流式传输模式转录音频文件、将文本从英语翻译成德语以及生成合成语音。这些任务展示了微服务在现实场景中的实际应用。

使用 Docker 进行本地部署

对于拥有高级 NVIDIA 数据中心 GPU 的用户,可以使用 Docker 在本地运行微服务。提供了有关设置 ASR、NMT 和 TTS 服务的详细说明。需要 NGC API 密钥才能从 NVIDIA 的容器注册表中提取 NIM 微服务并在本地系统上运行它们。

与 RAG 管道集成

该博客还介绍了如何将 ASR 和 TTS NIM 微服务连接到基本的检索增强生成 (RAG) 管道。此设置使用户能够将文档上传到知识库,口头提问,并以合成语音的形式获得答案。

说明包括设置环境、启动 ASR 和 TTS NIM,以及配置 RAG Web 应用以通过文本或语音查询大型语言模型。此集成展示了将语音微服务与高级 AI 管道相结合以增强用户交互的潜力。

入门

有兴趣在其应用程序中添加多语言语音 AI 的开发人员可以从探索语音 NIM 微服务开始。这些工具提供了一种将 ASR、NMT 和 TTS 无缝集成到各种平台的方法,为全球受众提供可扩展的实时语音服务。

欲了解更多信息,请访问 NVIDIA 技术博客。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news