NVIDIA揭开了用于实时扬声器识别的流式传输排序形式

By Amelia On 8 月 19, 2025

王王
8月19日，2025年02:26

NVIDIA介绍了流媒体式诊断模型流媒体排序形式，并在会议，呼叫和语音应用程序中增强了多演讲者跟踪。了解其功能和潜在应用。

NVIDIA宣布推出其最新的创新，流媒体式诊断者，这是一种实时发言人诊断模型，旨在彻底改变扬声器在会议，呼叫和语音应用程序中的识别方式。根据NVIDIA的说法，该模型经过精心处理低延迟，多演讲者方案，可与Nvidia Nemo和Nvidia Riva工具无缝集成。

关键功能

流式排序形式提供了高级功能，可在各种实时应用程序中增强其可用性。它为每种话语提供精确的时刻邮票提供框架级别的诊断，从而确保准确的扬声器跟踪。该模型支持对两到四个扬声器的跟踪，具有最小的延迟，并通过有效的GPU推理进行了优化，使其为Nemo和Riva工作流程做好了准备。虽然主要针对英语进行了优化，但它还在普通话数据集和其他语言上表现出了强劲的性能。

基准性能

流媒体排序形式的性能评估显示出令人印象深刻的诊断错误率（DER）的令人印象深刻的结果，这是扬声器识别精度的关键指标，较低的速率表明性能更好。该模型与Eend-GLA和LS-EEND等现有系统竞争，展示了其在现场演讲者跟踪环境中的潜力。

申请和用例

该模型的多功能性在其广泛的应用中很明显。从会议期间生成现场演讲者的成绩单到促进联系中心的合规性和质量保证，流媒体排序形式有望提高各个部门的生产率。此外，它通过改善对话的自然性和转弯来支持VoiceBots和AI助手，并使用自动标签辅助媒体和广播行业，以进行编辑。

技术架构

在引擎盖下，流式排序形式采用了复杂的体系结构，其中包括卷积的预码模块以及一系列的构象异构体和变压器块。这些组件同时起作用，可以处理和分析音频，从而根据其在录音中的外观进行排序。该模型使用到达级的扬声器缓存（AOSC）以小的，重叠的块来处理音频，从而确保整个流中的扬声器识别一致。

未来的前景和局限

尽管具有强大的功能，但流式排序形式目前是为最多涉及四个扬声器的场景而设计的。 NVIDIA承认需要进一步发展，以扩大其处理更多扬声器并改善各种语言和具有挑战性的声学环境的能力。还制定了计划，以增强其与Riva和Nemo管道的整合。

对于那些有兴趣探索流媒体排序形式的技术复杂性的人，NVIDIA对离线排序形式的研究可在ARXIV上获得。

图像来源：Shutterstock

（tagstotranslate）AI（T）加密（T）区块链（T）新闻

关键词：

NVIDIA揭开了用于实时扬声器识别的流式传输排序形式