The news is by your side.

Universal-2:以更高的精度彻底改变语音识别

17


特里尔·迪基
2024 年 11 月 1 日 05:30

Universal-2 通过解决现实世界的需求来提高语音到文本的准确性,重点关注结构化数据和关键细节而不是传统的单词错误率指标。




Universal-2 的推出标志着语音转文本技术的重大飞跃,满足了传统字错误率 (WER) 指标之外的实际应用需求。根据 AssemblyAI 的说法,这种先进的模型旨在解决将原始音频文件转换为可靠的结构化输出的持续挑战。

传统指标的缺点

在目前的情况下,业界经常声称语音识别的准确率超过 90%。然而,开发人员经常遇到这样的问题:输出虽然在技术上是正确的,但在编程上却没有用处。例如,电子邮件地址可能会被转录为“Sarah dot Johnson at acme hyphen core dot com”,这会在数据验证和程序流程中造成障碍。

Universal-2 将重点从 WER 转移到提供格式正确的电子邮件和经过验证的电话号码等输出,从而直接增强自动化和用户体验。

推进语音识别标准

虽然业界专注于提高 WER,但 Universal-2 从 6.68% 到 6.88% 的小幅提升掩盖了其真正的影响。在盲测中,73% 的用户更喜欢 Universal-2 的输出,赞赏其以应用程序无需进一步处理即可立即使用的格式提供数据的能力。

该模型使应用程序能够准确地区分相似的名称并捕获时间戳等精确细节,从而支持更复杂的人工智能驱动功能。

技术创新推动Universal-2

Universal-2 的进步源于三项关键创新:

  1. 现实世界语音的标记化: 一种处理重复序列的新方法,可将电话号码和产品代码的准确性提高高达 90%。
  2. 增强的专有名词识别: 将监督训练数据加倍并细化神经架构,以更好地捕获名称和行业特定术语。
  3. 神经文本格式化管道: 利用多目标标记模型和文本跨度转换模型来提高标点符号、大小写和格式的准确性。

变革性业务应用程序

Universal-2 的改进转化为切实的商业利益。在销售情报中,该模型从客户交互中捕获关键细节,从而可以准确跟踪机会并确定其优先级。客户支持受益于精确的数据捕获,减少了后续电话的需要。在远程医疗中,该模型可确保正确记录预约和处方,从而最大限度地减少管理负担。

超越字错误率

通过解决最后一英里的挑战,Universal-2 正在重新定义语音识别中的准确性。它超越了 WER,显着提高了专有名词、字母数字的捕获和格式准确性,从而使 AI 应用程序能够有效地将原始语音转换为结构化业务数据。

Universal-2 现在可以为下一代人工智能应用程序提供动力,为开发人员提供构建系统的工具,这些系统不仅可以转录,还可以实时理解语音数据并对其采取行动。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻