Universal-2 在语音转文本模型比较中优于 Whisper

By Amelia On 11 月 8, 2024

扎克·安德森
2024 年 11 月 7 日 15:59

Universal-2 和 OpenAI 的 Whisper 模型的详细比较揭示了 Universal-2 在准确性、专有名词检测和降低幻觉率方面的卓越性能。

根据 AssemblyAI 最近的一份报告，在对领先的语音转文本模型的全面分析中，与 OpenAI 的 Whisper 变体相比，AssemblyAI 的 Universal-2 表现最佳。评估重点关注现实世界的用例，评估创建准确转录所需的任务模型，例如专有名词识别、字母数字转录和文本格式。

型号对比

该分析将 Universal-2 及其前身 Universal-1 与 OpenAI 的 Whisper large-v3 和 Whisper Turbo 模型进行了比较。每个模型都根据单词错误率 (WER)、专有名词错误率 (PNER) 等参数以及对语音转文本任务至关重要的其他指标进行评估。

Universal-2 实现了最低的字错误率 (WER)，为 6.68%，比 Universal-1 提高了 3%。 Whisper 模型虽然具有竞争力，但错误率稍高，large-v3 的 WER 为 7.88%，turbo 为 7.75%。

在专有名词识别中，Universal-2 表现出卓越的准确度，PNER 为 13.87%，优于 Whisper large-v3 和 Turbo。该模型在文本格式方面也表现出色，U-WER 达到 10.04%，这表明对标点符号和大写的处理更好。

Whisper large-v3 在字母数字转录方面表现出优势，错误率最低，为 3.84%，略高于 Universal-2 的 4.00%。然而，Universal-2 降低的幻觉率是一个显着的优势，与 Whisper 模型相比降低了 30%，使其对于现实世界的应用更加可靠。

Universal-2 相对于 Universal-1 的进步是显而易见的，在准确性、专有名词处理和格式方面都有改进。尽管 Whisper 在某些领域具有优势，但它对幻觉的敏感性对稳定的性能提出了挑战。

如需进一步的见解和详细指标，请通过 AssemblyAI 的官方报告获得完整的评估。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻