扎克·安德森
2024 年 11 月 7 日 15:59
Universal-2 和 OpenAI 的 Whisper 模型的详细比较揭示了 Universal-2 在准确性、专有名词检测和降低幻觉率方面的卓越性能。
根据 AssemblyAI 最近的一份报告,在对领先的语音转文本模型的全面分析中,与 OpenAI 的 Whisper 变体相比,AssemblyAI 的 Universal-2 表现最佳。评估重点关注现实世界的用例,评估创建准确转录所需的任务模型,例如专有名词识别、字母数字转录和文本格式。
型号对比
该分析将 Universal-2 及其前身 Universal-1 与 OpenAI 的 Whisper large-v3 和 Whisper Turbo 模型进行了比较。每个模型都根据单词错误率 (WER)、专有名词错误率 (PNER) 等参数以及对语音转文本任务至关重要的其他指标进行评估。
绩效指标
Universal-2 实现了最低的字错误率 (WER),为 6.68%,比 Universal-1 提高了 3%。 Whisper 模型虽然具有竞争力,但错误率稍高,large-v3 的 WER 为 7.88%,turbo 为 7.75%。
在专有名词识别中,Universal-2 表现出卓越的准确度,PNER 为 13.87%,优于 Whisper large-v3 和 Turbo。该模型在文本格式方面也表现出色,U-WER 达到 10.04%,这表明对标点符号和大写的处理更好。
字母数字和幻觉率
Whisper large-v3 在字母数字转录方面表现出优势,错误率最低,为 3.84%,略高于 Universal-2 的 4.00%。然而,Universal-2 降低的幻觉率是一个显着的优势,与 Whisper 模型相比降低了 30%,使其对于现实世界的应用更加可靠。
结论
Universal-2 相对于 Universal-1 的进步是显而易见的,在准确性、专有名词处理和格式方面都有改进。尽管 Whisper 在某些领域具有优势,但它对幻觉的敏感性对稳定的性能提出了挑战。
如需进一步的见解和详细指标,请通过 AssemblyAI 的官方报告获得完整的评估。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻