特德·西索川
2025 年 11 月 11 日 09:20
ElevenLabs 推出 Scribe v2 Realtime,可在 150 毫秒内提供跨多种语言的低延迟语音到文本转录,从而增强实时语音应用程序。
ElevenLabs 推出了 Scribe v2 Realtime,这是一种尖端的语音转文本模型,旨在为实时应用程序提供低延迟转录。据 ElevenLabs 称,这一最新开发成果在 150 毫秒内提供多种语言的实时转录,包括英语、法语、德语、意大利语、西班牙语和葡萄牙语以及其他 90 种语言,为行业树立了新的基准。
彻底改变实时转录
Scribe v2 Realtime 专为语音代理、会议助理和实时字幕等应用程序量身定制。它旨在处理复杂的场景和背景噪音,明显优于市场上的现有模型。该模型的稳健性能归功于下一个单词和标点符号预测的负延迟、自动语言检测和语音活动检测 (VAD) 等功能,这些功能共同提高了转录的准确性和效率。
主要特性和合规性
该模型提供了一系列高级功能,包括文本调节、手动提交转录定稿以及支持各种音频格式,例如 PCM (48kHz) 和 μ-law 编码。此外,Scribe v2 Realtime 适合企业使用,符合 SOC 2、ISO 27001、PCI DSS L1、HIPAA 和 GDPR 等主要标准。它还提供欧盟和印度的数据驻留选项,以及针对敏感工作负载的零保留模式。
API 的可访问性和实施
开发人员可以通过 ElevenLabs API 访问 Scribe v2 Realtime,从而将该强大的工具集成到各种应用程序中。该 API 允许无缝部署自然的、听起来像人的代理,在实时环境中提供实时理解和响应能力。此功能对于开发用于客户支持、销售或产品内体验的语音助手特别有用。
扩展用例
Scribe v2 Realtime 在 30 种常用的欧洲和亚洲语言中具有高达 93.5% 的准确率,有望改变企业和开发人员处理实时转录的方式。该模型处理复杂语言场景的能力使其成为寻求增强客户交互和运营效率的企业的宝贵资产。
有关 Scribe v2 Realtime 的更多信息并探索其功能,请访问 ElevenLabs 的官方网站。
图片来源:Shutterstock
关键词:人工智能,加密,区块链,新闻