ElevenLabs 推出用于定制合成语音的生成语音 AI 工具


特德·西索川
2026 年 3 月 6 日 12:43

ElevenLabs 部署了新的生成模型,让用户可以从头开始设计全新的合成声音,针对有声读物、游戏和内容创作者。




ElevenLabs 部署了一种生成式人工智能模型,可以从头开始创建全新的合成声音,解决该公司所说的人工智能市场“严重低估”的问题。语音生成器工具允许用户通过设置性别、年龄、口音、音调和说话风格等参数来设计自定义语音。

该功能通过公司的语音实验室推出,每次使用都会生成独特的声音——即使选择了相同的基本参数。这解决了一个实际问题:ElevenLabs 发现其现有的扬声器库对于需要为其项目提供专有声音的用户来说过于有限。

它是如何运作的

该技术方法源自 ElevenLabs 现有的语音合成和语音克隆基础设施。这两个过程都依赖于说话者嵌入——对语音特征进行编码的矢量表示。通过训练专用模型从这些嵌入的分布中进行采样,该公司现在可以生成无限的变化。

调节层增加了控制。用户不仅仅是在随机输出上掷骰子,而是在随机输出上掷骰子。他们正在指定塑造生成的声音的核心身份标记。

目标应用

该公司将该工具定位于多个垂直领域:

出版: 图书作者可以将文本转换为音频,同时保持对叙述设计的艺术控制,这有可能将有声读物市场扩展到无法证明传统录音成本合理的图书。

新闻媒体: 尝试音频内容的出版商可以为其品牌创造独特、独特的声音。排他性角度在这里很重要——代表一个渠道的声音不会出现在其他地方。

游戏开发: 工作室可以用虚拟世界特有的声音为原本保持沉默的 NPC 配音。成本效益的论点很简单:在不成比例增加预算的情况下增加更多的声音内容。

广告: 在投入资源之前,创意人员可以在早期活动开发过程中立即制作多种声音风格的原型。

行业背景

此次发布之际,语音人工智能在整个行业迅速发展。 2024 年底,Azure 发布了 gpt-4o-mini-tts 模型,而 2026 年初则推出了强调语音设计和多语言流媒体的开源 Qwen3-TTS 系列。更广泛的趋势指向将语音到文本、大型语言模型和文本到语音相结合的精心编排的语音系统,以及完全绕过文本转换的新兴语音到语音模型。

ElevenLabs 还透露了其下一步行动:将语音生成与语音克隆相结合,让用户增强自己的声音。推销涉及操纵克隆声音,使其听起来更自然或更多样化——针对任何录制演示或音频消息但不喜欢它们声音的人。

安全措施

该公司概述了防止滥用的几项保障措施:禁止非法或有害应用程序的条款、用于将生成的音频追溯到平台的水印以及对举报侵权行为的审查流程。关于经济转移问题,ElevenLabs 认为配音演员可以授权他们的声音进行人工智能培训,同时参与更多项目。

随着合成语音质量继续接近人类的水平,这种框架是否满足工作配音演员仍然是一个悬而未决的问题。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻

ElevenLabs人工智能加密区块链工具推出用于定制合成语音的生成语音新闻
Comments (0)
Add Comment