The news is by your side.

NVIDIA 推出 BigVGAN v2:开创性的零样本波形音频生成

17


扎克·安德森
2024 年 9 月 6 日 11:03

NVIDIA 的 BigVGAN v2 在零样本波形音频生成方面树立了新标准,实现了最先进的品质以及高达 3 倍的合成速度。




据 NVIDIA 技术博客报道,NVIDIA 宣布发布 BigVGAN v2,这是一款用于零样本波形音频生成的突破性生成 AI 模型。新模型在速度和质量上实现了显著提升,是音频生成 AI 领域的最先进解决方案。

BigVGAN:通用神经声码器

BigVGAN 是一种通用神经声码器,旨在从梅尔声谱图合成音频波形。该模型采用全卷积架构,具有多个上采样块和残差扩张卷积层。一个关键特性是抗混叠多周期合成 (AMP) 模块,该模块针对生成高频和周期性声波进行了优化,从而减少了过程中的伪影。

BigVGAN v2 的改进

BigVGAN v2 与其前代产品相比引入了多项增强功能:

  • 一流的音频质量 涵盖各种指标和音频类型。
  • 合成速度提高 3 倍 通过优化的 CUDA 内核。
  • 预训练检查点 适用于不同的音频配置。
  • 支持高达 44 kHz 的采样率,涵盖了人类可以听到的最高频率。

生成世界上所有的声音

波形音频生成对于虚拟世界至关重要,并且一直是研究的重点。BigVGAN v2 通过提供具有增强精细细节的高质量音频解决了以前的限制。BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 和比其前代产品大 100 倍以上的数据集进行训练,可以从各种领域生成高质量声波,包括语音、环境声音和音乐。

达到人耳可以听到的最高频率的声音

以前的模型的采样率限制在 22 kHz 到 24 kHz 之间。BigVGAN v2 将此范围扩展到 44 kHz,捕捉整个人类听觉频谱。这使得该模型能够重现全面的音景,从音乐中强劲的鼓声到清脆的钹声。

使用自定义 CUDA 内核实现更快的综合

BigVGAN v2 还具有加速合成速度的功能,使用自定义 CUDA 内核实现比原始 BigVGAN 快 3 倍的推理速度。这些内核使单个 NVIDIA A100 GPU 上的音频波形生成速度比实时快 240 倍。

音频质量结果

与前代产品相比,BigVGAN v2 的语音和一般音频音质更佳,在 44 kHz 采样率下,其结果与 Descript Audio Codec 相当。这表明该模型能够为各种音频类型生成高质量的波形。

结论

NVIDIA 的 BigVGAN v2 为音频合成树立了新标杆,在所有音频类型中都实现了一流的质量,并覆盖了人类听觉的整个范围。该模型的合成速度现在提高了 3 倍,使其能够高效地处理各种音频配置。

如需了解更多信息,鼓励用户查看 GitHub 上的 BigVGAN v2 模型卡。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news