NVIDIA 推出 BigVGAN v2：开创性的零样本波形音频生成

By Amelia On 9 月 7, 2024

扎克·安德森
2024 年 9 月 6 日 11:03

NVIDIA 的 BigVGAN v2 在零样本波形音频生成方面树立了新标准，实现了最先进的品质以及高达 3 倍的合成速度。

据 NVIDIA 技术博客报道，NVIDIA 宣布发布 BigVGAN v2，这是一款用于零样本波形音频生成的突破性生成 AI 模型。新模型在速度和质量上实现了显著提升，是音频生成 AI 领域的最先进解决方案。

BigVGAN：通用神经声码器

BigVGAN 是一种通用神经声码器，旨在从梅尔声谱图合成音频波形。该模型采用全卷积架构，具有多个上采样块和残差扩张卷积层。一个关键特性是抗混叠多周期合成 (AMP) 模块，该模块针对生成高频和周期性声波进行了优化，从而减少了过程中的伪影。

BigVGAN v2 的改进

BigVGAN v2 与其前代产品相比引入了多项增强功能：

一流的音频质量 涵盖各种指标和音频类型。
合成速度提高 3 倍 通过优化的 CUDA 内核。
预训练检查点 适用于不同的音频配置。
支持高达 44 kHz 的采样率，涵盖了人类可以听到的最高频率。

生成世界上所有的声音

波形音频生成对于虚拟世界至关重要，并且一直是研究的重点。BigVGAN v2 通过提供具有增强精细细节的高质量音频解决了以前的限制。BigVGAN v2 使用 NVIDIA A100 Tensor Core GPU 和比其前代产品大 100 倍以上的数据集进行训练，可以从各种领域生成高质量声波，包括语音、环境声音和音乐。

达到人耳可以听到的最高频率的声音

以前的模型的采样率限制在 22 kHz 到 24 kHz 之间。BigVGAN v2 将此范围扩展到 44 kHz，捕捉整个人类听觉频谱。这使得该模型能够重现全面的音景，从音乐中强劲的鼓声到清脆的钹声。

使用自定义 CUDA 内核实现更快的综合

BigVGAN v2 还具有加速合成速度的功能，使用自定义 CUDA 内核实现比原始 BigVGAN 快 3 倍的推理速度。这些内核使单个 NVIDIA A100 GPU 上的音频波形生成速度比实时快 240 倍。

音频质量结果

与前代产品相比，BigVGAN v2 的语音和一般音频音质更佳，在 44 kHz 采样率下，其结果与 Descript Audio Codec 相当。这表明该模型能够为各种音频类型生成高质量的波形。

结论

NVIDIA 的 BigVGAN v2 为音频合成树立了新标杆，在所有音频类型中都实现了一流的质量，并覆盖了人类听觉的整个范围。该模型的合成速度现在提高了 3 倍，使其能够高效地处理各种音频配置。

如需了解更多信息，鼓励用户查看 GitHub 上的 BigVGAN v2 模型卡。

图片来源：Shutterstock

（标签翻译）人工智能（t）加密（t）区块链（t）新闻

关键词：AI,crypto,blockchain,news

AI BigVGAN blockchain Crypto news Nvidia v2开创性的零样本波形音频生成推出