The news is by your side.

Zyda-2 数据集借助 NVIDIA NeMo Curator 彻底改变了 AI 模型训练

10


张彼得
2024 年 10 月 16 日 08:51

Zyda-2 是由 Zyphra 和 NVIDIA 开发的突破性 5T 代币数据集,为 LLM 培训设定了新标准,提高了 AI 性能和效率。




作为人工智能社区的一项重大发展,Zyphra 和 NVIDIA 合作推出了 Zyda-2 数据集,这是一个强大的 5 万亿令牌数据集,旨在推进大型语言模型 (LLM) 的训练。该数据集使用 NVIDIA 的 NeMo Curator 进行处理,将通过提供无与伦比的质量和多样性来重新定义 AI 模型训练的标准。

使用 Zyda-2 增强 AI 模型训练

Zyda-2 数据集因其全面的范围和细致的管理而脱颖而出。它比其前身 Zyda-1 大五倍,涵盖广泛的主题和领域。这个广泛的数据集专为通用语言模型预训练而定制,强调语言熟练程度而不是代码或数学应用。 Zyda-2 的优势在于其在总体评估分数方面超越现有数据集的能力,正如使用 Zamba2-2.7B 模型的测试所证明的那样。

与 NVIDIA NeMo Curator 集成

NeMo Curator 在数据集的开发中发挥着关键作用,利用 GPU 加速高效处理大规模数据。通过使用该工具,Zyphra 团队成功地显着缩短了数据处理时间,将总拥有成本降低了一半,并将处理速度提高了十倍。这些增强功能对于提高数据集的质量至关重要,从而可以更有效地训练人工智能模型。

构建模块和方法论

Zyda-2 将多个开源数据集(包括 DCLM、FineWeb-edu、Dolma 和 Zyda-1)与先进的过滤和重复数据删除技术相结合。这种组合确保数据集不仅保留其组件的优点,而且还解决了它们的弱点,从而提高了语言和逻辑推理任务的整体性能。 NeMo Curator 的模糊重复数据删除和质量分类等功能的使用有助于完善数据集,确保仅使用最高质量的数据进行训练。

对人工智能发展的影响

Zyphra 数据集负责人 Yury Tokpanov 表示,NeMo Curator 的集成改变了游戏规则,实现了更快、更具成本效益的数据处理。数据质量的提高证明暂停训练以重新处理数据是合理的,从而使模型的性能显着提高。这些增强功能的效果显而易见,即在 Zyda 和 Dolma 数据集的高质量子集上训练的模型的准确性得到了提高。

如需进一步了解 Zyda-2 及其应用,请参阅 NVIDIA NeMo Curator GitHub 存储库上的详细教程。

图片来源:Shutterstock




关键词:人工智能,加密,区块链,新闻