NVIDIA 推出 Nemotron-CC：用于 LLM 预训练的海量数据集

By Amelia On 1 月 11, 2025

艾里斯·科尔曼
2025 年 1 月 10 日 14:13

NVIDIA 首次推出 Nemotron-CC，这是一个包含 6.3 万亿代币的英语数据集，通过创新的数据管理方法增强了大型语言模型的预训练。

NVIDIA 宣布发布 Nemotron-CC，这是一个突破性的 6.3 万亿代币的英语语言数据集，旨在推进大型语言模型 (LLM) 的预训练。据 NVIDIA 称，该数据集源自 Common Crawl，旨在通过创新的数据管理技术（包括使用综合生成数据的 1.9 万亿个代币）来提高法学硕士的准确性和效率。

加强法学硕士预培训

NVIDIA 的举措解决了 LLM 培训的关键需求，其中预训练数据集的质量起着关键作用。虽然 Meta 的 Llama 系列等最新模型基于包含多达 15 万亿个代币的数据集，但这些数据集的确切组成在很大程度上仍未公开。 Nemotron-CC 试图通过为更广泛的社区提供能够支持短期和长期令牌水平训练的高质量数据集来填补这一空白。

传统数据集通常会牺牲高达 90% 的数据来提高基准准确性，从而限制了它们在广泛训练中的效用。然而，Nemotron-CC 演示了如何将 Common Crawl 数据转换为高级数据集，通过分类器集成和合成数据重写等先进方法甚至超越 Llama 3.1 8B 模型。

显着成果

Nemotron-CC 的功效已通过其在各种基准测试中的表现得到证明。在训练 1 万亿个 token 的 8B 参数模型时，高质量子集 Nemotron-CC-HQ 的性能优于 DCLM 等领先数据集，将 MMLU 分数提高了 5.6 分。此外，完整的 6.3 万亿代币数据集与 MMLU 上的 DCLM 相匹配，同时提供四倍的独特真实代币。这使得在长期代币范围内进行有效训练成为可能，Nemotron-CC 训练的模型在多个指标上超越了 Llama 3.1 8B，包括 MMLU 提高了 5 分，ARC-Challenge 分数提高了 3.1 分。

创新的数据管理技术

Nemotron-CC 的开发涉及几个关键见解。通过集成不同的基于模型的分类器，NVIDIA 能够选择更广泛的高质量标记。此外，改写技术减少了噪音和错误，产生了多样化且有价值的数据变体。禁用传统启发式过滤器的决定进一步提高了数据集的质量，同时又不影响准确性。

NVIDIA 利用其 NeMo Curator 工具从 Common Crawl 中提取和提炼数据，应用语言过滤器、重复数据删除和质量分类。这一过程得到了合成数据生成的补充，为数据集贡献了大约 2 万亿个代币。

前景

Nemotron-CC 被定位为在不同代币范围内预训练最先进的法学硕士的重要资源。 NVIDIA 计划通过发布更专业的数据集（包括专注于数学等特定领域的数据集）来扩展其产品，以进一步增强 LLM 能力。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻