The news is by your side.

IBM 研究部门推出创新技术,加速企业 AI 训练

11


扎克·安德森
2024 年 9 月 23 日 03:32

IBM 研究引入了新的数据处理技术,利用 CPU 资源加速 AI 模型训练,显著提高效率。




据 IBM Research 称,IBM Research 公布了突破性创新,旨在扩展企业 AI 训练的数据处理流程。这些进步旨在通过利用 CPU 的丰富容量来加快创建强大的 AI 模型,例如 IBM 的 Granite 模型。

优化数据准备

在训练 AI 模型之前,必须准备大量数据。这些数据通常来自网站、PDF 和新闻文章等各种来源,并且必须经过几个预处理步骤。这些步骤包括过滤掉不相关的 HTML 代码、删除重复项以及筛选滥用内容。这些任务虽然至关重要,但并不受 GPU 可用性的限制。

IBM Research 的 WatsonX 数据工程首席研究科学家 Petros Zerfos 强调了高效数据处理的重要性。Zerfos 表示:“训练这些模型的大部分时间和精力都用于为这些模型准备数据。”他的团队一直在开发提高数据处理管道效率的方法,从自然语言处理、分布式计算和存储系统等各个领域汲取专业知识。

利用 CPU 容量

数据处理流程中的许多步骤都涉及“高度并行”计算,允许独立处理每个文档。这种并行处理可以通过将任务分配到多个 CPU 上来显著加快数据准备速度。但是,某些步骤(例如删除重复文档)需要访问整个数据集,而这无法并行执行。

为了加速 IBM 的 Granite 模型开发,该团队开发了快速配置和利用数万个 CPU 的流程。这种方法涉及在 IBM 的云数据中心网络上编排闲置的 CPU 容量,确保 CPU 和数据存储之间的高通信带宽。传统的对象存储系统经常由于性能低下而导致 CPU 闲置;因此,该团队采用了 IBM 的高性能 Storage Scale 文件系统来高效缓存活动数据。

扩大人工智能训练

在过去一年中,IBM 在 IBM Cloud 中将 vCPU 扩展到 100,000 个,处理 14 PB 的原始数据,为 AI 模型训练生成 40 万亿个令牌。该团队使用 IBM Cloud 上的 Kubeflow 自动化了这些数据管道。事实证明,与以前的技术相比,他们的方法处理 Common Crawl 数据的速度提高了 24 倍。

IBM 的所有开源 Granite 代码和语言模型均使用通过这些优化管道准备的数据进行训练。此外,IBM 还通过开发托管在 GitHub 上的工具包 Data Prep Kit,为 AI 社区做出了重大贡献。该工具包简化了大型语言模型应用程序的数据准备工作,支持预训练、微调和检索增强生成 (RAG) 用例。该工具包基于 Spark 和 Ray 等分布式处理框架构建,允许开发人员构建可扩展的自定义模块。

欲了解更多信息,请访问 IBM 官方研究博客。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news