Polars 推出搭载 RAPIDS cuDF 的 GPU 引擎,用于增强数据处理


杰西·埃利斯
2024年9月17日 15:38

Polars 发布了由 RAPIDS cuDF 提供支持的 GPU 引擎,将 NVIDIA GPU 上的数据处理速度提高了 13 倍。现已推出公开测试版。




Polars 宣布推出由 RAPIDS cuDF 提供支持的全新 GPU 引擎,该引擎可显著提高 NVIDIA GPU 上的数据处理速度。据 NVIDIA 技术博客称,这一进步使数据科学家能够在数秒内在一台机器上处理数亿行数据。

日益增长的数据挑战

传统数据处理库(例如 pandas)是单线程的,在处理超过几百万行的数据集时通常变得不切实际。虽然分布式数据处理系统可以管理数十亿行,但它们为较小的数据集带来了复杂性和开销。这导致工具无法高效处理数千万到几亿行数据,而这是金融、零售和制造等行业在模型开发、需求预测和物流等任务中的常见需求。

Polars 是一个快速发展的 Python 库,专为数据科学家和工程师设计,旨在解决这些挑战。它采用高级查询优化来最大限度地减少不必要的数据移动和处理,从而能够在一台机器上顺利处理数亿行数据。Polars 为中等规模的数据处理提供了一种有吸引力的解决方案,弥补了单线程工具和复杂分布式系统之间的差距。

将 NVIDIA 加速计算引入 Polars

与其他仅使用 CPU 的数据处理工具相比,Polars 利用多线程执行、高级内存优化和惰性求值来提供显著的开箱即用加速。然而,随着各行各业的数据处理需求不断增长,对性能的要求也越来越高。这就是加速计算变得至关重要的地方。

cuDF 是 NVIDIA RAPIDS CUDA-X 库套件的一部分,是一个 GPU 加速的 DataFrame 库,它利用 GPU 的大规模并行性来显著提高数据处理性能。通过与 NVIDIA 合作,Polars 团队将 cuDF 的速度与 Polars 的效率相结合,与基于 CPU 的 Polars 相比,性能提升高达 13 倍。这种集成让用户即使数据处理工作负载扩展到数亿或数十亿行,也能保持交互式体验。

Polars GPU 引擎直接内置于 Polars Lazy API 中。用户可以通过安装来访问 GPU 加速其工作流程 polars(gpu) 通过 pip 并传递 (engine="gpu")收集 操作。这种方法通过 Polars 的查询优化器确保高效执行和最小内存使用,与 Polars 的数据可视化、I/O 和机器学习库生态系统完全兼容,并且对现有 Polars 代码没有任何更改。

pip install polars(gpu) --extra-index-url=

import polars as pl

(transactions
 .group_by("CUST_ID")
 .agg(pl.col("AMOUNT").sum())
 .sort(by="AMOUNT", descending=True)
 .head()
 .collect(engine="gpu"))

结论

由 RAPIDS cuDF 提供支持的 Polars GPU 引擎现已开放测试,为数据科学家和工程师提供了强大的中型数据处理工具。通过在 NVIDIA GPU 上将 Polars 工作流程加速高达 13 倍,该引擎可以高效处理数亿行的数据集,而无需分布式系统的开销。Polars GPU 引擎无缝集成到 Polars API 中,让所有用户都可以轻松访问。

开始使用 Polars GPU 引擎

如需了解更多信息并开始使用 Polars GPU 引擎,请访问 NVIDIA 官方技术博客。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news

AIblockchainCryptocuDFGPUnewsPolarsRAPIDS引擎用于增强数据处理推出搭载
Comments (0)
Add Comment