The news is by your side.

人工智能革命:RAPIDS cuDF 加速数据科学工作流程

17


托尼·金
2024 年 9 月 26 日 09:33

NVIDIA 的 RAPIDS cuDF 在搭载 RTX 的 AI PC 上将 pandas 库的性能提升了 100 倍,增强了数据科学工作流程。




人工智能 (AI) 正在推动各行各业的创新,但只有通过分析大量高质量数据才能充分发挥其潜力。数据科学家在此过程中发挥着至关重要的作用,尤其是在需要专门且通常是专有数据的特定领域。据 NVIDIA 博客称,RAPIDS cuDF 通过加速用于数据分析和处理的 pandas 软件库而成为游戏规则改变者。

使用 RAPIDS cuDF 实现数据处理转型

NVIDIA 的 RAPIDS cuDF 是一个库,它允许数据科学家通过增强 pandas 库的性能(无需更改任何代码)来更高效地处理数据。Pandas 广泛用于 Python 中的数据分析,但随着数据集大小的增加,它通常会在处理速度和效率方面遇到困难,尤其是在仅使用 CPU 的系统中。

RAPIDS cuDF 利用 GPU 加速解决了这些限制,使数据科学家能够使用他们喜欢的代码库,而不会影响处理速度。这一改进对于处理大型数据集和文本密集型数据特别有益,这在大型语言模型的开发中很常见。

数据科学瓶颈

数据科学家在处理表格数据时经常会面临挑战,尤其是当数据集增长到数千万行时。Excel 等传统工具不足以处理如此大的数据集,因此需要使用 pandas 等数据框库。然而,处理大型数据集时,pandas 的性能会显著下降,这让数据科学家陷入两难境地,他们必须在缓慢的处理时间和切换到更复杂的工具之间做出选择。

RAPIDS cuDF 提供了一种解决方案,它提供了一个模仿 pandas API 的 GPU DataFrame 库,允许与现有工作流程无缝集成。这使数据科学家能够保持他们当前的编码实践,同时受益于 GPU 加速提供的增强处理速度。

加速预处理流程

RAPIDS cuDF 是一套开源 GPU 加速 Python 库的一部分,旨在改进数据科学和分析流程。cuDF 的最新版本支持更大的数据集和数十亿行表格文本数据,使其成为生成式 AI 应用程序预处理数据的理想工具。

数据科学家可以使用 cuDF 的“pandas 加速器模式”在 GPU 上运行现有的 pandas 代码,该模式提供强大的并行处理能力。这种互操作性可确保代码在必要时切换到 CPU,从而提供先进而可靠的性能。

提升 NVIDIA RTX 驱动的 AI 工作站的性能

相当一部分数据科学家(约 57%)使用本地资源(如 PC、台式机或工作站)进行工作。通过利用 NVIDIA RTX GPU 的功能(从 NVIDIA GeForce RTX 4090 GPU 开始),数据科学家可以大幅加快数据处理任务的速度。随着数据集的增长和内存占用的增加,使用 NVIDIA RTX 6000 Ada Generation GPU 后,性能提升将更加明显。

RAPIDS cuDF 还可在 NVIDIA AI Workbench 和 HP AI Studio 等平台上使用,使数据科学家能够将其开发环境从本地工作站无缝过渡到云端。这种灵活性可实现一致且高效的项目协作和开发。

数据科学的新时代

随着人工智能和数据科学的不断发展,快速处理和分析海量数据集的能力将成为各行业取得突破的关键差异化因素。RAPIDS cuDF 为下一代数据处理提供了坚实的基础,支持流行的数据框架工具(如 Polars),与仅使用 CPU 的工具相比,它显著加快了数据处理速度。

Polars 最近宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎的公开测试版,性能提升高达 13 倍。这一进展凸显了 GPU 加速在现代数据科学工作流程中日益增长的重要性。

未来工程师的无限可能

NVIDIA GPU 广泛应用于教育领域,从大学数据中心到 GeForce RTX 笔记本电脑和 NVIDIA RTX 工作站。这些工具使数据科学和相关领域的学生能够获得使用行业标准硬件的实践经验,从而增强他们的学习能力并为实际应用做好准备。

随着人工智能不断改变各个领域,RAPIDS cuDF 和 NVIDIA RTX 驱动的 PC 和工作站等工具将在塑造数据科学和人工智能驱动创新的未来方面发挥关键作用。

图片来源:Shutterstock


(标签翻译)人工智能(t)加密(t)区块链(t)新闻



关键词:AI,crypto,blockchain,news