使用 NVIDIA RAPIDS 和 cuML 加速因果推理

By Amelia On 11 月 15, 2024

特里尔·迪基
2024 年 11 月 15 日 05:39

了解 NVIDIA RAPIDS 和 cuML 如何利用大型数据集的 GPU 加速来增强因果推理，从而比基于 CPU 的传统方法显着提高速度。

随着消费者应用程序生成的数据量不断增长，企业越来越多地采用因果推理方法来分析观察数据。根据 NVIDIA 的博客，这种方法可以深入了解特定组件的变化如何影响关键业务指标。

因果推理技术的进步

在过去的十年中，计量经济学家开发了一种称为双机器学习的技术，它将机器学习模型集成到因果推理问题中。这涉及在独立数据集样本上训练两个预测模型，并将它们组合起来以创建目标变量的去偏估计。像 DoubleML 这样的开源 Python 库促进了这种技术的发展，尽管它们在 CPU 上处理大型数据集时面临着挑战。

NVIDIA RAPIDS 和 cuML 的作用

NVIDIA RAPIDS 是开源 GPU 加速数据科学和 AI 库的集合，其中包括 cuML，这是一个与 scikit-learn 兼容的 Python 机器学习库。通过利用 RAPIDS cuML 和 DoubleML 库，数据科学家可以实现更快的因果推理，有效地处理大型数据集。

RAPIDS cuML 的集成使企业能够利用计算密集型机器学习算法进行因果推理，从而缩小以预测为中心的创新与实际应用之间的差距。当传统的基于 CPU 的方法难以满足不断增长的数据集的需求时，这尤其有用。

基准测试性能改进

使用一系列数据集大小对 cuML 的性能与 scikit-learn 进行基准测试。结果表明，在具有 1000 万行和 100 列的数据集上，基于 CPU 的 DoubleML 管道需要超过 6.5 小时，而 GPU 加速的 RAPIDS cuML 将这一时间缩短至仅 51 分钟，实现了 7.7 倍的加速。

与基于 CPU 的方法相比，此类加速机器学习库可提供高达 12 倍的加速，并且只需要最少的代码调整。这一重大改进凸显了 GPU 加速在改变数据处理工作流程方面的潜力。

结论

因果推理在帮助企业了解关键产品组件的影响方面发挥着至关重要的作用。然而，利用机器学习创新来实现这一目的历来具有挑战性。双机器学习等技术与 RAPIDS cuML 等加速计算库相结合，使企业能够克服这些挑战，以最少的代码更改将数小时的处理时间转换为几分钟。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻