The news is by your side.

增强JSON线条处理:NVIDIA CUDF与传统图书馆

9


路易莎·克劳福德(Luisa Crawford)
2025年2月21日13:36

探索NVIDIA CUDF如何加速JSON线条阅读,优于Pandas和Pyarrow等传统图书馆,并具有基准和性能见解。




在越来越多的数据驱动世界中,JSON线数据的有效处理变得至关重要。 NVIDIA的CUDF库已成为强大的竞争者,比Pandas和Pyarrow等传统数据处理库提供了显着提高的速度。根据NVIDIA的博客,CUDF可以使用其默认引擎处理JSON线数据的数据比Pandas快的速度快133倍。

了解JSON线

JSON系列(也称为NDJSON)是一种用于流式JSON对象的广泛使用的格式,尤其是在Web应用程序和大型语言模型中。尽管人类可读,但JSON线由于其复杂性而在数据处理中遇到了挑战。

性能基准测试

在最近的一项研究中,NVIDIA比较了各种Python API的性能,以将JSON线读取到数据范围中。基准测试涉及不同的图书馆,包括Pandas,Pyarrow,DuckDB和Nvidia自己的Cudf.pandas和Pylibcudf图书馆。使用NVIDIA H100 Tensor Core GPU和Intel Xeon CPU进行了测试,以确保稳健的评估环境。

结果表明,使用默认发动机的pandas在熊猫上取得了惊人的133倍加速度,并用Pyarrow发动机在熊猫上进行了60倍的速度。 DuckDB和Pyarrow的表现也很明显,总处理时间分别为60和6.9秒。

特定于图书馆的见解

该研究强调了每个库的优势。例如,Cudf.Pandas在处理复杂的模式方面表现出色,保持高吞吐率在2-5 GB/s之间。 Pylibcudf,利用CUDA异步内存,进一步增强了性能,吞吐量达到6 GB/s。

相比之下,像大熊猫这样的传统库在较大的数据集中挣扎,受到为每个元素创建Python对象的限制。 Pyarrow和DuckDB在特定的数据类型和配置方面表现出更好的性能,但仍然落后于CUDF的GPU加速功能。

处理JSON异常

JSON数据通常包含异常情况,例如单引号,无效的记录和混合类型。 CUDF提供了高级读取器选项来应对这些挑战,包括报价标准化和错误恢复,与Apache Spark的约定保持一致。

这些功能使CUDF可以有效地将JSON数据转换为结构化数据范围,从而成为复杂数据处理任务的首选选择。

结论

通过这项全面的评估,NVIDIA的CUDF已被证明是JSON系列处理中的游戏规则,提供了无与伦比的速度和灵活性。它处理复杂的数据结构和异常的能力使其成为数据科学家和工程师寻求增强数据驱动应用程序的理想工具。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词: