Rayturbo数据增强功能提高了处理速度五倍


王王
2025年5月20日05:17

Anyscale的Rayturbo数据引入了重大改进,可更快地提供5倍的数据处理。关键功能包括工作级检查点,矢量聚合和优化的管道规则。




Anyscale揭示了Rayturbo Data的主要增强功能,Rayturbo Data是一个专有数据处理平台,与其开源对应物Ray Data相比,速度的性能要快五倍。根据Enyscale的说法,这些改进旨在通过减少处理时间和操作风险来彻底改变大规模数据处理。

提高可靠性的工作级检查点

杰出的功能之一是引入工作级检查点,旨在增强生产环境中的可靠性。此功能允许推理工作负载从中断的确切点恢复,无论是由于手动或自动集群关闭而引起的。通过保留执行状态,Rayturbo数据可确保不浪费昂贵的计算资源,从而保持紧密的交付时间表和竞争性边缘。

与现有的射线数据(在Worker节点故障上重检修单个任务)不同,Rayturbo的检查点可以处理诸如Head Node Crashes或Memory错误之类的重大干扰,而无需完整重新启动。这一进步对于长期运行的批处理工作处理数百万张记录特别有益,这些记录以前面临停机时间的数小时或数天。

改进数据分析的矢量聚合

Rayturbo数据现在支持完全矢量的聚合,将计算从Python转移到优化的本机代码。这种过渡消除了与Python的解释器相关的性能瓶颈,从而增强了现代CPU体系结构的吞吐量。新的聚合功能对于功能工程和数据摘要任务至关重要,尤其是在处理大型数据集时。

优化的管道规则用于有效处理

除了增强速度外,Rayturbo Data的优化器规则已升级为在数据管道中自动重新订购操作,重点关注过滤器和投影任务。此优化减少了不必要的数据处理,使管道可以更快地完成,而无需更改用户编写的代码。

性能基准和影响

综合基准​​强调了Rayturbo数据的性能优势比开源射线数据。在使用TPC-H订单数据集的测试中,Rayturbo展示了重量重量工作负载的1.6倍至2.6倍,以及3.3倍至4.9倍提高涉及过滤器和列选择的预处理任务。

测试环境包括一个带有一个M7I.4xlarge头节点和五个M7I.16Xlarge Worker节点的群集,每个工作节点设置为128GB。这些基准测试强调了Rayturbo Data处理大规模AI工作负载的能力更有效,从而提供了重要的竞争优势。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

Rayturbo数据增强功能提高了处理速度五倍
Comments (0)
Add Comment