蒂莫西·莫拉诺(Timothy Morano)
2025年5月20日04:25
Anyscale在射线数据中引入了基于哈希的洗牌后端,增强了连接和性能以进行重新分配和聚合。在Ray 2.46版本中发现进步。
Enyscale的说法,Anyscale已经推出了射线数据的重大改进,这是由于引入了基于哈希的洗牌后端而突出的。这项新功能(Ray 2.46版本的一部分)旨在提高连接并提高数据重新分配和聚集的性能,同时还减少了记忆压力。
射线数据的增强
最新版本拥有几个新功能,包括通过 ds.join()
API,基于密钥的重新分配和简化的自定义聚合API AggregateFnV2
。此外,大规模分类的性能得到了改善,从而增强了范围分配的混失。
新引入的基于哈希的洗牌后端解决了基于范围的洗牌方法的先前限制。在先前的版本中,改组依赖于范围分区,这是资源密集型的,容易发生瓶颈。新方法分区基于键值元素的传入数据块,将其引导到相应的聚合器参与者进行有效处理。
与Hash Shuffle一起实施连接
Ray 2.46引入了对各种连接类型的支持,包括内部,左/右和完整的外部连接。 Hash-Shuffle后端带有相同键的共同结合记录,从而优化了性能。这种方法通过Pyarrow的本地利用Apache Arrow的Acero Engine Table.join
操作,尽管它可能是内存密集的。
基准性能
性能基准测试表明,多个工作负载方面的重大改进。与以前的版本相比,使用M7i.4xlarge和M7i.16Xlarge实例在群集上进行的测试揭示了性能增长范围从3.3倍到5.6倍。值得注意的是,以前难以管理的TPCH-Q1-SF1000工作负载与新的后端现在是可行的。
其他测试表明,范围分门的洗牌也有所改善,运行时增强功能在1.6倍至4.3倍之间。重要的是,Hash洗牌后端大大降低了峰值存储器的使用情况,改善最高为3.9倍。
未来的发展
展望未来,Anyscale计划扩大对不同联接类型的支持并实施逻辑计划优化以重新排序加入。预计数据预处理器的进一步增强。
射线数据中的这些进步旨在使开发人员具有更有效的数据处理能力。有关更多见解,请访问官方的Anyscale博客。
图像来源:Shutterstock
(tagstotranslate)AI(T)加密(T)区块链(T)新闻
关键词: