使用 RAPIDS cuML 增强 GPU 上的 UMAP 性能

詹姆斯·丁
2024 年 11 月 1 日 11:49

RAPIDS cuML 引入了使用 GPU 加速的更快、可扩展的 UMAP 实现，通过新算法解决大型数据集处理中的挑战，以提高性能。

RAPIDS cuML 的最新进展有望在统一流形逼近和投影 (UMAP) 的处理速度和可扩展性方面实现重大飞跃，UMAP 是一种广泛用于生物信息学和自然语言处理等各个领域的流行降维算法。 Jinsol Park 在 NVIDIA 开发者博客上详细介绍了这些增强功能，利用 GPU 加速来应对大型数据集处理的挑战。

应对 UMAP 的挑战

UMAP 的性能瓶颈传统上是所有邻居图的构建，随着数据集大小的增长，这个过程变得越来越耗时。最初，RAPIDS cuML 使用暴力方法进行图构建，虽然详尽，但导致可扩展性较差。随着数据集规模的扩大，此阶段所需的时间呈二次方增长，通常占据总处理时间的 99% 或更多。

此外，整个数据集装入 GPU 内存的要求带来了额外的障碍，特别是在处理超过消费级 GPU 内存容量的数据集时。

NN-Descent 的创新解决方案

RAPIDS cuML 24.10 通过新的批量近似最近邻 (ANN) 算法解决了这些挑战。该方法利用 RAPIDS cuVS 库中的最近邻下降（NN-descent）算法，该算法通过减少所需的距离计算数量来有效地构建所有邻居图，从而比传统方法提供显着的速度提升。

批处理的引入进一步增强了可扩展性，允许分段处理大型数据集。该方法不仅可以容纳超出 GPU 内存限制的数据集，还可以保持 UMAP 嵌入的准确性。

显着的性能提升

基准测试结果证明了这些增强功能的深远影响。例如，包含 2000 万个点和 384 个维度的数据集加速了 311 倍，将 GPU 处理时间从 10 小时减少到仅 2 分钟。这一实质性改进是在不影响 UMAP 嵌入质量的情况下实现的，一致的可信度分数证明了这一点。

无需更改代码即可实现

RAPIDS cuML 24.10 更新的突出特点之一是其易用性。用户无需更改现有代码即可利用性能改进。 UMAP 估计器现在包含额外的参数，供那些寻求对图形构建过程进行更大控制的人使用，允许用户指定算法并调整设置以获得最佳性能。

总体而言，RAPIDS cuML 在 UMAP 处理方面的进步标志着数据科学领域的一个重要里程碑，使研究人员和开发人员能够在 GPU 上更有效地处理更大的数据集。

图片来源：Shutterstock

关键词：人工智能,加密,区块链,新闻

使用 RAPIDS cuML 增强 GPU 上的 UMAP 性能

应对 UMAP 的挑战

NN-Descent 的创新解决方案

显着的性能提升

无需更改代码即可实现

Related Posts

贝伦贝格（Berenberg）降级至“卖出”后，K+S股票下跌4％，价格目标降至11欧元

欧洲对俄罗斯的制裁是饿死普京的资金 – 相反，其他事情发生了。世界新闻

医疗运输公司Modivcare文件破产

Cairn Homes PLC：2025年临时结果的通知

比特币（BTCUSD）Elliott Wave：预测路径

当投资者评估标准普尔500标准普尔的四天损失连胜时，亚洲市场设定为静音起步

Microsoft指导可能包括钻孔量折扣：分析师