Nvidia Research通过新的基于AI的模型推进了3D机器人感知


达里乌斯·巴鲁(Darius Baruo)
6月17日,2025年08:48

NVIDIA的R²D²计划探讨了基于AI的机器人技术的3D感知模型,增强了自主导航,对象操纵和实时环境映射。




NVIDIA通过其机器人的研发摘要(R²D²)进行了基于AI的3D机器人感知的开创性进步,重点是使机器人有效地理解和与环境进行互动。根据NVIDIA Research,最新的研究突出了几种创新模型,可在复杂的设置中增强自主导航,对象操纵和实时映射。

统一的3D感知模型

NVIDIA的感知模型套件将3D场景的理解,对象跟踪和空间内存整合到一个凝聚系统中。关键模型包括基金会,pycuvslam,bundlesdf和Foundationpose,每个都会导致强大的3D感知堆栈。 CVPR 2025年提名的最佳纸张的FoundationsTereo在各种环境之间进行了立体声深度估计,提供了零拍性能,而无需特定于场景的调整。

高级大满贯和映射技术

Pycuvslam和NVBlox提供实时摄像头姿势估计和3D环境映射。这些技术允许机器人使用传统3D激光雷达传感器的具有成本效益的替代方案来导航和与非结构化空间进行交互。用于NVBlox的Pytorch包装器加速了3D重建,可实现高速,仅视觉障碍的避免。

对象姿势跟踪和重建

FoundationPose和BundlesDF解决了6-DOF对象姿势跟踪的挑战,即使是针对新物体的挑战。 FoundationPose利用统一的基础模型进行准确的姿势估计,而BundlesDF则提供了RGB-D视频的实时神经3D重建,随着时间的推移,可以完善姿势轨迹。

概括的基础模型

基础模型诸如FoundationsTereo和FoundationPose之类的基础模型在任务之间表现出强大的概括能力,从而提高了零拍摄方案的可靠性。这些模型将通用先验嵌入到实时系统中,支持环境中的机器人以及在训练过程中未见的物体。

机器人感知的未来

NVIDIA的综合3D感知堆栈是迈向具有空间和语义意识的机器人的重要一步。通过将基础模型与神经3D表示相结合,机器人可以在复杂环境中实现实时的导航,操纵和相互作用。

图像来源:Shutterstock


(tagstotranslate)AI(T)加密(T)区块链(T)新闻



关键词:

Comments (0)
Add Comment