英偉達研究團隊在今年的計算機視覺與模式識別頂會CVPR上,集中展示了多項旨在讓AI更深入物理世界的前沿工作,核心圍繞一個主題:如何讓機器人在真實環境中像人類一樣靈活適應,讓自動駕駛系統真正理解場景因果,以及如何低成本、大規模地訓練這些複雜智能體。

在機器人抓取領域,英偉達提出了一個名為DexGraspNet 2.0的框架,其關鍵突破在於「通用性」。傳統抓取系統往往針對特定物體進行優化,換一個形狀、材質或工具就容易失敗。而英偉達的方法讓機械手能夠零樣本拿起它從未見過的工具,並連續完成多個不同物體的抓取任務。這意味著機器人不再依賴海量逐個物體的標註數據,而是學會了某種底層的抓取邏輯。這對於倉儲物流、家庭服務等需要應對無限多樣物品的場景,具有直接的應用價值。

自動駕駛方面,研究重點從單純的感知轉向了「推理」。團隊展示了Hydra-MDP模型,它不再只是識別行人、車輛和交通標誌,而是能模擬人類駕駛員的思維過程,在複雜路口、博弈場景中進行因果推理。例如,系統會評估「如果我減速讓行,對方車輛可能會如何反應」,從而做出更安全、更符合社會規範的決策。這一思路將自動駕駛的安全驗證從被動反應提升到了主動預判層面。

支撐這些應用的是底層訓練方法的革新。英偉達的HOVER框架專門針對人形機器人,利用合成數據在仿真環境中高效訓練複雜的全身控制策略。傳統上,訓練一個人形機器人行走、保持平衡並操作物體,需要昂貴的實體試錯。HOVER在虛擬世界中生成大量多樣化的物理交互數據,將學到的策略直接遷移到真實機器人上,大幅降低了訓練成本和時間。這為未來人形機器人在製造、醫療等領域的規模化部署鋪平了道路。

這些研究共同勾勒出英偉達在「物理AI」時代的戰略版圖。在黃仁勳提出的「五層蛋糕」模型中,這些工作橫跨「應用層」與「基礎設施層」。機器人抓取和自動駕駛是直接面向終端的應用,而背後的仿真平臺、合成數據生成工具則是英偉達Omniverse和Isaac Sim等基礎設施的關鍵能力。通過持續發佈底層算法突破,英偉達不僅展示了自己在AI前沿的科研實力,更在為其硬件和軟件生態培育未來的需求場景——更智能的機器人需要更強大的邊緣計算芯片,更復雜的仿真訓練需要更多的數據中心算力。從產業視角看,這進一步模糊了「研究」與「產品化」的界限,加速了AI從實驗室到工廠車間、城市道路的滲透。