英偉達在物理AI賽道上再次加碼,正式開源了Cosmos 3全模態世界基礎模型,並配套推出Agent Toolkit開發工具包。與此前的Cosmos系列相比,第三代模型不再侷限於視覺預測,而是整合了文本、圖像、視頻、深度傳感和激光雷達點雲等多種模態,能夠為機器人、自動駕駛車輛和複雜工業系統提供高保真的環境模擬與行為預測。這一版本將模型參數規模擴展至數十億級別,並通過預訓練權重和微調腳本的全面公開,讓中小型開發團隊也能基於自身場景進行快速定製。
同步發佈的Agent Toolkit則填補了從模型到可部署智能體之間的工程缺口。該工具包內建了感知-規劃-控制的標準化流水線,支持在英偉達Omniverse數字孿生環境中進行閉環仿真驗證,並可以將訓練好的智能體策略直接部署到Jetson Orin等邊緣計算平臺上。英偉達表示,無論是倉儲物流中的移動機器人,還是田間作業的農業機械,開發者都能借助這一工具鏈,在幾天內走通從數據生成到策略下發的全流程,而此前這往往需要跨團隊的數月集成工作。
從產業邏輯來看,物理AI一直被視為比語言模型更“重”的賽道,其落地高度依賴高質量的合成數據、物理仿真引擎和邊緣算力——三者恰是英偉達的傳統強項。Cosmos 3的深度開源策略,看似放棄了部分短期軟件授權收入,實則是用免費的基礎模型吸引開發者進入Omniverse與NVIDIA AI Enterprise的生態體系,進而拉動對H100、B200等數據中心GPU以及Jetson邊緣芯片的長期採購。對機器人公司而言,藉助Cosmos+Agent組合,能減少從零搭建“世界模型”的研發投入,更快地實現具身智能的商業閉環。
值得注意的是,這一發布還映射出英偉達從“算力賣鏟人”向“全棧AI平臺商”的持續進化。在語言大模型層,英偉達已通過Nemo框架和Llama系列的開源改款嘗試生態構建;而在物理AI層,Cosmos 3的開源則是一次更果斷的衝鋒,直接與谷歌DeepMind的RT系列模型、特斯拉的FSD底層模型形成競爭。當物理AI的模型層趨於開源普惠,下游應用創新的爆發點將更依賴於數據飛輪和硬件供應鏈的效率,這正是英偉達希望在“芯片-基礎設施-模型-應用”的多層蛋糕中鎖定的長期價值。