星海圖釋出G0.5具身模型，實現零樣本泛化操控

星海圖G0.5基於VLA架構，零樣本下僅憑自然語言驅動機器人操作

星海圖正式釋出了新一代具身基礎模型G0.5，首次將VLA（視覺-語言-行動）架構推進到“思考與行動同時發生”的新階段。此前，多數機器人模型面對一條“把毛巾放進洗手池”的指令，仍需依賴預程式設計動作或場景微調，而G0.5展示出截然不同的能力：它先自主理解任務意圖，推理出毛巾與洗手池的位置，然後規劃出拿起、移動、放下的完整動作序列，並在實體機器人R1 Lite上流暢執行。整個過程未針對當前環境、物體或指令做任何特定訓練，做到了真正的零樣本泛化。

支撐這一表現的核心在於，G0.5通過大規模多工預訓練，將抓取、放置、推拉、開合等原子動作抽象為可組合的操作基元，使同一套模型權重能同時進行高階推理與底層控制。這意味著，告訴模型“開啟冰箱並放入飲料”，它不再需要事先拍過該冰箱的影像，也不需預先學習“飲料”的視覺特徵，即可即時辨識目標、分解步驟、協調雙臂完成操作。這種“言出法隨”的開箱即用能力，打破了以往機器人“記住任務”的範式，向“學會操作”邁出了關鍵一步。

具身智慧近年發展迅速，但多數系統仍受限於環境與物體的泛化瓶頸，對新場景需要重新採集資料、微調模型，部署耗時且成本高昂。星海圖的G0.5則把機器人操作的通用性提升到與當下大語言模型相似的層次——一個模型可應對多種任務，不確定性由模型內生的規劃與反饋迴圈吸收。這與輝達創始人黃仁勳所描繪的AI產業“五層蛋糕”中應用層的演進方向高度吻合：當底層能源、晶片、基礎設施和模型逐漸成熟，上層應用能否實現“直接聽懂人話並行動”就成為產業落地的關鍵。G0.5的突破因此不僅關乎一家機器人公司的技術升級，也為整個具身智慧生態提供了可參考的工程路徑，對上游GPU算力、模擬訓練平台和預訓練模型服務都會產生拉動。

從產業邏輯看，零樣本泛化的實現若可規模化複製，將大幅拓寬機器人在物流倉儲、家庭服務、醫療輔助等場景的適用半徑，原先需要工程師駐場調參的商業專案，未來或可由通用模型直接驅動。同時，該進展也引發關於資料飛輪效應的討論：機器人通過真實互動持續沉澱長尾操作資料，反哺模型迭代，可能形成其他競爭者難以短期追趕的壁壘。站在中性觀察視角，G0.5的釋出讓具身智慧從“炫技”走向“可泛化實用”的敘事更具實感，後續需關注其在不同硬體平台上的適配表現及商業化落地節奏。

星海圖釋出G0.5具身模型，實現零樣本泛化操控

延伸閱讀

相關深度報道

相關每日新聞