星海圖正式發佈了新一代具身基礎模型G0.5,首次將VLA(視覺-語言-行動)架構推進到“思考與行動同時發生”的新階段。此前,多數機器人模型面對一條“把毛巾放進洗手池”的指令,仍需依賴預編程動作或場景微調,而G0.5展示出截然不同的能力:它先自主理解任務意圖,推理出毛巾與洗手池的位置,然後規劃出拿起、移動、放下的完整動作序列,並在實體機器人R1 Lite上流暢執行。整個過程未針對當前環境、物體或指令做任何特定訓練,做到了真正的零樣本泛化。
支撐這一表現的核心在於,G0.5通過大規模多任務預訓練,將抓取、放置、推拉、開合等原子動作抽象為可組合的操作基元,使同一套模型權重能同時進行高級推理與底層控制。這意味著,告訴模型“打開冰箱並放入飲料”,它不再需要事先拍過該冰箱的圖像,也不需預先學習“飲料”的視覺特徵,即可實時辨識目標、分解步驟、協調雙臂完成操作。這種“言出法隨”的開箱即用能力,打破了以往機器人“記住任務”的範式,向“學會操作”邁出了關鍵一步。
具身智能近年發展迅速,但多數系統仍受限於環境與物體的泛化瓶頸,對新場景需要重新採集數據、微調模型,部署耗時且成本高昂。星海圖的G0.5則把機器人操作的通用性提升到與當下大語言模型相似的層次——一個模型可應對多種任務,不確定性由模型內生的規劃與反饋循環吸收。這與英偉達創始人黃仁勳所描繪的AI產業“五層蛋糕”中應用層的演進方向高度吻合:當底層能源、芯片、基礎設施和模型逐漸成熟,上層應用能否實現“直接聽懂人話並行動”就成為產業落地的關鍵。G0.5的突破因此不僅關乎一家機器人公司的技術升級,也為整個具身智能生態提供了可參考的工程路徑,對上游GPU算力、仿真訓練平臺和預訓練模型服務都會產生拉動。
從產業邏輯看,零樣本泛化的實現若可規模化複製,將大幅拓寬機器人在物流倉儲、家庭服務、醫療輔助等場景的適用半徑,原先需要工程師駐場調參的商業項目,未來或可由通用模型直接驅動。同時,該進展也引發關於數據飛輪效應的討論:機器人通過真實交互持續沉澱長尾操作數據,反哺模型迭代,可能形成其他競爭者難以短期追趕的壁壘。站在中性觀察視角,G0.5的發佈讓具身智能從“炫技”走向“可泛化實用”的敘事更具實感,後續需關注其在不同硬件平臺上的適配表現及商業化落地節奏。