一家源自復旦大學的具身智能團隊近日公佈了旗下核心成果——機器人原生世界動作模型,並首次對外披露其時空一體架構的技術細節。與傳統的“感知-規劃-控制”解耦路線不同,該模型將世界模型的環境表徵與動作生成網絡在時空維度上深度耦合,使得機器人可以直接從原始觀測生成連續的動作序列,大幅降低了模塊間延遲和信息損耗。在同步放出的演示中,機械臂在靈巧抓取、動態避障等任務上展現了令人印象深刻的泛化能力。更受資本關注的是,這家創立不久的公司在產品亮相前的半年內已迅速斬獲五輪融資,雖然融資金額與投資方暫未公開,但這一密度在近期的具身智能領域相當罕見。
背景層面,通用機器人大腦的競賽已在國內外白熱化展開。谷歌的RT系列、特斯拉的Optimus,以及國內銀河通用、星塵智能等均在不同技術路線上尋求突破。世界模型能夠模擬物理環境演變,而動作生成決定機器人如何行動,兩者的一體化設計一直是學界與業界攻克的難點。復旦系在機器人領域有長期積累,此次成果凸顯出高校科研向商業落地的加速趨勢。時空一體架構可視為引入視頻生成中時空一致性的理念,將時間步進嵌入到動作規劃中,兼顧了長序列執行的連貫性與即時反應。
從AI產業的“五層蛋糕”來看,該模型屬於典型的應用層創新,直接面向工業、服務機器人的端到端操控。但它的技術特性決定了實時推理要求極高,需要邊緣端高性能芯片與低延遲基礎設施的支持,這為芯片層的專用神經處理器和基礎設施層的近實時計算架構提供了新的驅動力。對投資者而言,密集的融資節奏反映出機構對具身智能賽道估值邏輯的認可,認為通用動作模型可能成為機器人基礎模型層的標準組件,如同GPT對語言模型的拉動。然而,賽道內卷加劇、真實場景數據獲取成本高以及落地週期偏長亦是必須正視的現實。從更廣視角看,若時空一體模型能通過工程化驗證,或將催生上游高精度傳感器、仿真平臺與物理世界數據採集工具的配套需求,形成一個環環相扣的產業共振。