商湯科技近期開源的多模態模型 SenseNova U1 正在開發者社區迅速升溫。發佈僅一週多,該項目在 GitHub 獲得超過 1,500 Star,並衝上 HuggingFace 趨勢榜。與眾多圖像生成模型不同,SenseNova U1 並未沿襲從 Stable Diffusion 到 FLUX 等主流方案所共用的變分自編碼器(VAE)路徑,轉而採用名為 NEO-unify 的架構,直接在 像素層面 對語言與視覺進行統一建模。模型參數量為 8B,並以 Apache 2.0 協議完整開源,支持商用。
傳統擴散模型為降低計算開銷,通常利用 VAE 將高分辨率圖像壓縮到低維潛空間,再在該空間中進行去噪生成,最後通過解碼器還原為像素。這套技術棧幾乎成為過去幾年圖像生成的地基。SenseNova U1 卻將 VAE 整個拆除,讓模型直接學習像素級表徵,並同時承載多模態理解(如圖像描述、問答)與生成任務,試圖構建真正統一的多模態大腦。開發者在 HuggingFace 平臺上熱烈討論其實際部署條件,包括“能否在單張 RTX 5090 上運行”以及“是否會推出更輕量版本”,顯示出社區已從圍觀轉向嚴肅的落地測試。
從技術路線看,放棄 VAE 並非單純的工程優化,而是架構層面的重新選邊。去除潛空間壓縮意味著對圖像細節的天然保留潛力,但像素端建模通常對顯存與計算的需求更高,模型必須在效率上做出精巧設計才能實用化。商湯糰隊顯然在訓練策略與推理優化上下足功夫,才讓 8B 參數的模型能夠在高端消費級顯卡上運行,這本身也是工程能力的體現。此外,該模型同時具備視覺理解與生成能力,避免了以往“理解模型”與“生成模型”分離的偽統一方案,被部分開發者評價為“終於有人在原生統一方向上認真做了工程落地”。
站在 AI 產業角度,SenseNova U1 的出現至少帶來三層含義。首先,在 模型層,它挑戰了以 VAE-潛擴散為標配的技術慣性,如果像素端統一架構的性能和效率被持續驗證,可能會推動更多團隊探索去 VAE 路線,進而影響未來生成式 AI 的算力需求結構——潛空間方案更節省顯存,但像素方案可能降低對高精度解碼器的依賴,算力分佈將重新調整。其次,在 應用層,以 Apache 2.0 協議開源意味著商業落地幾乎沒有障礙,中小企業和獨立開發者可以快速將其集成到創意工具、電商生成、遊戲素材等場景中,有望催生一批新應用,這直接擴大了生成式 AI 的可獲得性。第三,在競爭格局上,商湯作為中國 AI 公司,在開源圖像生成領域對 Stability AI、Black Forest Labs(FLUX)等構成追趕壓力,也為投資者提供了觀察中國模型創新能力的窗口——尤其在海外高端芯片受限的背景下,這種架構創新如何與國產算力結合,將是一個值得跟蹤的長線敘事。