去掉 VAE，商湯 8B 開源生圖模型重新定義上限

商湯SenseNova U1以8B引數去除VAE，直接畫素端到端建模，開源兩週獲GitHub 1500 Star。

商湯科技近期開源的多模態模型 SenseNova U1 正在開發者社群迅速升溫。釋出僅一週多，該專案在 GitHub 獲得超過 1,500 Star，並衝上 HuggingFace 趨勢榜。與眾多影像生成模型不同，SenseNova U1 並未沿襲從 Stable Diffusion 到 FLUX 等主流方案所共用的變分自編碼器（VAE）路徑，轉而採用名為 NEO-unify 的架構，直接在 畫素層面 對語言與視覺進行統一建模。模型引數量為 8B，並以 Apache 2.0 協議完整開源，支援商用。

傳統擴散模型為降低計算開銷，通常利用 VAE 將高解析度影像壓縮到低維潛空間，再在該空間中進行去噪生成，最後通過解碼器還原為畫素。這套技術棧幾乎成為過去幾年影像生成的地基。SenseNova U1 卻將 VAE 整個拆除，讓模型直接學習畫素級表徵，並同時承載多模態理解（如影像描述、問答）與生成任務，試圖構建真正統一的多模態大腦。開發者在 HuggingFace 平台上熱烈討論其實際部署條件，包括“能否在單張 RTX 5090 上執行”以及“是否會推出更輕量版本”，顯示出社群已從圍觀轉向嚴肅的落地測試。

從技術路線看，放棄 VAE 並非單純的工程最佳化，而是架構層面的重新選邊。去除潛空間壓縮意味著對影像細節的天然保留潛力，但畫素端建模通常對視訊記憶體與計算的需求更高，模型必須在效率上做出精巧設計才能實用化。商湯糰隊顯然在訓練策略與推理最佳化上下足功夫，才讓 8B 引數的模型能夠在高階消費級顯示卡上執行，這本身也是工程能力的體現。此外，該模型同時具備視覺理解與生成能力，避免了以往“理解模型”與“生成模型”分離的偽統一方案，被部分開發者評價為“終於有人在原生統一方向上認真做了工程落地”。

站在 AI 產業角度，SenseNova U1 的出現至少帶來三層含義。首先，在 模型層，它挑戰了以 VAE-潛擴散為標配的技術慣性，如果畫素端統一架構的效能和效率被持續驗證，可能會推動更多團隊探索去 VAE 路線，進而影響未來生成式 AI 的算力需求結構——潛空間方案更節省視訊記憶體，但畫素方案可能降低對高精度解碼器的依賴，算力分佈將重新調整。其次，在 應用層，以 Apache 2.0 協議開源意味著商業落地幾乎沒有障礙，中小企業和獨立開發者可以快速將其整合到創意工具、電商生成、遊戲素材等場景中，有望催生一批新應用，這直接擴大了生成式 AI 的可獲得性。第三，在競爭格局上，商湯作為中國 AI 公司，在開源影像生成領域對 Stability AI、Black Forest Labs（FLUX）等構成追趕壓力，也為投資者提供了觀察中國模型創新能力的視窗——尤其在海外高階晶片受限的背景下，這種架構創新如何與國產算力結合，將是一個值得跟蹤的長線敘事。

去掉 VAE，商湯 8B 開源生圖模型重新定義上限

延伸閱讀

相關深度報道

相關每日新聞