微軟Lens模型：詳細標註比堆引數更高效

微軟Lens模型僅38億引數，靠GPT-4.1生成的8億條詳細標註，效能比肩更大模型

微軟研究院近日釋出了一款名為Lens的文本到影像生成模型，以僅38億的引數規模，在多項基準測試中取得了與引數量高達800億的混元影像3.0等大型模型相當甚至更優的成績。這一成果挑戰了當前業界普遍信奉的“規模至上”法則，為高效能AI模型開發提供了新的思路。

Lens模型的核心突破在於其訓練資料的質量而非數量。研究團隊構建了一個包含8億對影像與文本的Lens-800M資料集，其中的文本描述並非來自網路上常見且質量參差不齊的替代文本，而是由GPT-4.1專門生成的詳細標註。這些標註平均長度約100個單詞，遠超普通網頁圖片附帶的簡短、模糊甚至錯誤的文字說明。微軟的消融實驗表明，使用這種長篇幅的詳細描述進行訓練，其生成質量明顯優於使用簡短或混合標註的訓練方式。

在模型架構上，Lens同樣進行了一系列精心設計。團隊測試了多種變分自編碼器，最終選用了在FLUX.2中表現最佳的語義變分自編碼器，這不僅提升了影像生成質量，還加快了訓練收斂速度。文本編碼器則採用了OpenAI的開源語言模型GPT-OSS。更強的語言編碼器帶來了雙重好處：模型學習速度更快，並且能夠處理訓練資料中未包含的語言。儘管Lens僅使用英文影像文本對進行訓練，但它可以接受中文、法文、日文和西班牙文等多種語言的提示詞。

訓練過程中，團隊在每個批次中混合了不同解析度和寬高比的影像，使得模型雖然僅在固定尺寸的影像集上訓練，卻能泛化到未見過的格式和高達約200萬畫素的解析度，從而節省了昂貴的高解析度資料訓練成本。預訓練完成後，模型還經歷了一個強化學習階段，使用了一個名為Lens-RL-8K的自定義提示集，涵蓋人物、動物、場景、食物、虛構世界和使用者介面設計等十個類別。GPT-4.1為每個提示生成匹配的評估標準，並由較小的GPT-4.1-mini充當獎勵模型。消融實驗顯示，強化學習提示的多樣性比單純的數量更重要，縮減某個類別會直接損害該領域的生成表現。

在推理階段，微軟在影像模型前放置了一個“推理器”，負責將使用者模糊的輸入改寫為詳細的提示詞。預設使用GPT-5.5，但也可使用已在文本編碼中應用的GPT-OSS，無需額外記憶體。研究人員還描述了一種無需額外訓練即可迭代改進推理器系統提示的方法，並稱該策略已成功遷移到規模更大的Qwen-Image模型上，同樣顯示出積極效果。

為了提升推理速度，微軟還推出了一個蒸餾版本Lens-Turbo，僅需四步即可生成影像。標準模型在H100 GPU上生成一張百萬畫素影像約需三秒，而Lens-Turbo可在不到一秒內完成。在提示忠實度、文本渲染和複雜場景等基準測試中，Lens超越了FLUX.2-Klein和Z-Image，在某些情況下甚至優於引數量為其五倍的Qwen-Image。不過，研究團隊也承認模型在渲染日文或法文等語言文本時存在不足，並將其歸因於資料覆蓋範圍的缺口。

Lens的程式碼和模型檢查點已按MIT許可證釋出，模型權重可在Hugging Face上獲取，推理程式碼則託管在GitHub倉庫中。微軟明確表示，Lens僅用於研究目的，未獲準用於生產環境。由於訓練資料部分來源於網路，模型可能生成有偏見或存在問題的內容，因此使用者需要自行新增安全措施。

這一研究成果釋出之際，微軟由穆斯塔法·蘇萊曼領導的MAI團隊也剛剛推出了面向消費產品的影像模型。MAI-Image-2及其後續版本MAI-Image-2.5在Arena.ai排行榜上位列第三，與谷歌的Nano Banana 2相當，但落後於OpenAI的ChatGPT Images 2.0。Lens的出現表明，在資源受限的條件下，通過最佳化資料質量和模型架構設計，同樣可以取得具有競爭力的成果。這對於整個AI產業而言，意味著未來在影像生成領域的競爭可能不再單純是算力規模的比拼，資料工程與訓練策略的精細化將扮演越來越重要的角色。

微軟Lens模型：詳細標註比堆引數更高效

延伸閱讀

相關深度報道

相關每日新聞