微軟研究院近日發佈了一款名為Lens的文本到圖像生成模型,以僅38億的參數規模,在多項基準測試中取得了與參數量高達800億的混元圖像3.0等大型模型相當甚至更優的成績。這一成果挑戰了當前業界普遍信奉的“規模至上”法則,為高效能AI模型開發提供了新的思路。

Lens模型的核心突破在於其訓練數據的質量而非數量。研究團隊構建了一個包含8億對圖像與文本的Lens-800M數據集,其中的文本描述並非來自網絡上常見且質量參差不齊的替代文本,而是由GPT-4.1專門生成的詳細標註。這些標註平均長度約100個單詞,遠超普通網頁圖片附帶的簡短、模糊甚至錯誤的文字說明。微軟的消融實驗表明,使用這種長篇幅的詳細描述進行訓練,其生成質量明顯優於使用簡短或混合標註的訓練方式。

在模型架構上,Lens同樣進行了一系列精心設計。團隊測試了多種變分自編碼器,最終選用了在FLUX.2中表現最佳的語義變分自編碼器,這不僅提升了圖像生成質量,還加快了訓練收斂速度。文本編碼器則採用了OpenAI的開源語言模型GPT-OSS。更強的語言編碼器帶來了雙重好處:模型學習速度更快,並且能夠處理訓練數據中未包含的語言。儘管Lens僅使用英文圖像文本對進行訓練,但它可以接受中文、法文、日文和西班牙文等多種語言的提示詞。

訓練過程中,團隊在每個批次中混合了不同分辨率和寬高比的圖像,使得模型雖然僅在固定尺寸的圖像集上訓練,卻能泛化到未見過的格式和高達約200萬像素的分辨率,從而節省了昂貴的高分辨率數據訓練成本。預訓練完成後,模型還經歷了一個強化學習階段,使用了一個名為Lens-RL-8K的自定義提示集,涵蓋人物、動物、場景、食物、虛構世界和用戶界面設計等十個類別。GPT-4.1為每個提示生成匹配的評估標準,並由較小的GPT-4.1-mini充當獎勵模型。消融實驗顯示,強化學習提示的多樣性比單純的數量更重要,縮減某個類別會直接損害該領域的生成表現。

在推理階段,微軟在圖像模型前放置了一個“推理器”,負責將用戶模糊的輸入改寫為詳細的提示詞。默認使用GPT-5.5,但也可使用已在文本編碼中應用的GPT-OSS,無需額外內存。研究人員還描述了一種無需額外訓練即可迭代改進推理器系統提示的方法,並稱該策略已成功遷移到規模更大的Qwen-Image模型上,同樣顯示出積極效果。

為了提升推理速度,微軟還推出了一個蒸餾版本Lens-Turbo,僅需四步即可生成圖像。標準模型在H100 GPU上生成一張百萬像素圖像約需三秒,而Lens-Turbo可在不到一秒內完成。在提示忠實度、文本渲染和複雜場景等基準測試中,Lens超越了FLUX.2-Klein和Z-Image,在某些情況下甚至優於參數量為其五倍的Qwen-Image。不過,研究團隊也承認模型在渲染日文或法文等語言文本時存在不足,並將其歸因於數據覆蓋範圍的缺口。

Lens的代碼和模型檢查點已按MIT許可證發佈,模型權重可在Hugging Face上獲取,推理代碼則託管在GitHub倉庫中。微軟明確表示,Lens僅用於研究目的,未獲準用於生產環境。由於訓練數據部分來源於網絡,模型可能生成有偏見或存在問題的內容,因此使用者需要自行添加安全措施。

這一研究成果發佈之際,微軟由穆斯塔法·蘇萊曼領導的MAI團隊也剛剛推出了面向消費產品的圖像模型。MAI-Image-2及其後續版本MAI-Image-2.5在Arena.ai排行榜上位列第三,與谷歌的Nano Banana 2相當,但落後於OpenAI的ChatGPT Images 2.0。Lens的出現表明,在資源受限的條件下,通過優化數據質量和模型架構設計,同樣可以取得具有競爭力的成果。這對於整個AI產業而言,意味著未來在圖像生成領域的競爭可能不再單純是算力規模的比拼,數據工程與訓練策略的精細化將扮演越來越重要的角色。