微软研究院近日发布了一款名为Lens的文本到图像生成模型,以仅38亿的参数规模,在多项基准测试中取得了与参数量高达800亿的混元图像3.0等大型模型相当甚至更优的成绩。这一成果挑战了当前业界普遍信奉的“规模至上”法则,为高效能AI模型开发提供了新的思路。

Lens模型的核心突破在于其训练数据的质量而非数量。研究团队构建了一个包含8亿对图像与文本的Lens-800M数据集,其中的文本描述并非来自网络上常见且质量参差不齐的替代文本,而是由GPT-4.1专门生成的详细标注。这些标注平均长度约100个单词,远超普通网页图片附带的简短、模糊甚至错误的文字说明。微软的消融实验表明,使用这种长篇幅的详细描述进行训练,其生成质量明显优于使用简短或混合标注的训练方式。

在模型架构上,Lens同样进行了一系列精心设计。团队测试了多种变分自编码器,最终选用了在FLUX.2中表现最佳的语义变分自编码器,这不仅提升了图像生成质量,还加快了训练收敛速度。文本编码器则采用了OpenAI的开源语言模型GPT-OSS。更强的语言编码器带来了双重好处:模型学习速度更快,并且能够处理训练数据中未包含的语言。尽管Lens仅使用英文图像文本对进行训练,但它可以接受中文、法文、日文和西班牙文等多种语言的提示词。

训练过程中,团队在每个批次中混合了不同分辨率和宽高比的图像,使得模型虽然仅在固定尺寸的图像集上训练,却能泛化到未见过的格式和高达约200万像素的分辨率,从而节省了昂贵的高分辨率数据训练成本。预训练完成后,模型还经历了一个强化学习阶段,使用了一个名为Lens-RL-8K的自定义提示集,涵盖人物、动物、场景、食物、虚构世界和用户界面设计等十个类别。GPT-4.1为每个提示生成匹配的评估标准,并由较小的GPT-4.1-mini充当奖励模型。消融实验显示,强化学习提示的多样性比单纯的数量更重要,缩减某个类别会直接损害该领域的生成表现。

在推理阶段,微软在图像模型前放置了一个“推理器”,负责将用户模糊的输入改写为详细的提示词。默认使用GPT-5.5,但也可使用已在文本编码中应用的GPT-OSS,无需额外内存。研究人员还描述了一种无需额外训练即可迭代改进推理器系统提示的方法,并称该策略已成功迁移到规模更大的Qwen-Image模型上,同样显示出积极效果。

为了提升推理速度,微软还推出了一个蒸馏版本Lens-Turbo,仅需四步即可生成图像。标准模型在H100 GPU上生成一张百万像素图像约需三秒,而Lens-Turbo可在不到一秒内完成。在提示忠实度、文本渲染和复杂场景等基准测试中,Lens超越了FLUX.2-Klein和Z-Image,在某些情况下甚至优于参数量为其五倍的Qwen-Image。不过,研究团队也承认模型在渲染日文或法文等语言文本时存在不足,并将其归因于数据覆盖范围的缺口。

Lens的代码和模型检查点已按MIT许可证发布,模型权重可在Hugging Face上获取,推理代码则托管在GitHub仓库中。微软明确表示,Lens仅用于研究目的,未获准用于生产环境。由于训练数据部分来源于网络,模型可能生成有偏见或存在问题的内容,因此使用者需要自行添加安全措施。

这一研究成果发布之际,微软由穆斯塔法·苏莱曼领导的MAI团队也刚刚推出了面向消费产品的图像模型。MAI-Image-2及其后续版本MAI-Image-2.5在Arena.ai排行榜上位列第三,与谷歌的Nano Banana 2相当,但落后于OpenAI的ChatGPT Images 2.0。Lens的出现表明,在资源受限的条件下,通过优化数据质量和模型架构设计,同样可以取得具有竞争力的成果。这对于整个AI产业而言,意味着未来在图像生成领域的竞争可能不再单纯是算力规模的比拼,数据工程与训练策略的精细化将扮演越来越重要的角色。