Mistral AI 正式推出 Leanstral 1.5,一款基于 Apache 2.0 许可的开源模型,专为 Lean 4 编程语言中的形式化验证任务而构建。Lean 4 本身是一种用于严格验证数学证明和软件正确性的工具,而 Leanstral 1.5 的发布意味着 AI 在这一高度专业化领域的实用能力迈上新台阶。
在数学基准测试中,Leanstral 1.5 的表现堪称顶尖。它在 miniF2F 基准上取得了 100% 的得分,该基准涵盖从高中到国际数学奥林匹克竞赛难度的形式化数学问题。在包含 672 道普特南数学竞赛题的 PutnamBench 上,模型成功解决了 587 题,位居所有开源模型之首,仅次于闭源的 Aleph Prover。在测试硕士和博士级代数任务(如群论、环论)的 FATE-H 和 FATE-X 基准上,它分别取得了 87% 和 34% 的领先成绩。
尽管训练重点在数学,Mistral 表示该模型在代码验证方面同样表现不俗。在实际测试中,Leanstral 1.5 扫描了 57 个开源代码仓库,成功捕获了 5 个此前未知的漏洞,其中包括 Rust 语言库 varinteger 中的一个溢出缺陷。这一发现表明,形式化验证模型不仅能处理抽象数学命题,也能直接应用于真实世界的软件工程安全审计。
从技术路线看,Leanstral 1.5 的训练流程结合了中期训练、监督微调和强化学习,这种多阶段训练策略有助于模型在严谨的逻辑推导与代码结构理解之间取得平衡。模型目前通过 Hugging Face 平台和免费 API 对外开放,降低了研究者和开发者获取形式化验证能力的门槛。
在 AI 产业版图中,形式化验证一直被视为提升关键系统(如金融交易、自动驾驶控制、芯片设计)可靠性的重要手段。传统形式化验证依赖人工编写证明,成本极高且效率有限。Leanstral 1.5 的出现,为自动化数学证明和代码漏洞挖掘提供了新的开源选项,尤其对需要高可信度软件栈的 AI 基础设施层和应用层企业具有潜在吸引力。
值得注意的是,该模型在 PutnamBench 上的成绩虽不及闭源方案,但其完全开源的特性意味着社区可以自由部署、微调和审计模型行为,这在安全敏感场景下反而可能成为优势。随着 AI 系统越来越多地嵌入关键业务流程,能够自证正确性的工具将不再是锦上添花,而是刚需。Mistral 此次发布,正是在这一趋势上投下了一枚重要的棋子。