Mistral AI 正式推出 Leanstral 1.5,一款基於 Apache 2.0 許可的開源模型,專為 Lean 4 編程語言中的形式化驗證任務而構建。Lean 4 本身是一種用於嚴格驗證數學證明和軟件正確性的工具,而 Leanstral 1.5 的發佈意味著 AI 在這一高度專業化領域的實用能力邁上新臺階。
在數學基準測試中,Leanstral 1.5 的表現堪稱頂尖。它在 miniF2F 基準上取得了 100% 的得分,該基準涵蓋從高中到國際數學奧林匹克競賽難度的形式化數學問題。在包含 672 道普特南數學競賽題的 PutnamBench 上,模型成功解決了 587 題,位居所有開源模型之首,僅次於閉源的 Aleph Prover。在測試碩士和博士級代數任務(如群論、環論)的 FATE-H 和 FATE-X 基準上,它分別取得了 87% 和 34% 的領先成績。
儘管訓練重點在數學,Mistral 表示該模型在代碼驗證方面同樣表現不俗。在實際測試中,Leanstral 1.5 掃描了 57 個開源代碼倉庫,成功捕獲了 5 個此前未知的漏洞,其中包括 Rust 語言庫 varinteger 中的一個溢出缺陷。這一發現表明,形式化驗證模型不僅能處理抽象數學命題,也能直接應用於真實世界的軟件工程安全審計。
從技術路線看,Leanstral 1.5 的訓練流程結合了中期訓練、監督微調和強化學習,這種多階段訓練策略有助於模型在嚴謹的邏輯推導與代碼結構理解之間取得平衡。模型目前通過 Hugging Face 平臺和免費 API 對外開放,降低了研究者和開發者獲取形式化驗證能力的門檻。
在 AI 產業版圖中,形式化驗證一直被視為提升關鍵系統(如金融交易、自動駕駛控制、芯片設計)可靠性的重要手段。傳統形式化驗證依賴人工編寫證明,成本極高且效率有限。Leanstral 1.5 的出現,為自動化數學證明和代碼漏洞挖掘提供了新的開源選項,尤其對需要高可信度軟件棧的 AI 基礎設施層和應用層企業具有潛在吸引力。
值得注意的是,該模型在 PutnamBench 上的成績雖不及閉源方案,但其完全開源的特性意味著社區可以自由部署、微調和審計模型行為,這在安全敏感場景下反而可能成為優勢。隨著 AI 系統越來越多地嵌入關鍵業務流程,能夠自證正確性的工具將不再是錦上添花,而是剛需。Mistral 此次發佈,正是在這一趨勢上投下了一枚重要的棋子。