橋水基金旗下AIA Labs與由前OpenAI首席技術官Mira Murati創立的Thinking Machines Lab聯合發佈了一份內部評估報告,揭示了一個對金融行業AI應用具有衝擊力的結論:經過內部專家知識微調的開源模型,在金融文檔分析任務上全面擊敗了GPTClaudeGemini等當前最強大的商業模型,且成本僅為後者的零頭。

研究團隊從投資者日常工作中提煉出六項核心判斷任務,例如判斷一篇財經新聞是否與某位高管相關、某份央行文件是否暗示未來利率走向等。這些任務看似瑣碎,卻是投資決策鏈條中不可或缺的篩選環節。報告舉了一個生動例子:關於特朗普聲稱要購買格陵蘭島的新聞被標記為不相關,而特朗普威脅對中國加徵新關稅的新聞則高度相關——兩者都涉及地緣政治與金融,但只有內部專家才能做出這種微妙而關鍵的區分。

在初始測試中,GeminiClaudeGPT等前沿模型僅憑基礎提示詞,準確率僅約50%。即使由專家撰寫詳細指令並引入三級評分體系,準確率也只能提升至70%78%之間,仍低於團隊設定的80%可信部署門檻。報告還指出,新一代模型的性價比提升有限:GPT 5.45.2貴了43%,但準確率僅邊際改善。

真正的突破來自微調。團隊最初嘗試用低成本外包人員標註數據,但錯誤率過高。為此,他們設計了一個巧妙的糾錯流程:先讓一個模型學習這些有缺陷的標註,然後重新評估同一批文檔,凡模型判斷與原始標註不一致的案例,才送交橋水的專業投資者進行人工修正。這樣既控制了成本,又保證了訓練數據的質量。

微調基於阿里巴巴的通義千問開源模型Qwen3-235B,在Thinking Machines Lab的Tinker平臺上完成。最終,微調模型在內部評估中取得了84.7%的準確率,而同期測試的最佳前沿模型僅為78.2%。更驚人的是成本差距:微調模型的運行成本僅為前沿商業模型的近十四分之一

需要指出的是,這一比較並非完全獨立——橋水和Thinking Machines Lab都有推廣自身解決方案的商業動機。但報告揭示的核心趨勢值得關注:大型AI實驗室並未窮盡世界上所有有價值的數據。企業內部沉澱的大量專有數據、以及員工頭腦中難以言傳的專家判斷,構成了巨大的未開發價值池。對於那些將最敏感數據視為核心資產的公司而言,把數據交給外部AI供應商意味著可能在未來與基於這些數據構建的產品競爭。

通過微調開源模型,企業得以保留對模型權重、數據和算力的完全控制。這一路徑為金融、法律、醫療等高度依賴專有知識的行業提供了一條兼顧性能、成本與數據主權的AI落地路線圖。