橋水基金測試：GPT與Claude金融分析敗給微調開源模型

橋水基金與Thinking Machines Lab稱，微調開源模型在金融文檔評估中超越GPT和Claude，成本更低。

橋水基金旗下AIA Labs與由前OpenAI首席技術官Mira Murati創立的Thinking Machines Lab聯合發佈了一份內部評估報告，揭示了一個對金融行業AI應用具有衝擊力的結論：經過內部專家知識微調的開源模型，在金融文檔分析任務上全面擊敗了GPT、Claude和Gemini等當前最強大的商業模型，且成本僅為後者的零頭。

研究團隊從投資者日常工作中提煉出六項核心判斷任務，例如判斷一篇財經新聞是否與某位高管相關、某份央行文件是否暗示未來利率走向等。這些任務看似瑣碎，卻是投資決策鏈條中不可或缺的篩選環節。報告舉了一個生動例子：關於特朗普聲稱要購買格陵蘭島的新聞被標記為不相關，而特朗普威脅對中國加徵新關稅的新聞則高度相關——兩者都涉及地緣政治與金融，但只有內部專家才能做出這種微妙而關鍵的區分。

在初始測試中，Gemini、Claude和GPT等前沿模型僅憑基礎提示詞，準確率僅約50%。即使由專家撰寫詳細指令並引入三級評分體系，準確率也只能提升至70%至78%之間，仍低於團隊設定的80%可信部署門檻。報告還指出，新一代模型的性價比提升有限：GPT 5.4比5.2貴了43%，但準確率僅邊際改善。

真正的突破來自微調。團隊最初嘗試用低成本外包人員標註數據，但錯誤率過高。為此，他們設計了一個巧妙的糾錯流程：先讓一個模型學習這些有缺陷的標註，然後重新評估同一批文檔，凡模型判斷與原始標註不一致的案例，才送交橋水的專業投資者進行人工修正。這樣既控制了成本，又保證了訓練數據的質量。

微調基於阿里巴巴的通義千問開源模型Qwen3-235B，在Thinking Machines Lab的Tinker平臺上完成。最終，微調模型在內部評估中取得了84.7%的準確率，而同期測試的最佳前沿模型僅為78.2%。更驚人的是成本差距：微調模型的運行成本僅為前沿商業模型的近十四分之一。

需要指出的是，這一比較並非完全獨立——橋水和Thinking Machines Lab都有推廣自身解決方案的商業動機。但報告揭示的核心趨勢值得關注：大型AI實驗室並未窮盡世界上所有有價值的數據。企業內部沉澱的大量專有數據、以及員工頭腦中難以言傳的專家判斷，構成了巨大的未開發價值池。對於那些將最敏感數據視為核心資產的公司而言，把數據交給外部AI供應商意味著可能在未來與基於這些數據構建的產品競爭。

通過微調開源模型，企業得以保留對模型權重、數據和算力的完全控制。這一路徑為金融、法律、醫療等高度依賴專有知識的行業提供了一條兼顧性能、成本與數據主權的AI落地路線圖。

橋水基金測試：GPT與Claude金融分析敗給微調開源模型

延伸閱讀

相關深度報道

相關每日新聞