桥水基金测试：GPT与Claude金融分析败给微调开源模型

桥水基金与Thinking Machines Lab称，微调开源模型在金融文档评估中超越GPT和Claude，成本更低。

桥水基金旗下AIA Labs与由前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab联合发布了一份内部评估报告，揭示了一个对金融行业AI应用具有冲击力的结论：经过内部专家知识微调的开源模型，在金融文档分析任务上全面击败了GPT、Claude和Gemini等当前最强大的商业模型，且成本仅为后者的零头。

研究团队从投资者日常工作中提炼出六项核心判断任务，例如判断一篇财经新闻是否与某位高管相关、某份央行文件是否暗示未来利率走向等。这些任务看似琐碎，却是投资决策链条中不可或缺的筛选环节。报告举了一个生动例子：关于特朗普声称要购买格陵兰岛的新闻被标记为不相关，而特朗普威胁对中国加征新关税的新闻则高度相关——两者都涉及地缘政治与金融，但只有内部专家才能做出这种微妙而关键的区分。

在初始测试中，Gemini、Claude和GPT等前沿模型仅凭基础提示词，准确率仅约50%。即使由专家撰写详细指令并引入三级评分体系，准确率也只能提升至70%至78%之间，仍低于团队设定的80%可信部署门槛。报告还指出，新一代模型的性价比提升有限：GPT 5.4比5.2贵了43%，但准确率仅边际改善。

真正的突破来自微调。团队最初尝试用低成本外包人员标注数据，但错误率过高。为此，他们设计了一个巧妙的纠错流程：先让一个模型学习这些有缺陷的标注，然后重新评估同一批文档，凡模型判断与原始标注不一致的案例，才送交桥水的专业投资者进行人工修正。这样既控制了成本，又保证了训练数据的质量。

微调基于阿里巴巴的通义千问开源模型Qwen3-235B，在Thinking Machines Lab的Tinker平台上完成。最终，微调模型在内部评估中取得了84.7%的准确率，而同期测试的最佳前沿模型仅为78.2%。更惊人的是成本差距：微调模型的运行成本仅为前沿商业模型的近十四分之一。

需要指出的是，这一比较并非完全独立——桥水和Thinking Machines Lab都有推广自身解决方案的商业动机。但报告揭示的核心趋势值得关注：大型AI实验室并未穷尽世界上所有有价值的数据。企业内部沉淀的大量专有数据、以及员工头脑中难以言传的专家判断，构成了巨大的未开发价值池。对于那些将最敏感数据视为核心资产的公司而言，把数据交给外部AI供应商意味着可能在未来与基于这些数据构建的产品竞争。

通过微调开源模型，企业得以保留对模型权重、数据和算力的完全控制。这一路径为金融、法律、医疗等高度依赖专有知识的行业提供了一条兼顾性能、成本与数据主权的AI落地路线图。

桥水基金测试：GPT与Claude金融分析败给微调开源模型

延伸阅读

相关深度报道

相关每日新闻