桥水基金旗下AIA Labs与由前OpenAI首席技术官Mira Murati创立的Thinking Machines Lab联合发布了一份内部评估报告,揭示了一个对金融行业AI应用具有冲击力的结论:经过内部专家知识微调的开源模型,在金融文档分析任务上全面击败了GPT、Claude和Gemini等当前最强大的商业模型,且成本仅为后者的零头。
研究团队从投资者日常工作中提炼出六项核心判断任务,例如判断一篇财经新闻是否与某位高管相关、某份央行文件是否暗示未来利率走向等。这些任务看似琐碎,却是投资决策链条中不可或缺的筛选环节。报告举了一个生动例子:关于特朗普声称要购买格陵兰岛的新闻被标记为不相关,而特朗普威胁对中国加征新关税的新闻则高度相关——两者都涉及地缘政治与金融,但只有内部专家才能做出这种微妙而关键的区分。
在初始测试中,Gemini、Claude和GPT等前沿模型仅凭基础提示词,准确率仅约50%。即使由专家撰写详细指令并引入三级评分体系,准确率也只能提升至70%至78%之间,仍低于团队设定的80%可信部署门槛。报告还指出,新一代模型的性价比提升有限:GPT 5.4比5.2贵了43%,但准确率仅边际改善。
真正的突破来自微调。团队最初尝试用低成本外包人员标注数据,但错误率过高。为此,他们设计了一个巧妙的纠错流程:先让一个模型学习这些有缺陷的标注,然后重新评估同一批文档,凡模型判断与原始标注不一致的案例,才送交桥水的专业投资者进行人工修正。这样既控制了成本,又保证了训练数据的质量。
微调基于阿里巴巴的通义千问开源模型Qwen3-235B,在Thinking Machines Lab的Tinker平台上完成。最终,微调模型在内部评估中取得了84.7%的准确率,而同期测试的最佳前沿模型仅为78.2%。更惊人的是成本差距:微调模型的运行成本仅为前沿商业模型的近十四分之一。
需要指出的是,这一比较并非完全独立——桥水和Thinking Machines Lab都有推广自身解决方案的商业动机。但报告揭示的核心趋势值得关注:大型AI实验室并未穷尽世界上所有有价值的数据。企业内部沉淀的大量专有数据、以及员工头脑中难以言传的专家判断,构成了巨大的未开发价值池。对于那些将最敏感数据视为核心资产的公司而言,把数据交给外部AI供应商意味着可能在未来与基于这些数据构建的产品竞争。
通过微调开源模型,企业得以保留对模型权重、数据和算力的完全控制。这一路径为金融、法律、医疗等高度依赖专有知识的行业提供了一条兼顾性能、成本与数据主权的AI落地路线图。