英国竞争与市场管理局(CMA)近日针对谷歌的AI搜索功能做出了一项具有里程碑意义的裁决,要求这家科技巨头必须为在线出版商提供明确的选择退出机制。根据新规,网站所有者将有权阻止其内容出现在谷歌的AI Overviews等生成式搜索摘要中,同时禁止谷歌在未经许可的情况下,将这些内容用于其AI模型的“微调”训练。
这项裁决的核心在于赋予内容创作者更大的控制权。过去,谷歌通过爬虫抓取全网公开内容来训练其AI模型并生成搜索摘要,出版商往往只能被动接受。CMA的新规打破了这一局面,它强制谷歌在Search Console等工具中提供技术选项,让网站可以系统性地拒绝被纳入AI功能的数据源。这意味着,出版商现在能够决定自己的新闻、评论或专业知识是否成为AI直接回答的一部分,而不仅仅是控制是否被传统搜索索引收录。
CMA此举的背景是全球范围内对AI训练数据版权问题的激烈争议。新闻媒体、图片库和内容平台长期以来指责大型科技公司无偿使用其受版权保护的作品来构建商业AI产品,却未给予公平补偿。英国监管机构此次率先出手,并非孤立事件,而是与欧盟《人工智能法案》中对数据透明度的要求、以及美国多起相关诉讼形成呼应。谷歌此前已在欧盟面临类似压力,但CMA的裁决明确将“AI微调”纳入监管范围,这比单纯要求披露数据来源更进一步,直接触及了AI模型迭代升级的原料供应链。
从AI产业的角度看,这一裁决的影响将沿着“五层蛋糕”模型向上传导。在模型层,数据获取的壁垒正在升高。如果更多司法管辖区效仿英国,要求科技公司为训练数据获取明确授权,那么构建高质量基础模型的成本将显著增加,尤其是对于那些依赖多样化互联网文本进行微调的模型而言。谷歌、OpenAI等公司可能需要投入更多资源建立合规的数据采购或授权体系,而非依赖传统的全网爬取模式。
在应用层,AI搜索产品的信息丰富度可能面临挑战。若大量优质新闻源选择退出,AI Overviews的答案质量或将下降,尤其是在时效性强、需要专业分析的领域。这反过来可能削弱AI搜索相对于传统搜索的用户价值,为那些已与出版商建立付费合作关系的AI产品(如某些与新闻集团达成协议的聊天机器人)创造差异化优势。
对于基础设施与芯片层,短期影响有限,但长期看,数据获取成本的上升可能促使企业更高效地利用已有数据,推动合成数据生成、小样本学习等技术的加速发展,这些技术路径的变化最终会重塑对算力规模和架构的需求。
CMA的裁决还隐含着一个更深层的信号:监管机构正从关注AI输出的安全性,转向干预AI输入的合法性。这为投资者提供了一个观察窗口——未来AI产业的竞争,可能不再仅仅是算力规模和模型参数的比拼,合规获取高质量数据的能力将成为新的护城河。那些能够通过商业协议、而非技术手段锁定独家数据源的公司,或许会在下一阶段的AI应用竞赛中占据更有利的位置。