OpenAI研究：少量“有益特质”训练可让AI模型更安全、更难被操控

OpenAI发现强化学习有益特质能跨领域提升模型安全，53项基准中44项得分更高。

OpenAI的研究团队近日公布了一项关于AI安全对齐的新成果，展示了一种通过强化学习培养模型“有益特质”的方法，能让AI系统在多个领域变得更安全、更诚实，且更难被恶意操控。这项研究试图回答一个关键问题：如果模型在一个领域被训练出不良行为，这种偏差会扩散到其他领域，那么反过来，好的行为模式是否也能同样广泛地泛化？答案是肯定的。

研究团队设计了一系列模拟现实场景的对话，专门用于训练模型在六个核心行为特质上的表现：真实性、认知谦逊、可纠正性、推理透明度、公平性以及对人类福祉的关切。这些场景覆盖了医疗、教育、科学、法律和工程等多个专业领域。关键在于，他们仅将少量此类“有益特质”数据混入了常规的强化学习后训练流程中。

效果却相当显著。根据研究论文，在53项独立基准测试中，模型在44项上取得了进步，这些测试衡量了欺骗行为、诚实度、谄媚倾向、奖励破解以及健康与心理健康场景下的表现。更有意思的是，泛化能力呈现出双向性：仅用健康领域数据进行训练，模型在非健康领域的评估（如奖励破解和欺骗检测）中也表现更好；反过来，完全不使用任何健康或科学数据，模型在健康基准测试上的表现同样得到了提升。研究人员由此推断，强化学习训练强化了一些基础的、可跨领域迁移的行为模式。

在抗压性测试中，这种方法的稳健性进一步凸显。研究团队用对抗性提示词攻击模型，那些能严重破坏基准模型稳定性的手段，对经过有益特质训练的模型影响要小得多。即便进行有害的微调，也难以侵蚀模型已习得的这些特质。同时，模型在遵循正常有益指令方面的灵活性并未丧失。研究人员将这种现象称为“选择性持久”——模型能抵抗有害引导，却不会失去有用的可操控性。

这一路径与另一家前沿AI公司Anthropic所采用的对齐方法形成了鲜明对比。Anthropic的做法是制定一份成文的“Claude宪法”，作为训练和行为的顶层指导文件，让模型理解为何某些行为是符合期望的，其根基在于原则性文本和高质量训练示例。而OpenAI此次展示的方法，则更倚重通过现实场景中的强化学习，去强化那些可被经验测量的行为特质，并以大量基准测试的量化结果作为泛化能力的证据。

两种路线各有侧重：Anthropic追求模型对行为背后原则的深层理解，声称这能让模型对攻击更具抵抗力；OpenAI则提供了一条更依赖可观测指标、在标准后训练流程中即可融入的实操路径。目前，业界尚缺乏对这两种方法进行直接比较的研究。

对于AI产业而言，这项研究的价值在于它提供了一种可能更经济、更易部署的安全对齐方案。如果仅需在现有训练流程中掺入少量精心设计的特质数据，就能显著提升模型跨领域的安全性和抗操纵能力，将直接降低AI应用落地的合规风险与长期维护成本。它也为模型评估提供了一套更细颗粒度的行为基准，有助于开发者在模型发布前进行更严格的安全审查。在监管机构日益关注前沿模型系统性风险的背景下，这类可测量、可泛化的安全训练方法，无疑为整个行业提供了重要的技术储备和叙事支撑。

OpenAI研究：少量“有益特质”训练可让AI模型更安全、更难被操控

延伸阅读

相关深度报道

相关每日新闻