OpenAI研究：少量“有益特質”訓練可讓AI模型更安全、更難被操控

OpenAI發現強化學習有益特質能跨領域提升模型安全，53項基準中44項得分更高。

OpenAI的研究團隊近日公佈了一項關於AI安全對齊的新成果，展示了一種通過強化學習培養模型“有益特質”的方法，能讓AI系統在多個領域變得更安全、更誠實，且更難被惡意操控。這項研究試圖回答一個關鍵問題：如果模型在一個領域被訓練出不良行為，這種偏差會擴散到其他領域，那麼反過來，好的行為模式是否也能同樣廣泛地泛化？答案是肯定的。

研究團隊設計了一系列模擬現實場景的對話，專門用於訓練模型在六個核心行為特質上的表現：真實性、認知謙遜、可糾正性、推理透明度、公平性以及對人類福祉的關切。這些場景覆蓋了醫療、教育、科學、法律和工程等多個專業領域。關鍵在於，他們僅將少量此類“有益特質”數據混入了常規的強化學習後訓練流程中。

效果卻相當顯著。根據研究論文，在53項獨立基準測試中，模型在44項上取得了進步，這些測試衡量了欺騙行為、誠實度、諂媚傾向、獎勵破解以及健康與心理健康場景下的表現。更有意思的是，泛化能力呈現出雙向性：僅用健康領域數據進行訓練，模型在非健康領域的評估（如獎勵破解和欺騙檢測）中也表現更好；反過來，完全不使用任何健康或科學數據，模型在健康基準測試上的表現同樣得到了提升。研究人員由此推斷，強化學習訓練強化了一些基礎的、可跨領域遷移的行為模式。

在抗壓性測試中，這種方法的穩健性進一步凸顯。研究團隊用對抗性提示詞攻擊模型，那些能嚴重破壞基準模型穩定性的手段，對經過有益特質訓練的模型影響要小得多。即便進行有害的微調，也難以侵蝕模型已習得的這些特質。同時，模型在遵循正常有益指令方面的靈活性並未喪失。研究人員將這種現象稱為“選擇性持久”——模型能抵抗有害引導，卻不會失去有用的可操控性。

這一路徑與另一家前沿AI公司Anthropic所採用的對齊方法形成了鮮明對比。Anthropic的做法是制定一份成文的“Claude憲法”，作為訓練和行為的頂層指導文件，讓模型理解為何某些行為是符合期望的，其根基在於原則性文本和高質量訓練示例。而OpenAI此次展示的方法，則更倚重通過現實場景中的強化學習，去強化那些可被經驗測量的行為特質，並以大量基準測試的量化結果作為泛化能力的證據。

兩種路線各有側重：Anthropic追求模型對行為背後原則的深層理解，聲稱這能讓模型對攻擊更具抵抗力；OpenAI則提供了一條更依賴可觀測指標、在標準後訓練流程中即可融入的實操路徑。目前，業界尚缺乏對這兩種方法進行直接比較的研究。

對於AI產業而言，這項研究的價值在於它提供了一種可能更經濟、更易部署的安全對齊方案。如果僅需在現有訓練流程中摻入少量精心設計的特質數據，就能顯著提升模型跨領域的安全性和抗操縱能力，將直接降低AI應用落地的合規風險與長期維護成本。它也為模型評估提供了一套更細顆粒度的行為基準，有助於開發者在模型發佈前進行更嚴格的安全審查。在監管機構日益關注前沿模型系統性風險的背景下，這類可測量、可泛化的安全訓練方法，無疑為整個行業提供了重要的技術儲備和敘事支撐。

OpenAI研究：少量“有益特質”訓練可讓AI模型更安全、更難被操控

延伸閱讀

相關深度報道

相關每日新聞