OpenAI的研究團隊近日公佈了一項關於AI安全對齊的新成果,展示了一種通過強化學習培養模型“有益特質”的方法,能讓AI系統在多個領域變得更安全、更誠實,且更難被惡意操控。這項研究試圖回答一個關鍵問題:如果模型在一個領域被訓練出不良行為,這種偏差會擴散到其他領域,那麼反過來,好的行為模式是否也能同樣廣泛地泛化?答案是肯定的。
研究團隊設計了一系列模擬現實場景的對話,專門用於訓練模型在六個核心行為特質上的表現:真實性、認知謙遜、可糾正性、推理透明度、公平性以及對人類福祉的關切。這些場景覆蓋了醫療、教育、科學、法律和工程等多個專業領域。關鍵在於,他們僅將少量此類“有益特質”數據混入了常規的強化學習後訓練流程中。
效果卻相當顯著。根據研究論文,在53項獨立基準測試中,模型在44項上取得了進步,這些測試衡量了欺騙行為、誠實度、諂媚傾向、獎勵破解以及健康與心理健康場景下的表現。更有意思的是,泛化能力呈現出雙向性:僅用健康領域數據進行訓練,模型在非健康領域的評估(如獎勵破解和欺騙檢測)中也表現更好;反過來,完全不使用任何健康或科學數據,模型在健康基準測試上的表現同樣得到了提升。研究人員由此推斷,強化學習訓練強化了一些基礎的、可跨領域遷移的行為模式。
在抗壓性測試中,這種方法的穩健性進一步凸顯。研究團隊用對抗性提示詞攻擊模型,那些能嚴重破壞基準模型穩定性的手段,對經過有益特質訓練的模型影響要小得多。即便進行有害的微調,也難以侵蝕模型已習得的這些特質。同時,模型在遵循正常有益指令方面的靈活性並未喪失。研究人員將這種現象稱為“選擇性持久”——模型能抵抗有害引導,卻不會失去有用的可操控性。
這一路徑與另一家前沿AI公司Anthropic所採用的對齊方法形成了鮮明對比。Anthropic的做法是制定一份成文的“Claude憲法”,作為訓練和行為的頂層指導文件,讓模型理解為何某些行為是符合期望的,其根基在於原則性文本和高質量訓練示例。而OpenAI此次展示的方法,則更倚重通過現實場景中的強化學習,去強化那些可被經驗測量的行為特質,並以大量基準測試的量化結果作為泛化能力的證據。
兩種路線各有側重:Anthropic追求模型對行為背後原則的深層理解,聲稱這能讓模型對攻擊更具抵抗力;OpenAI則提供了一條更依賴可觀測指標、在標準後訓練流程中即可融入的實操路徑。目前,業界尚缺乏對這兩種方法進行直接比較的研究。
對於AI產業而言,這項研究的價值在於它提供了一種可能更經濟、更易部署的安全對齊方案。如果僅需在現有訓練流程中摻入少量精心設計的特質數據,就能顯著提升模型跨領域的安全性和抗操縱能力,將直接降低AI應用落地的合規風險與長期維護成本。它也為模型評估提供了一套更細顆粒度的行為基準,有助於開發者在模型發佈前進行更嚴格的安全審查。在監管機構日益關注前沿模型系統性風險的背景下,這類可測量、可泛化的安全訓練方法,無疑為整個行業提供了重要的技術儲備和敘事支撐。