微軟發佈HARC安全對齊模型，基於通義千問Qwen2.5-7B

微軟將HARC安全對齊LoRA合併至Qwen2.5-7B-Instruct，發佈完整獨立模型。

微軟在Hugging Face平臺上正式發佈了HARC-Qwen2.5-7B-Instruct模型，一個專注於安全對齊的文本生成模型。該模型並非從零訓練，而是將微軟研發的HARC（Harmfulness and Refusal Directions Coupling）安全對齊方法的LoRA權重，合併到阿里雲旗下的通義千問Qwen2.5-7B-Instruct基座模型之中，形成一個可直接使用的完整獨立版本。

從技術構成來看，這個模型本質上是一個模型合併體（merge），其基礎架構完全繼承自Qwen/Qwen2.5-7B-Instruct，參數規模維持在約76億。微軟的貢獻在於通過HARC方法對模型進行了精細化的安全調優，使其在拒絕有害指令與保持有用性之間取得更好的平衡。模型採用Apache-2.0許可證，支持Transformers庫直接加載，併兼容文本生成推理（TGI）與推理端點部署，方便開發者快速集成。

HARC方法的核心思路是“耦合有害性與拒絕方向”，通過同時調整模型對有害請求的識別能力和拒絕生成的傾向，來實現更穩健的安全對齊。相關研究細節已在論文arXiv:2607.00572中公開。這一發布表明，前沿安全研究正從單一模型的內部優化，走向跨模型、跨組織的技術複用與驗證。微軟選擇通義千問作為基座，也反映出中國開源大模型在全球AI生態中的影響力持續上升，其架構與性能已獲得國際頂尖研究機構的認可。

對於AI產業而言，此舉具有多重含義。首先，它展示了安全對齊技術正在成為模型發佈的標準配置，尤其是在開源社區中，開發者對“開箱即用”的安全模型需求日益增長。其次，微軟作為OpenAI的主要投資方與合作伙伴，卻在安全研究上選擇基於競爭對手阿里雲的通義千問發佈成果，這打破了巨頭間技術棧涇渭分明的刻板印象，凸顯了開源協作在AI安全這一共性難題上的獨特價值。最後，該模型直接面向文本生成應用場景，任何需要部署對話助手、內容審核或指令執行系統的團隊，都可以基於此模型進行二次開發，降低了從研究到產品的轉化門檻。

目前，該模型在Hugging Face上的下載量與社區討論尚處於起步階段，但其背後的技術路徑——將安全對齊模塊化、可插拔化——可能成為未來模型發佈的一種常見範式。對於關注AI基礎設施與模型層的投資者和從業者來說，HARC-Qwen2.5-7B-Instruct的發佈不僅是一個單一模型事件，更是安全對齊技術從實驗室走向工程化、從封閉走向開放的一個信號。

微軟發佈HARC安全對齊模型，基於通義千問Qwen2.5-7B

延伸閱讀

相關深度報道

相關每日新聞