洛斯阿拉摩斯開發PAS工具，即時檢測視覺語言模型幻覺

洛斯阿拉摩斯實驗室提出Prelim Attention Score系統，提升視覺語言模型安全性。

視覺語言模型將影像分析與大語言模型相結合，已在眾多領域得到廣泛應用，但它們始終面臨一個棘手問題：幻覺。這類模型有時會描述出與輸入影像不一致、甚至影像中根本不存在的內容，給依賴視覺判斷的下游任務帶來風險。2026年6月10日，洛斯阿拉摩斯國家實驗室的研究團隊公佈了一項新成果——Prelim Attention Score（PAS），一種能夠即時監測並暴露這類幻覺的工具。

PAS的核心思路直指當前主流視覺語言模型的執行機制。大多數此類模型採用自迴歸方式生成回覆，即每產生一個新詞，都會部分參考此前已經生成的詞彙。這種設計雖然讓文本更連貫，但也埋下了隱患：模型可能越來越“相信”自己前面說過的話，而逐漸偏離對原始影像的忠實。PAS正是通過追蹤模型在預測每個詞時的注意力分佈，來判斷它到底是在依據影像資訊，還是被自己已生成的文本牽著走。

洛斯阿拉摩斯電腦科學家Manish Bhattarai將PAS形容為“AI的內部即時監控器”。該系統以即插即用的方式嵌入現有工作流，無需對模型架構做大改動，額外計算開銷極低。當模型針對影像和文本輸入給出回覆時，PAS會為其中提到的每個物體計算一個注意力分數。分數越接近零，說明模型越依賴影像本身，產生幻覺的可能性越低；反之，若分數顯著偏離零，則意味著模型可能已經開始“自說自話”，輸出的可信度值得警惕。

研究團隊深入考察了基於Transformer架構的視覺語言模型如何處理影像、文本提示以及自身初步生成的詞彙之間的注意力關係。實習生Xuan Nhat Hoang指出，PAS讀取的是模型自身已經產生的訊號，因此能以極低的系統負擔幫助確保資訊的可靠與有用。在測試中，PAS在捕捉幻覺方面達到了當前最優水平，為開發者提供了一條通往更安全、更可信多模態AI系統的務實路徑。

從應用前景看，PAS的潛在價值覆蓋多個高可靠性需求場景。在醫學影像分析中，錯誤的視覺描述可能影響診斷決策；在科學文件或工程圖紙的自動解讀中，憑空出現的細節會誤導後續判斷；在遙感影像判讀等任務中，不實資訊更可能帶來嚴重後果。PAS若能嵌入這些工作流，相當於為視覺語言模型加裝了一道即時校驗層，在輸出抵達使用者之前就發出預警。

該團隊將在本月于丹佛舉行的2026年計算機視覺與模式識別大會（CVPR）上正式介紹PAS。這一會議由IEEE與計算機視覺基金會贊助，是計算機視覺領域最具影響力的學術平台之一。此項研究由洛斯阿拉摩斯實驗室指導研究與開發計劃資助。

從產業視角看，PAS的出現回應了當前AI應用落地過程中的一個核心矛盾：模型能力越強，其不可控的“編造”行為就越令人不安。尤其在視覺語言模型開始進入醫療、法律、工業檢測等嚴肅場景的當下，能否有效檢測並抑制幻覺，直接關係到這些系統能否獲得監管認可與使用者信任。PAS以低侵入性、高準確率的方式切入這一痛點，有望成為多模態AI安全工具鏈中的重要一環。

洛斯阿拉摩斯開發PAS工具，即時檢測視覺語言模型幻覺

延伸閱讀

相關深度報道

相關每日新聞