洛斯阿拉莫斯开发PAS工具，实时检测视觉语言模型幻觉

洛斯阿拉莫斯实验室提出Prelim Attention Score系统，提升视觉语言模型安全性。

视觉语言模型将图像分析与大语言模型相结合，已在众多领域得到广泛应用，但它们始终面临一个棘手问题：幻觉。这类模型有时会描述出与输入图像不一致、甚至图像中根本不存在的内容，给依赖视觉判断的下游任务带来风险。2026年6月10日，洛斯阿拉莫斯国家实验室的研究团队公布了一项新成果——Prelim Attention Score（PAS），一种能够实时监测并暴露这类幻觉的工具。

PAS的核心思路直指当前主流视觉语言模型的运行机制。大多数此类模型采用自回归方式生成回复，即每产生一个新词，都会部分参考此前已经生成的词汇。这种设计虽然让文本更连贯，但也埋下了隐患：模型可能越来越“相信”自己前面说过的话，而逐渐偏离对原始图像的忠实。PAS正是通过追踪模型在预测每个词时的注意力分布，来判断它到底是在依据图像信息，还是被自己已生成的文本牵着走。

洛斯阿拉莫斯计算机科学家Manish Bhattarai将PAS形容为“AI的内部实时监控器”。该系统以即插即用的方式嵌入现有工作流，无需对模型架构做大改动，额外计算开销极低。当模型针对图像和文本输入给出回复时，PAS会为其中提到的每个物体计算一个注意力分数。分数越接近零，说明模型越依赖图像本身，产生幻觉的可能性越低；反之，若分数显著偏离零，则意味着模型可能已经开始“自说自话”，输出的可信度值得警惕。

研究团队深入考察了基于Transformer架构的视觉语言模型如何处理图像、文本提示以及自身初步生成的词汇之间的注意力关系。实习生Xuan Nhat Hoang指出，PAS读取的是模型自身已经产生的信号，因此能以极低的系统负担帮助确保信息的可靠与有用。在测试中，PAS在捕捉幻觉方面达到了当前最优水平，为开发者提供了一条通往更安全、更可信多模态AI系统的务实路径。

从应用前景看，PAS的潜在价值覆盖多个高可靠性需求场景。在医学影像分析中，错误的视觉描述可能影响诊断决策；在科学文档或工程图纸的自动解读中，凭空出现的细节会误导后续判断；在遥感图像判读等任务中，不实信息更可能带来严重后果。PAS若能嵌入这些工作流，相当于为视觉语言模型加装了一道实时校验层，在输出抵达用户之前就发出预警。

该团队将在本月于丹佛举行的2026年计算机视觉与模式识别大会（CVPR）上正式介绍PAS。这一会议由IEEE与计算机视觉基金会赞助，是计算机视觉领域最具影响力的学术平台之一。此项研究由洛斯阿拉莫斯实验室指导研究与开发计划资助。

从产业视角看，PAS的出现回应了当前AI应用落地过程中的一个核心矛盾：模型能力越强，其不可控的“编造”行为就越令人不安。尤其在视觉语言模型开始进入医疗、法律、工业检测等严肃场景的当下，能否有效检测并抑制幻觉，直接关系到这些系统能否获得监管认可与用户信任。PAS以低侵入性、高准确率的方式切入这一痛点，有望成为多模态AI安全工具链中的重要一环。

洛斯阿拉莫斯开发PAS工具，实时检测视觉语言模型幻觉

延伸阅读

相关深度报道

相关每日新闻