是什么

多模态(Multimodal)指模型能够处理不止一种「模态」的数据。文本只是一种模态,图像、音频、视频、文件都是不同模态。多模态模型通过把不同类型的输入编码到同一套表示空间,让模型可以「看图说话」、根据截图回答问题、或为图片生成描述。今天主流的旗舰大模型大多已是文本+图像的多模态模型。

为什么重要

现实世界的信息天然是多模态的——一份合同里有文字也有表格图,一次客服对话可能附带照片。能同时理解图文的模型,把 AI 的可用场景从「纯文字问答」扩展到文档处理、界面理解、视觉检索、辅助创作等大量真实任务,是 AI 从「聊天」走向「干活」的关键能力之一。

在 AI 产业链中的位置

多模态是模型层的能力升级,它对基础设施层提出更高要求——图像、视频比文本占用更多 token 与显存,推理成本更高。向上,它极大拓宽了应用层的边界,让文档解析、视觉问答、设计辅助等图文结合的产品成为可能。

在大模型库查

支持图像等多模态输入的模型见多模态/视觉切片;各模型的输入模态、上下文窗口与价格见大模型库总表。