多模态 Multimodal · 百科

是什么

多模态（Multimodal）指模型能够处理不止一种「模态」的数据。文本只是一种模态，图像、音频、视频、文件都是不同模态。多模态模型通过把不同类型的输入编码到同一套表示空间，让模型可以「看图说话」、根据截图回答问题、或为图片生成描述。今天主流的旗舰大模型大多已是文本＋图像的多模态模型。

现实世界的信息天然是多模态的——一份合同里有文字也有表格图，一次客服对话可能附带照片。能同时理解图文的模型，把 AI 的可用场景从「纯文字问答」扩展到文档处理、界面理解、视觉检索、辅助创作等大量真实任务，是 AI 从「聊天」走向「干活」的关键能力之一。

多模态是模型层的能力升级，它对基础设施层提出更高要求——图像、视频比文本占用更多 token 与显存，推理成本更高。向上，它极大拓宽了应用层的边界，让文档解析、视觉问答、设计辅助等图文结合的产品成为可能。

支持图像等多模态输入的模型见多模态/视觉切片；各模型的输入模态、上下文窗口与价格见大模型库总表。

常见问题

多模态模型和普通大模型有什么区别？

普通大模型只处理文本，多模态模型还能「看懂」图像、读取文件，部分可处理音频或视频。具体支持哪些模态，以各模型详情与官方说明为准。

图片输入怎么计费？

多数厂商把图像换算成一定数量的 token 计入输入价，换算方式因厂商而异，高分辨率图片消耗更多。具体以官方计费说明为准。

多模态模型的文本能力一定更强吗？

不一定。多模态模型在视觉理解上有优势，但纯文本任务未必优于同级别的文本模型，应按任务类型选择。