多模態 Multimodal · 百科

是什麼

多模態（Multimodal）指模型能夠處理不止一種「模態」的數據。文本只是一種模態，圖像、音頻、視頻、文件都是不同模態。多模態模型通過把不同類型的輸入編碼到同一套表示空間，讓模型可以「看圖說話」、根據截圖回答問題、或為圖片生成描述。今天主流的旗艦大模型大多已是文本＋圖像的多模態模型。

現實世界的信息天然是多模態的——一份合同裡有文字也有表格圖，一次客服對話可能附帶照片。能同時理解圖文的模型，把 AI 的可用場景從「純文字問答」擴展到文檔處理、界面理解、視覺檢索、輔助創作等大量真實任務，是 AI 從「聊天」走向「幹活」的關鍵能力之一。

多模態是模型層的能力升級，它對基礎設施層提出更高要求——圖像、視頻比文本佔用更多 token 與顯存，推理成本更高。向上，它極大拓寬了應用層的邊界，讓文檔解析、視覺問答、設計輔助等圖文結合的產品成為可能。

支持圖像等多模態輸入的模型見多模態/視覺切片；各模型的輸入模態、上下文窗口與價格見大模型庫總表。

常見問題

多模態模型和普通大模型有什麼區別？

普通大模型只處理文本，多模態模型還能「看懂」圖像、讀取文件，部分可處理音頻或視頻。具體支持哪些模態，以各模型詳情與官方說明為準。

圖片輸入怎麼計費？

多數廠商把圖像換算成一定數量的 token 計入輸入價，換算方式因廠商而異，高分辨率圖片消耗更多。具體以官方計費說明為準。

多模態模型的文本能力一定更強嗎？

不一定。多模態模型在視覺理解上有優勢，但純文本任務未必優於同級別的文本模型，應按任務類型選擇。