是什麼
多模態(Multimodal)指模型能夠處理不止一種「模態」的數據。文本只是一種模態,圖像、音頻、視頻、文件都是不同模態。多模態模型通過把不同類型的輸入編碼到同一套表示空間,讓模型可以「看圖說話」、根據截圖回答問題、或為圖片生成描述。今天主流的旗艦大模型大多已是文本+圖像的多模態模型。
為什麼重要
現實世界的信息天然是多模態的——一份合同裡有文字也有表格圖,一次客服對話可能附帶照片。能同時理解圖文的模型,把 AI 的可用場景從「純文字問答」擴展到文檔處理、界面理解、視覺檢索、輔助創作等大量真實任務,是 AI 從「聊天」走向「幹活」的關鍵能力之一。
在 AI 產業鏈中的位置
多模態是模型層的能力升級,它對基礎設施層提出更高要求——圖像、視頻比文本佔用更多 token 與顯存,推理成本更高。向上,它極大拓寬了應用層的邊界,讓文檔解析、視覺問答、設計輔助等圖文結合的產品成為可能。