英偉達 GTC 大會上,黃仁勳身後的 PPT 曾打滿 74 個生態合作伙伴 Logo,這張圖因信息密集、部分 Logo 抽象且排列重疊,常被圈內視為測試多模態模型視覺硬實力的“野生基準”。近日,量子位團隊用剛發佈的 MiniMax M3 模型 進行了一輪壓力實測,結果令人意外:M3 不僅逐個準確叫出了全部 74 個 Logo 對應的公司名,還能結合用戶需求做出進一步推理。

測試中,作者還發起了“老黃同款南鑼路線”挑戰——要求模型識別一張南鑼鼓巷實景照片,並規劃出一條類似老黃此前在公開活動中體驗過的遊覽路線。M3 在準確識別地標的基礎上,結合空間理解給出了分步引導,甚至標註了網紅店鋪與歷史背景。雖然官方並未披露 M3 的具體架構參數,從表現推斷,多模態輸入下的細粒度識別與邏輯鏈推理已較前代顯著增強。

MiniMax 是國內由前商湯核心研發負責人創立的 AI 公司,此前在長文本、語音大模型領域已有積累。M3 的推出,意味著其正式向多模態賽道發起衝擊。值得注意的是,此次測試並未使用專用 OCR 或 Logo 識別模型,而是直接調用通用對話接口,更貼近真實用戶的使用場景。

從產業鏈視角看,這一實測劃入了“五層蛋糕”中的 應用層,但對底層的算力牽引同樣不容忽視。更強的多模態交互需要更多推理算力的支撐,也會加速模型在手機、智能座艙等端側的部署。近期,OpenAI、Google 和國內廠商均在多模態模型上密集迭代,視覺理解與空間思維已成為衡量模型實用性的核心指標。M3 的亮眼表現,或許會讓市場重新審視中國 AI 應用公司的技術儲備與產品化速度。在海外巨頭尚未建立起絕對壁壘的當下,這類原生的中文多模態能力,有望在文旅、消費、教育等垂直場景率先找到變現窗口。