MiniMax M3實測輕鬆識別老黃74個Logo

實測顯示MiniMax M3模型能準確識別黃仁勳PPT中的74個公司Logo

來源:量子位 QbitAI · 2026-06-02 11:50 ET · #模型

字號

在輝達 GTC 大會上，黃仁勳身後的 PPT 曾打滿 74 個生態合作伙伴 Logo，這張圖因資訊密集、部分 Logo 抽象且排列重疊，常被圈內視為測試多模態模型視覺硬實力的“野生基準”。近日，量子位團隊用剛釋出的 MiniMax M3 模型 進行了一輪壓力實測，結果令人意外：M3 不僅逐個準確叫出了全部 74 個 Logo 對應的公司名，還能結合使用者需求做出進一步推理。

測試中，作者還發起了“老黃同款南鑼路線”挑戰——要求模型識別一張南鑼鼓巷實景照片，並規劃出一條類似老黃此前在公開活動中體驗過的遊覽路線。M3 在準確識別地標的基礎上，結合空間理解給出了分步引導，甚至標註了網紅店鋪與歷史背景。雖然官方並未披露 M3 的具體架構引數，從表現推斷，多模態輸入下的細粒度識別與邏輯鏈推理已較前代顯著增強。

MiniMax 是國內由前商湯核心研發負責人創立的 AI 公司，此前在長文本、語音大模型領域已有積累。M3 的推出，意味著其正式向多模態賽道發起衝擊。值得注意的是，此次測試並未使用專用 OCR 或 Logo 識別模型，而是直接呼叫通用對話介面，更貼近真實使用者的使用場景。

從產業鏈視角看，這一實測劃入了“五層蛋糕”中的 應用層，但對底層的算力牽引同樣不容忽視。更強的多模態互動需要更多推理算力的支撐，也會加速模型在手機、智慧座艙等端側的部署。近期，OpenAI、Google 和國內廠商均在多模態模型上密集迭代，視覺理解與空間思維已成為衡量模型實用性的核心指標。M3 的亮眼表現，或許會讓市場重新審視中國 AI 應用公司的技術儲備與產品化速度。在海外巨頭尚未建立起絕對壁壘的當下，這類原生的中文多模態能力，有望在文旅、消費、教育等垂直場景率先找到變現視窗。

MiniMax M3實測輕鬆識別老黃74個Logo

延伸閱讀

相關深度報道

相關每日新聞