AI初創Subquadratic聲稱突破LLM十年數學瓶頸

Subquadratic稱解決困擾大語言模型近十年的數學瓶頸，細節仍有限。

邁阿密AI初創公司Subquadratic上月高調走出隱身模式，丟擲一項可能撼動大語言模型（LLM）根基的宣告：它已攻克一個困擾行業近十年的數學瓶頸。該公司宣稱，其開發的新模型SubQ在速度、成本和能耗上均遠超市場現有模型，且能一次性處理多達12倍的文本量，勝任分析數百份文件或整個程式碼庫等資料密集型任務。更引人注目的是，Subquadratic表示SubQ在程式設計等關鍵任務上的效能，與Google DeepMind、OpenAI和Anthropic等頂尖機構的最強模型大致持平。

這一訊息最初遭遇了廣泛質疑。Subquadratic起初僅公佈了少量自測分數，且未向公眾開放SubQ的廣泛試用。AI工程師Dan McAteer在社交媒體上的評論頗具代表性：“SubQ要麼是自Transformer以來最大的突破……要麼就是AI界的Theranos。”

為回應質疑，Subquadratic近期公佈了更多資訊，包括由第三方公司Appen執行的獨立測試結果。Appen的生成式AI研究總監Jeanine Sinanan-Singh表示，結果驗證了其架構的有效性，並稱“這可能會改變遊戲規則”，因為模型普遍受困於速度和低效問題。Subquadratic聯合創始人兼CTO Alex Whedon反思稱，若在首次公告時同步釋出第三方基準測試，本可預先化解大部分懷疑。

SubQ的核心創新在於用“稀疏注意力”取代了當前LLM普遍採用的“密集註意力”機制。在傳統Transformer架構中，模型處理文本時需將每個詞（或詞元）的數值表示與文本中所有其他詞元的數值進行兩兩相乘，以捕捉全文語義。這一計算量隨文本長度呈二次方增長，是LLM成為耗能巨獸的主因。Subquadratic聯合創始人兼CEO Justin Dangel解釋，若要總結《了不起的蓋茨比》，模型必須同時考察第一個詞和最後一個詞，以及所有其他詞對組合，計算量驚人。

稀疏注意力則只選擇部分關鍵的詞元對進行相乘，忽略那些不重要的關聯。Whedon比喻道：“讀一本書時，你不會去逐個審視第一個詞和第二個詞、第一個詞和第三個詞的關係——這很荒謬。”儘管稀疏注意力的理念並非Subquadratic首創，但此前各種選取機制的嘗試，均未能像密集註意力那樣有效捕捉文件含義。獨立AI研究員Will Depue形容其難度“堪比跑進四分鐘一英里”。Subquadratic聲稱已找到破解之道，將SubQ定位為首個在效能上可與主流密集註意力模型抗衡的稀疏注意力LLM。

該公司堅稱，這一突破的長期意義在於改變LLM的構建方式。Dangel表示：“我們希望開啟一個效率新時代。我們認為幾年後沒人會再基於Transformer進行構建。”目前來看，SubQ並非要在所有任務上全面取代現有頂尖模型，但在特定任務中，它可能以極低的成本實現巨大的速度提升。

對於AI產業投資者和關注者而言，這一進展的潛在影響不容小覷。如果Subquadratic的技術得到大規模驗證，它可能從底層改寫算力需求的增長曲線，衝擊當前以高效能GPU為核心的硬體敘事，並迫使雲服務商和模型開發商重新評估基礎設施投資方向。然而，在模型被廣泛開放測試、並經更多獨立機構反覆驗證之前，市場的謹慎觀望情緒仍將佔據主導。

AI初創Subquadratic聲稱突破LLM十年數學瓶頸

延伸閱讀

相關深度報道

相關每日新聞