AI初创Subquadratic声称突破LLM十年数学瓶颈

Subquadratic称解决困扰大语言模型近十年的数学瓶颈，细节仍有限。

迈阿密AI初创公司Subquadratic上月高调走出隐身模式，抛出一项可能撼动大语言模型（LLM）根基的声明：它已攻克一个困扰行业近十年的数学瓶颈。该公司宣称，其开发的新模型SubQ在速度、成本和能耗上均远超市场现有模型，且能一次性处理多达12倍的文本量，胜任分析数百份文档或整个代码库等数据密集型任务。更引人注目的是，Subquadratic表示SubQ在编程等关键任务上的性能，与Google DeepMind、OpenAI和Anthropic等顶尖机构的最强模型大致持平。

这一消息最初遭遇了广泛质疑。Subquadratic起初仅公布了少量自测分数，且未向公众开放SubQ的广泛试用。AI工程师Dan McAteer在社交媒体上的评论颇具代表性：“SubQ要么是自Transformer以来最大的突破……要么就是AI界的Theranos。”

为回应质疑，Subquadratic近期公布了更多信息，包括由第三方公司Appen执行的独立测试结果。Appen的生成式AI研究总监Jeanine Sinanan-Singh表示，结果验证了其架构的有效性，并称“这可能会改变游戏规则”，因为模型普遍受困于速度和低效问题。Subquadratic联合创始人兼CTO Alex Whedon反思称，若在首次公告时同步发布第三方基准测试，本可预先化解大部分怀疑。

SubQ的核心创新在于用“稀疏注意力”取代了当前LLM普遍采用的“密集注意力”机制。在传统Transformer架构中，模型处理文本时需将每个词（或词元）的数值表示与文本中所有其他词元的数值进行两两相乘，以捕捉全文语义。这一计算量随文本长度呈二次方增长，是LLM成为耗能巨兽的主因。Subquadratic联合创始人兼CEO Justin Dangel解释，若要总结《了不起的盖茨比》，模型必须同时考察第一个词和最后一个词，以及所有其他词对组合，计算量惊人。

稀疏注意力则只选择部分关键的词元对进行相乘，忽略那些不重要的关联。Whedon比喻道：“读一本书时，你不会去逐个审视第一个词和第二个词、第一个词和第三个词的关系——这很荒谬。”尽管稀疏注意力的理念并非Subquadratic首创，但此前各种选取机制的尝试，均未能像密集注意力那样有效捕捉文档含义。独立AI研究员Will Depue形容其难度“堪比跑进四分钟一英里”。Subquadratic声称已找到破解之道，将SubQ定位为首个在性能上可与主流密集注意力模型抗衡的稀疏注意力LLM。

该公司坚称，这一突破的长期意义在于改变LLM的构建方式。Dangel表示：“我们希望开启一个效率新时代。我们认为几年后没人会再基于Transformer进行构建。”目前来看，SubQ并非要在所有任务上全面取代现有顶尖模型，但在特定任务中，它可能以极低的成本实现巨大的速度提升。

对于AI产业投资者和关注者而言，这一进展的潜在影响不容小觑。如果Subquadratic的技术得到大规模验证，它可能从底层改写算力需求的增长曲线，冲击当前以高性能GPU为核心的硬件叙事，并迫使云服务商和模型开发商重新评估基础设施投资方向。然而，在模型被广泛开放测试、并经更多独立机构反复验证之前，市场的谨慎观望情绪仍将占据主导。

AI初创Subquadratic声称突破LLM十年数学瓶颈

延伸阅读

相关深度报道

相关每日新闻