在 2026 年火山引擎 FORCE 原動力大會上,字節跳動旗下火山引擎總裁譚待公佈了一組關鍵數據:截至今年 6 月,豆包大模型的日均 token 調用量已達到 180 萬億,相比最初發布時增長了數個數量級。更值得關注的是市場格局的變化——在公有云大模型市場,火山引擎的份額已攀升至 49.5%,意味著市場上每消耗兩個 token,就有一個由其提供。去年 12 月時,日均 token 消耗進入“萬億俱樂部”的企業還只有 100 家,如今這一數字已激增至 200 多家

這些數字背後,是 token 正在成為像水電一樣的基礎消耗。企業不再將大模型視為試驗性工具,而是將其接入代碼編寫、視頻製作、數據分析、客服與決策等核心流程。譚待將此稱為模型跨過了“生產質變點”。

大會的主角之一,是新發布的旗艦模型 豆包 2.1 Pro。在編程能力上,該模型在貼近真實研發環境的 Terminal Bench 評測中與 Claude Opus 4.7 基本持平,進入全球第一梯隊;在覆蓋五大學科的科研編程評測 SciCode 上以 59.8 分 超越 Opus 4.7;在從需求文檔生成完整可運行倉庫的評測中拿到 47 分。現場演示了一個硬核案例:讓模型圍繞一個微型芯片設計任務連續運行 18 個小時、迭代九輪,最終生成了六個核心模塊、1300 多行 RTL 代碼,併成功通過仿真測試與手寫數字識別驗證——這類工作通常需要數名資深工程師耗費數週。在衡量 AI 經濟價值的 Agent 評測中,2.1 Pro 在覆蓋九大行業 44 種職業的 GDPval 評測裡取得國內第一,在測試工具使用能力的 MCP Atlas 上全面超過 Opus 4.7。

價格是另一記重拳。豆包 2.1 Pro 的百萬 token 輸入價格僅為 6 元,輸出 30 元,緩存命中更是低至 1.2 元,對比 Claude 同系列成本降幅接近 80%,同時還提供了一個價格減半的 turbo 版本。

視頻生成領域的重磅發佈是 Seedance 2.5。今年 2 月推出的 Seedance 2.0 已被視為中國首個全球 SOTA 視頻生成模型,解鎖了 15 到 30 秒的廣告與影視短片創作。此次 2.5 版本帶來三項“全球第一”的升級:單條視頻生成長度最高可達 30 秒,突破了同類模型 15 至 20 秒的限制;支持 50 個全模態素材聯合輸入,可一次性編排十多位演員的圖像資產;支持在不改變整體畫面的前提下進行局部編輯,如微調背景、更換商品或模特。現場演示了用近 10 萬面的宇宙飛船白膜生成渲染視頻,模型在鏡頭推進中穩定保持了主體結構與比例。在產業側,該模型還能自動生成多語言產品視頻說明書,為具身智能合成多場景訓練數據,併為自動駕駛生成極端天氣與罕見路況案例以補足訓練盲區。

與此同時,Seedance 2.0 也獲得了原生 4K 能力的重大升級,並率先支持 4K 10bit 高位深,從生成階段就保留更高密度的有效信息,使髮絲、刺繡線跡等細節清晰完整,色彩層次更豐富。

圖像模型方面,Seedream 5.0 Pro 帶來了交互式精準編輯能力,用戶可通過語言描述或直接在畫面上標記圈選來移動元素、添加對象,模型能識別箭頭與高亮塊並理解意圖。它還支持多圖層分離,可對畫面任意區域進行拆分輸出,並自動填充背景。此外,該模型能處理高密度信息呈現,將複雜圖表甚至整頁 PPT 的內容完整塞進一張圖,並自動優化版面。它支持 10 餘種主要語言的排版。將 Seedream 與 Seedance 結合,可先用前者生成關鍵幀,再交由後者生成高品質視頻。

音頻模型 Seed-Audio 1.0 則支持情緒、口音、背景音與擬音特效的一次性直出,達到影視級成品音效。產業應用上,奔馳與東風等車企正基於豆包大模型探索智能座艙語音交互,奔馳中國研發負責人透露,已將豆包大模型集成進新款純電車型,以提升車內對話的自然度與意圖理解能力。

字節跳動 CEO 梁汝波在大會上表示,攀登 AI 高峰是字節當下最重要的事情,公司將收縮業務寬度,將精力重點聚焦於 AI,並在 AI 內部進一步聚焦於提升模型能力。火山引擎正是這一戰略的對外出口,將內部沉澱的模型能力、工程體系與應用經驗轉化為雲服務、API 與行業解決方案。當視頻模型跨過生產質變點,其對物理世界的理解積累,也正在成為世界模型的重要基礎。