在 2026 年火山引擎 FORCE 原动力大会上,字节跳动旗下火山引擎总裁谭待公布了一组关键数据:截至今年 6 月,豆包大模型的日均 token 调用量已达到 180 万亿,相比最初发布时增长了数个数量级。更值得关注的是市场格局的变化——在公有云大模型市场,火山引擎的份额已攀升至 49.5%,意味着市场上每消耗两个 token,就有一个由其提供。去年 12 月时,日均 token 消耗进入“万亿俱乐部”的企业还只有 100 家,如今这一数字已激增至 200 多家

这些数字背后,是 token 正在成为像水电一样的基础消耗。企业不再将大模型视为试验性工具,而是将其接入代码编写、视频制作、数据分析、客服与决策等核心流程。谭待将此称为模型跨过了“生产质变点”。

大会的主角之一,是新发布的旗舰模型 豆包 2.1 Pro。在编程能力上,该模型在贴近真实研发环境的 Terminal Bench 评测中与 Claude Opus 4.7 基本持平,进入全球第一梯队;在覆盖五大学科的科研编程评测 SciCode 上以 59.8 分 超越 Opus 4.7;在从需求文档生成完整可运行仓库的评测中拿到 47 分。现场演示了一个硬核案例:让模型围绕一个微型芯片设计任务连续运行 18 个小时、迭代九轮,最终生成了六个核心模块、1300 多行 RTL 代码,并成功通过仿真测试与手写数字识别验证——这类工作通常需要数名资深工程师耗费数周。在衡量 AI 经济价值的 Agent 评测中,2.1 Pro 在覆盖九大行业 44 种职业的 GDPval 评测里取得国内第一,在测试工具使用能力的 MCP Atlas 上全面超过 Opus 4.7。

价格是另一记重拳。豆包 2.1 Pro 的百万 token 输入价格仅为 6 元,输出 30 元,缓存命中更是低至 1.2 元,对比 Claude 同系列成本降幅接近 80%,同时还提供了一个价格减半的 turbo 版本。

视频生成领域的重磅发布是 Seedance 2.5。今年 2 月推出的 Seedance 2.0 已被视为中国首个全球 SOTA 视频生成模型,解锁了 15 到 30 秒的广告与影视短片创作。此次 2.5 版本带来三项“全球第一”的升级:单条视频生成长度最高可达 30 秒,突破了同类模型 15 至 20 秒的限制;支持 50 个全模态素材联合输入,可一次性编排十多位演员的图像资产;支持在不改变整体画面的前提下进行局部编辑,如微调背景、更换商品或模特。现场演示了用近 10 万面的宇宙飞船白膜生成渲染视频,模型在镜头推进中稳定保持了主体结构与比例。在产业侧,该模型还能自动生成多语言产品视频说明书,为具身智能合成多场景训练数据,并为自动驾驶生成极端天气与罕见路况案例以补足训练盲区。

与此同时,Seedance 2.0 也获得了原生 4K 能力的重大升级,并率先支持 4K 10bit 高位深,从生成阶段就保留更高密度的有效信息,使发丝、刺绣线迹等细节清晰完整,色彩层次更丰富。

图像模型方面,Seedream 5.0 Pro 带来了交互式精准编辑能力,用户可通过语言描述或直接在画面上标记圈选来移动元素、添加对象,模型能识别箭头与高亮块并理解意图。它还支持多图层分离,可对画面任意区域进行拆分输出,并自动填充背景。此外,该模型能处理高密度信息呈现,将复杂图表甚至整页 PPT 的内容完整塞进一张图,并自动优化版面。它支持 10 余种主要语言的排版。将 Seedream 与 Seedance 结合,可先用前者生成关键帧,再交由后者生成高品质视频。

音频模型 Seed-Audio 1.0 则支持情绪、口音、背景音与拟音特效的一次性直出,达到影视级成品音效。产业应用上,奔驰与东风等车企正基于豆包大模型探索智能座舱语音交互,奔驰中国研发负责人透露,已将豆包大模型集成进新款纯电车型,以提升车内对话的自然度与意图理解能力。

字节跳动 CEO 梁汝波在大会上表示,攀登 AI 高峰是字节当下最重要的事情,公司将收缩业务宽度,将精力重点聚焦于 AI,并在 AI 内部进一步聚焦于提升模型能力。火山引擎正是这一战略的对外出口,将内部沉淀的模型能力、工程体系与应用经验转化为云服务、API 与行业解决方案。当视频模型跨过生产质变点,其对物理世界的理解积累,也正在成为世界模型的重要基础。