谷歌在实时翻译领域已深耕多年,将其称为公司“开创性的机器学习实验”之一。过去,用户若想使用谷歌的实时翻译功能,往往需要搭配Pixel手机、Pixel Buds耳机或其他特定设备。去年,谷歌将实时翻译能力引入翻译App,让更多用户得以体验,而现在,这一功能正进一步扩大覆盖面。

此次发布的Gemini 3.5 Live Translate,是谷歌Gemini 3.5模型家族的一部分。该模型家族在谷歌I/O大会上首次亮相,此前仅推出了Flash版本,预计未来几周还将发布Pro版本。Gemini 3.5 Live Translate是一个语音到语音的翻译模型,经过专门调优,能够自动检测并翻译超过70种语言。

谷歌表示,该模型的响应速度足以跟上正常对话的节奏,仅比说话者延迟几秒钟。更重要的是,它在翻译的同时能够匹配说话者的语调、节奏和音高,让输出的声音更贴近原声,而非千篇一律的机械音。从谷歌在受控条件下录制的演示来看,效果确实令人印象深刻。

在安全层面,谷歌为Gemini 3.5 Live Translate加入了SynthID水印技术。SynthID是谷歌DeepMind开发的一套用于识别和标记AI生成内容的工具,此前已应用于图像、文本和音乐等领域。将其引入语音翻译,意在为AI生成的语音内容提供可追溯的标识,以应对深度伪造等潜在风险。

从产业角度看,实时语音翻译的成熟将直接冲击多个领域。在应用层,它可能重塑跨语言社交、国际商务沟通、在线教育和内容本地化的成本结构。对于谷歌自身而言,这一功能若深度集成进安卓系统、搜索、YouTube和云服务,将强化其生态粘性,并可能成为吸引企业客户的新卖点。

与此同时,语音到语音翻译对端侧算力和云端推理延迟提出了更高要求。虽然本次发布未披露具体的硬件部署细节,但可以预见,这类应用的大规模普及将进一步拉动对AI推理芯片和边缘计算的需求。市场上已有不少玩家在布局类似能力,包括Meta的SeamlessM4T和多家语音AI初创公司,谷歌此次更新意在巩固其在翻译和语音AI领域的技术领先地位。

用户无需等待太久即可亲自验证该模型的能力。随着Gemini 3.5 Pro版本的临近,谷歌在AI应用层的布局节奏明显加快,实时语音翻译或将成为其AI助手和云服务差异化竞争的关键一环。