谷歌推出Gemini 3.5实时语音翻译，支持70多种语言

新功能保留说话人语气节奏，并嵌入SynthID水印保障安全。

来源:Ars Technica — AI · 2026-06-09 14:57 ET · #应用

字号

谷歌在实时翻译领域已深耕多年，将其称为公司“开创性的机器学习实验”之一。过去，用户若想使用谷歌的实时翻译功能，往往需要搭配Pixel手机、Pixel Buds耳机或其他特定设备。去年，谷歌将实时翻译能力引入翻译App，让更多用户得以体验，而现在，这一功能正进一步扩大覆盖面。

此次发布的Gemini 3.5 Live Translate，是谷歌Gemini 3.5模型家族的一部分。该模型家族在谷歌I/O大会上首次亮相，此前仅推出了Flash版本，预计未来几周还将发布Pro版本。Gemini 3.5 Live Translate是一个语音到语音的翻译模型，经过专门调优，能够自动检测并翻译超过70种语言。

谷歌表示，该模型的响应速度足以跟上正常对话的节奏，仅比说话者延迟几秒钟。更重要的是，它在翻译的同时能够匹配说话者的语调、节奏和音高，让输出的声音更贴近原声，而非千篇一律的机械音。从谷歌在受控条件下录制的演示来看，效果确实令人印象深刻。

在安全层面，谷歌为Gemini 3.5 Live Translate加入了SynthID水印技术。SynthID是谷歌DeepMind开发的一套用于识别和标记AI生成内容的工具，此前已应用于图像、文本和音乐等领域。将其引入语音翻译，意在为AI生成的语音内容提供可追溯的标识，以应对深度伪造等潜在风险。

从产业角度看，实时语音翻译的成熟将直接冲击多个领域。在应用层，它可能重塑跨语言社交、国际商务沟通、在线教育和内容本地化的成本结构。对于谷歌自身而言，这一功能若深度集成进安卓系统、搜索、YouTube和云服务，将强化其生态粘性，并可能成为吸引企业客户的新卖点。

与此同时，语音到语音翻译对端侧算力和云端推理延迟提出了更高要求。虽然本次发布未披露具体的硬件部署细节，但可以预见，这类应用的大规模普及将进一步拉动对AI推理芯片和边缘计算的需求。市场上已有不少玩家在布局类似能力，包括Meta的SeamlessM4T和多家语音AI初创公司，谷歌此次更新意在巩固其在翻译和语音AI领域的技术领先地位。

用户无需等待太久即可亲自验证该模型的能力。随着Gemini 3.5 Pro版本的临近，谷歌在AI应用层的布局节奏明显加快，实时语音翻译或将成为其AI助手和云服务差异化竞争的关键一环。

谷歌推出Gemini 3.5实时语音翻译，支持70多种语言

延伸阅读

相关深度报道

相关每日新闻