谷歌推出Gemini 3.5即時語音翻譯，支援70多種語言

新功能保留說話人語氣節奏，並嵌入SynthID水印保障安全。

來源:Ars Technica — AI · 2026-06-09 14:57 ET · #應用

字號

谷歌在即時翻譯領域已深耕多年，將其稱為公司“開創性的機器學習實驗”之一。過去，使用者若想使用谷歌的即時翻譯功能，往往需要搭配Pixel手機、Pixel Buds耳機或其他特定裝置。去年，谷歌將即時翻譯能力引入翻譯App，讓更多使用者得以體驗，而現在，這一功能正進一步擴大覆蓋面。

此次釋出的Gemini 3.5 Live Translate，是谷歌Gemini 3.5模型家族的一部分。該模型家族在谷歌I/O大會上首次亮相，此前僅推出了Flash版本，預計未來幾周還將釋出Pro版本。Gemini 3.5 Live Translate是一個語音到語音的翻譯模型，經過專門調優，能夠自動檢測並翻譯超過70種語言。

谷歌表示，該模型的響應速度足以跟上正常對話的節奏，僅比說話者延遲幾秒鐘。更重要的是，它在翻譯的同時能夠匹配說話者的語調、節奏和音高，讓輸出的聲音更貼近原聲，而非千篇一律的機械音。從谷歌在受控條件下錄製的演示來看，效果確實令人印象深刻。

在安全層面，谷歌為Gemini 3.5 Live Translate加入了SynthID水印技術。SynthID是谷歌DeepMind開發的一套用於識別和標記AI生成內容的工具，此前已應用於影像、文本和音樂等領域。將其引入語音翻譯，意在為AI生成的語音內容提供可追溯的標識，以應對深度偽造等潛在風險。

從產業角度看，即時語音翻譯的成熟將直接衝擊多個領域。在應用層，它可能重塑跨語言社交、國際商務溝通、線上教育和內容本地化的成本結構。對於谷歌自身而言，這一功能若深度整合進安卓系統、搜尋、YouTube和雲服務，將強化其生態粘性，並可能成為吸引企業客戶的新賣點。

與此同時，語音到語音翻譯對端側算力和雲端推理延遲提出了更高要求。雖然本次釋出未披露具體的硬體部署細節，但可以預見，這類應用的大規模普及將進一步拉動對AI推理晶片和邊緣計算的需求。市場上已有不少玩家在佈局類似能力，包括Meta的SeamlessM4T和多家語音AI初創公司，谷歌此次更新意在鞏固其在翻譯和語音AI領域的技術領先地位。

使用者無需等待太久即可親自驗證該模型的能力。隨著Gemini 3.5 Pro版本的臨近，谷歌在AI應用層的佈局節奏明顯加快，即時語音翻譯或將成為其AI助手和雲服務差異化競爭的關鍵一環。

谷歌推出Gemini 3.5即時語音翻譯，支援70多種語言

延伸閱讀

相關深度報道

相關每日新聞