谷歌在實時翻譯領域已深耕多年,將其稱為公司“開創性的機器學習實驗”之一。過去,用戶若想使用谷歌的實時翻譯功能,往往需要搭配Pixel手機、Pixel Buds耳機或其他特定設備。去年,谷歌將實時翻譯能力引入翻譯App,讓更多用戶得以體驗,而現在,這一功能正進一步擴大覆蓋面。

此次發佈的Gemini 3.5 Live Translate,是谷歌Gemini 3.5模型家族的一部分。該模型家族在谷歌I/O大會上首次亮相,此前僅推出了Flash版本,預計未來幾周還將發佈Pro版本。Gemini 3.5 Live Translate是一個語音到語音的翻譯模型,經過專門調優,能夠自動檢測並翻譯超過70種語言。

谷歌表示,該模型的響應速度足以跟上正常對話的節奏,僅比說話者延遲幾秒鐘。更重要的是,它在翻譯的同時能夠匹配說話者的語調、節奏和音高,讓輸出的聲音更貼近原聲,而非千篇一律的機械音。從谷歌在受控條件下錄製的演示來看,效果確實令人印象深刻。

在安全層面,谷歌為Gemini 3.5 Live Translate加入了SynthID水印技術。SynthID是谷歌DeepMind開發的一套用於識別和標記AI生成內容的工具,此前已應用於圖像、文本和音樂等領域。將其引入語音翻譯,意在為AI生成的語音內容提供可追溯的標識,以應對深度偽造等潛在風險。

從產業角度看,實時語音翻譯的成熟將直接衝擊多個領域。在應用層,它可能重塑跨語言社交、國際商務溝通、在線教育和內容本地化的成本結構。對於谷歌自身而言,這一功能若深度集成進安卓系統、搜索、YouTube和雲服務,將強化其生態粘性,並可能成為吸引企業客戶的新賣點。

與此同時,語音到語音翻譯對端側算力和雲端推理延遲提出了更高要求。雖然本次發佈未披露具體的硬件部署細節,但可以預見,這類應用的大規模普及將進一步拉動對AI推理芯片和邊緣計算的需求。市場上已有不少玩家在佈局類似能力,包括Meta的SeamlessM4T和多家語音AI初創公司,谷歌此次更新意在鞏固其在翻譯和語音AI領域的技術領先地位。

用戶無需等待太久即可親自驗證該模型的能力。隨著Gemini 3.5 Pro版本的臨近,谷歌在AI應用層的佈局節奏明顯加快,實時語音翻譯或將成為其AI助手和雲服務差異化競爭的關鍵一環。