Google 推出 Gemini 3.5 Live Translate:打破「对讲机」式翻译,让对话无缝衔接
Google 推出最新语音对语音翻译模型 Gemini 3.5 Live Translate,打破「等你说完再翻」老规矩,边听边译,输出连贯,还能保留说话者的语速、音高和语调。
过去的翻译机是「等你说完再翻」,节奏全断,像打对讲机。而 Gemini 3.5 Live Translate 边听边译,话音未落,译音先到,输出连贯,只落后说话人几秒。它基于 Gemini 3 Pro 打造,能吃进最长 128K token 的音频上下文。
该模型能认 70 多种语言,全自动识别,中途换语言也能跟上,环境吵也不怕。开发者可通过 Gemini Live API 和 Google AI Studio 公测上手,企业本月起在 Google Meet 私测,普通人在 Google Translate 的安卓和 iOS 版全球上线使用。
Google 找了东南亚的 Grab 测试,司机说本地话,乘客能听到母语,每月超 1000 万次语音电话不再鸡同鸭讲。此外,CJ ENM、LiveKit 等公司反馈也很好,开发者接入 API 后可专注做体验。
20 年前,Google 翻译只是小实验,如今每月为数十亿用户翻译超一万亿个单词。从文字翻译到实时语音翻译,走了整整二十年。不过,目前该模型也有局限,如只吃音频输入,声音复刻可能不稳。
同声传译正从顶尖译员的工作变成耳机里的功能,当语言不再是障碍,人和人之间的交流将更加顺畅。这或许只是起点,未来语言沟通会更便捷。
编辑观点:Google 的新翻译模型是语言科技的重大突破,虽有不足,但已能满足多场景需求,未来有望让跨语言交流像日常对话一样自然。
