在跨语言沟通场景中,单一输入方式往往难以应对复杂需求 —— 旅游时既需要翻译路牌图片,又要实时对话;会议中既要解读 PPT 上的外文图表,又要同步翻译发言内容。针对这一痛点,网易有道翻译正式推出「多模态翻译」功能,实现图片与语音输入的无缝切换,支持实时生成双语字幕,让跨语言交流从 "分段处理" 迈向 "场景化融合"。
打破输入边界:图片与语音的协同翻译
传统翻译工具的输入方式往往相互割裂,用户需要在 "拍照翻译" 和 "语音翻译" 功能间反复切换。有道翻译的「多模态翻译」通过智能场景识别,实现了两种输入方式的协同运作:
实时双语字幕:从 "听懂" 到 "看清" 的体验升级
「多模态翻译」的核心亮点在于实时生成双语字幕功能,特别适用于线下交流与线上会议场景:
某国际学校老师反馈:"以前线上双语课堂需要频繁切换翻译工具,学生经常错过关键内容。现在用有道翻译的实时字幕,课件图片里的英文公式和我的中文讲解能同步翻译成双语字幕,课堂效率提升了不少。"
技术支撑:从 "单一识别" 到 "多模态融合"
「多模态翻译」的实现,依托于有道翻译在 AI 技术上的积累:
如何使用?适用场景有哪些?
目前,「多模态翻译」功能已在有道翻译 APP(8.1.0 及以上版本)上线,用户点击首页 "多模态" 按钮即可进入功能界面。核心适用场景包括:
从单一输入到多模态融合,有道翻译的这一功能升级,不仅是技术层面的突破,更重新定义了翻译工具的场景适配能力 —— 当翻译工具能像 "真人助理" 一样理解复杂场景中的信息需求,跨语言沟通才能真正实现 "无障碍"。