产品动态 2025-11-08 7阅读

有道翻译推出「多模态翻译」功能:支持图片 + 语音混合输入,实时生成双语字幕

在跨语言沟通场景中,单一输入方式往往难以应对复杂需求 —— 旅游时既需要翻译路牌图片,又要实时对话;会议中既要解读 PPT 上的外文图表,又要同步翻译发言内容。针对这一痛点,网易有道翻译正式推出「多模态翻译」功能,实现图片与语音输入的无缝切换,支持实时生成双语字幕,让跨语言交流从 "分段处理" 迈向

作者: 有道翻译团队


在跨语言沟通场景中,单一输入方式往往难以应对复杂需求 —— 旅游时既需要翻译路牌图片,又要实时对话;会议中既要解读 PPT 上的外文图表,又要同步翻译发言内容。针对这一痛点,网易有道翻译正式推出「多模态翻译」功能,实现图片与语音输入的无缝切换,支持实时生成双语字幕,让跨语言交流从 "分段处理" 迈向 "场景化融合"。

打破输入边界:图片与语音的协同翻译

传统翻译工具的输入方式往往相互割裂,用户需要在 "拍照翻译" 和 "语音翻译" 功能间反复切换。有道翻译的「多模态翻译」通过智能场景识别,实现了两种输入方式的协同运作:

  • 混合输入实时响应:在对话场景中,用户可一边展示外文图片(如菜单、说明书),一边口述问题,系统会同时识别图片内容与语音信息,生成整合后的翻译结果。例如在餐厅点餐时,拍照识别菜单图片后,口述 "推荐两道招牌菜",系统会结合图片内容翻译为当地语言并附加菜品推荐请求。

  • 上下文关联理解:系统会记忆短时间内的图片与语音交互历史,避免重复翻译。比如先拍照翻译某景点介绍牌,随后询问 "如何前往这里",系统会自动关联图片中的地点名称,确保翻译连贯性。

  • 多语言混合场景适配:面对多方语言环境(如中英日韩混杂的国际会议),系统能自动识别不同发言者的语言,结合 PPT 图片内容,生成统一的双语字幕,解决 "听不清、记不全、译不准" 的问题。

实时双语字幕:从 "听懂" 到 "看清" 的体验升级

「多模态翻译」的核心亮点在于实时生成双语字幕功能,特别适用于线下交流与线上会议场景:

  • 离线场景全覆盖:在无网络环境下(如境外偏远地区),开启离线包后,仍能支持中英日韩等 8 种主流语言的实时字幕生成,延迟控制在 1.5 秒以内,准确率保持在 90% 以上。

  • 字幕样式自定义:用户可根据场景需求调整字幕大小、颜色与位置,支持悬浮窗模式,在视频会议软件(如 Zoom、腾讯会议)中叠加显示,不遮挡核心内容。

  • 专业场景优化:针对教育直播、商务谈判等场景,新增 "术语锁定" 功能,提前导入专业词汇表后,系统会优先匹配术语库译法,确保 "区块链"" 人工智能 " 等专业词汇翻译统一。

某国际学校老师反馈:"以前线上双语课堂需要频繁切换翻译工具,学生经常错过关键内容。现在用有道翻译的实时字幕,课件图片里的英文公式和我的中文讲解能同步翻译成双语字幕,课堂效率提升了不少。"

技术支撑:从 "单一识别" 到 "多模态融合"

「多模态翻译」的实现,依托于有道翻译在 AI 技术上的积累:

  • 跨模态注意力机制:通过深度学习模型,建立图片视觉特征与语音语义特征的关联,让系统理解 "图片中的文字" 与 "口述的问题" 之间的逻辑关系。

  • 轻量化模型优化:将识别模型压缩至原有体积的 40%,在手机端实现高效运行,避免因功能复杂导致的卡顿问题。

  • 场景化训练数据:基于 10 万 + 真实场景语料(涵盖旅游、商务、教育等)训练模型,使系统更熟悉不同场景下的语言习惯与表达逻辑。

如何使用?适用场景有哪些?

目前,「多模态翻译」功能已在有道翻译 APP(8.1.0 及以上版本)上线,用户点击首页 "多模态" 按钮即可进入功能界面。核心适用场景包括:

  • 境外自由行:拍照翻译路牌、菜单,同时与当地人实时对话,字幕同步显示双方语言。

  • 国际会议:实时翻译发言内容,同步识别 PPT 图片中的外文信息,生成会议双语记录。

  • 跨境直播:主播展示外文产品包装的同时讲解功能,系统生成双语字幕,方便不同语言观众理解。

  • 线下培训:外教讲课结合英文课件时,实时生成双语字幕,降低学员理解门槛。

从单一输入到多模态融合,有道翻译的这一功能升级,不仅是技术层面的突破,更重新定义了翻译工具的场景适配能力 —— 当翻译工具能像 "真人助理" 一样理解复杂场景中的信息需求,跨语言沟通才能真正实现 "无障碍"。


相关文章推荐

2025-12-11

网易有道翻译2025产品动态速递:子曰大模型赋能 网易有道翻译下载畅享全能语言服务

在AI技术全面渗透的今天,翻译工具早已超越“语言转换”的基础定位,成为覆盖学习、办公、跨境交流的核心服务平台。2025年,网易有道翻译以“生态化升级”为核心产品战略,带来涵盖核心引擎、功能矩阵、协作体验的全方位革新,其中子曰翻译大模型的深度落地、AIBox全能工具集的优化升级,成为最受关注的产品动态。想要第一时...

2025-12-11

2025网易有道翻译产品动态:DeepSeek-R1引擎加持 网易有道翻译下载解锁全场景生产力

智能翻译工具的竞争早已进入技术深水区,2025年第四季度,网易有道翻译迎来年度重磅产品迭代,以核心引擎升级、功能生态扩容为核心的产品动态,再次刷新行业标准。作为国内智能翻译领域的标杆产品,本次更新不仅融入了DeepSeek-R1满血版大模型的前沿技术,更通过AIBox功能的全面进化,实现了从“语言转换工具”到“全场景生...

2025-12-10

生态化升级引领行业趋势 2025网易有道翻译下载直击产品动态核心

一、产品动态总览:从工具到平台的战略转型2025年,网易有道翻译发布了具有里程碑意义的产品动态,本次升级以“生态化、智能化、场景化”为三大关键词,完成了从“单一翻译工具”到“智能语言服务平台”的战略转型。产品动态覆盖底层技术架构、功能生态布局、跨端联动能力三大板块,新增功能超过20项,其中“AI翻译助手”“...