7月24日报道,今日,字节跳动Seed团队正式推出端到端同声传译模型SeedLiveInterpret2.0。
这是首个在翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。
在中英互译任务中,SeedLiveInterpret2.0已达到业界最优水平(SOTA),其译文质量、响应速度与音色还原能力,在多项主客观评测中均表现突出。
该系统采用全双工语音理解与生成框架,支持“边听边说”的实时传译,语音延迟最低可至2到3秒。同时,它具备0样本声音复刻能力,无需预录音,即可用说话者的音色“说出”外语。
当前,SeedLiveInterpret2.0已通过火山引擎开放试用,用户可登录控制台体验语音模型“Doubao-同声传译2.0”。
此外,OlaFriend耳机也计划于8月底接入该系统,成为首个支持其语音同传能力的硬件设备。
技术报告与体验指路:
技术报告:
http://arxiv.org/pdf/2507.17527
项目主页:
https://seed.bytedance.com/seed_liveinterpret
体验链接:登录火山引擎后,选择语音模型“Doubao-同声传译2.0”
https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=SI
字节Seed团队曾在2024年推出初代模型CLASI,解决了文本同传的时延与专业性问题,但仍不支持语音输出。
时隔一年,团队在模型结构、语音生成与训练策略上持续优化,最终推出SeedLiveInterpret2.0,首次实现“边听边说”的语音到语音同传。
SeedLiveInterpret2.0引入了双通路(duplex)语音理解与生成架构,这一端到端方案减少了中间环节,在处理效率和翻译准确率上表现更优。系统能边接收源语言语音输入,边生成目标语言语音输出,且可实时处理多人说话场景。
SeedLiveInterpret2.0的双通路(duplex)语音理解与生成架构(图源:字节跳动Seed)
尤其值得注意的是,相比传统同传系统需等待语音识别完成再生成译文,SeedLiveInterpret2.0可在听音过程中同步生成目标语音,实现平均约2.5秒内完成首个译句输出(FLAL),显著接近人类同传表现。
图为语音到语音同传任务中,SeedLiveInterpret2.0与主流系统在翻译质量与延迟表现上的对比。(图源:技术报告)
实测结果显示,其语音翻译延迟可低至2到3秒,相比传统机器同传系统平均减少了超过60%的等待时间,实现真正的“边听边说”。
尽管早期版本SeedLiveInterpret1.0在文本同传已有不俗表现,但如何兼顾音频输出的节奏感与准确度,始终是AI同传系统的关键难题。
为此,字节Seed团队引入强化学习机制,在延迟、译文准确率和节奏控制上进行联合建模优化。
据技术报告描述,团队设计了融合单步反馈与全局反馈的双重奖励机制,分别用于保障片段级语义一致性和整体译文的逻辑连贯性。
在训练方法上,团队采用了两阶段流程:先通过单步奖励预热模型,学习人类译员的翻译策略,再利用全局奖励机制优化模型对整体语义与响应延迟的控制。
这一机制显著降低了模型生成输出的滞后时间。如在长文本中译英任务中,经过RL优化后的SeedLiveInterpret2.0将语音输出延迟从3.90秒降至2.37秒,翻译质量得分也从75.1提升至79.5。
图为RealSI长文本同传基准下的系统性能对比(图源:技术报告)
模型还具备自适应节奏控制能力,能够根据语音输入的清晰度与表达节奏,智能调整输出时机与语速。
在长时间演讲等场景中,系统会主动保持译文与源语的节奏一致,避免“跟不上讲话节奏”或“提前结束”等不同步问题。
SeedLiveInterpret2.0引入“0样本声音复刻”能力,只需实时采样对话语音,系统便能学习并克隆用户的音色特征,以“原声”输出目标语种译文。这一能力在真实会议、演讲、跨语种沟通中极具实用价值,不仅降低理解门槛,也增强语义情绪的传达。
在多轮语音评测中,SeedLiveInterpret2.0是唯一支持“中英双向语音到语音同传+声音克隆”的系统,其SVIP(语音译文有效信息比例)在zh-en方向达到67.8,在en-zh方向达到64.7,音质、节奏、语调高度拟人。
图为语音到语音同传任务中,SeedLiveInterpret2.0与主流系统在SVIP(语音译文有效信息比例)上的对比。(图源:技术报告)
得益于SeedLiveInterpret2.0的声音复刻能力,用户在与不同语言背景的人交流时,依然能用自己的音色输出外语译文,在提升识别度的同时,也增强了交流的亲和力。
第一时间进行了试用,在“同声传译”的过程中,系统对英文语音的翻译响应较快,音色复刻也具备一定相似度,能听出说话者的语气。
但整体仍存在一定延时感,特别在语速变化或语句较长时更为明显。
为评估系统性能,字节Seed团队基于中英双向RealSI标准数据集,邀请专业同传译员团队进行人工打分。
结果显示,在语音到语音翻译任务中,其译音质量得分达66.3,显著超过同类系统。在语音到文本的中英互译任务中,SeedLiveInterpret2.0的平均翻译质量得分为74.8(满分100),相比第二名系统高出58%。
图示为语音到文本(S2T)和语音到语音(S2S)同传任务中,人工评测的翻译质量与响应效率结果。其中部分商业翻译系统以字母代称。(图源:字节跳动Seed)
同时,在延迟方面,语音到文本场景中平均输出首字延迟仅为2.21秒,语音到语音场景延迟为2.53秒,展现了质量与速度的良好平衡。
系统在BLEURT、COMET等客观翻译指标上同样表现领先,且为唯一支持“声音复刻”的评测系统。
在标准化测试中,SeedLiveInterpret2.0在中译英(zh-en)与英译中(en-zh)任务中均取得了最高的BLEURT和COMET得分,同时在延迟指标AL(AverageLagging)、LAAL和FLAL上展现出良好平衡。
尤其在语音到语音(S2S)任务中,SeedLiveInterpret2.0在zh-en方向取得60.7/83.6的得分,在en-zh方向取得57.6/83.5的得分,并以2.17秒的FLAL达成最低延迟,整体表现领先同类系统。
图示为客观测评集的测评成绩,由于业界适合同传场景的高质量公开测试数据较少,字节Seed团队整合了公开数据与内部数据集进行测试。(图源:字节跳动Seed)
从延迟、译准率到音色复刻,SeedLiveInterpret2.0已让AI在同传这条“最难登顶”的语言技术路径上迈出了关键一步。技术侧依托多模态训练与强化学习策略,产品层面则已具备跨语言实时演讲、跨境会议、教育直播等落地能力。
尽管目前仍仅支持中英互译,但这套端到端同传框架的可扩展性,为后续多语种拓展、情绪模仿和更多交互形式的翻译任务奠定了基础。
当“听懂你说什么”与“像你说出来”同时成为可能,语言AI正在告别辅助工具的角色,真正走向人与人沟通的前台舞台。
最新发现
相关资讯
刚刚,字节掏出AI同传模型王炸,2秒延迟,0样本复刻你的声音,一手实测来了
又一语音AI登顶!
2025-07-28 09:08:32
「Manus+景鲲」领衔主演,华人AI Agent全球狂欢
Manus为迷茫的AI从业者定义了Agent的产品范式,至此,一场以华人为主角的AIAgent创业热潮,正在席卷全球。
2025-07-27 07:00:37
中国AI芯片维修需求暴增有商家月修500块英伟达高端GPU
7月25日消息,据媒体报道,目前中国市场上已有十余家小型专业公司专门从事英伟达H100、A100等高端芯片的维修业务,这些被美国禁售的芯片主要通过特殊渠道流入国内。2022年9月H100发布前夕
2025-07-27 07:00:32
诺奖得主谈人类末日危机实录:关于AI“第37步”、卡尔达舍夫I型文明
AlphaGo "神之一手 "启示AGI临界点,哈萨比斯警示末日风险
2025-07-27 07:00:18
华硕a豆14Air香氛版:香氛减压+2.8K好屏+全能AI职场刚需全满足
面对繁杂的报表、高频的会议、加班的夜晚,你是否渴望一台既时尚便携又性能在线,还能悄悄治愈疲惫的工作伙伴?初入职场的女生,总在寻找一款能适配工作节奏、契合审美喜好、缓解职场压力的笔
2025-07-27 07:00:14
美国人是怎么用ChatGPT的?OpenAI报告大揭秘
OpenAI报告:ChatGPT用户激增,AI提升多行业生产力促经济增长
2025-07-27 07:00:00
今日热榜
美图设计室“AI字画”上线,AIGC四大场景助力个性化创作
2025-07-10 10:30:33大模型潮涌,AIGC何以立潮头
2025-07-10 13:42:33AI医院离我们有多远?
2024-12-19 18:09:55巨头加码AI赋能人形机器人渐行渐近
2025-01-24 09:11:53“国内AIApp产品TOP100”榜单揭晓美图秀秀斩获第三名
2025-02-24 16:54:27谭作钧出席中央企业人工智能特训班结业式
2025-03-21 15:56:53利用视觉语言基础模型,AI展现自主搜寻“人工生命”潜力
2025-03-28 14:30:28关注:AI制药企业站上风口!药企布局开始热情高涨
2025-07-10 11:18:33美图这次赶上了AIGC浪潮?
2025-07-10 14:06:33现在AIGC最大的问题其实就是“太雷同了”
2025-07-10 15:18:34热门推荐