简介
OpenVoice,一种多功能的即时语音克隆方法,只需要参考说话者的一小段音频剪辑即可复制他们的声音并生成多种语言的语音。OpenVoice 支持对语音风格进行精细控制,包括情感、口音、节奏、停顿和语调,以及复制参考扬声器的音调颜色。OpenVoice 还实现了零样本跨语言语音克隆,适用于未包含在大规模说话人训练集中的语言。OpenVoice 的计算效率也很高,其成本比性能较差的商用 API 低数十倍。
OpenVoice论文:https://arxiv.org/pdf/2312.01479.pdf
OpenVoice项目:https://github.com/myshell-ai/OpenVoice
OpenVoice特征:
准确的色调颜色克隆。OpenVoice可以准确克隆参考音色,生成多种语言和口音的语音。
灵活的语音风格控制。OpenVoice 支持对语音风格(如情感和口音)以及其他风格参数(包括节奏、停顿和语调)进行精细控制。
零样本跨语言语音克隆。生成的语音的语言和参考语音的语言都不需要在大规模说话人多语言训练数据集中呈现。
OpenVoice用法:
1.灵活的语音风格控制。请参阅 demo_part1.ipynb,了解 OpenVoice 如何对克隆的语音实现灵活的样式控制的示例用法。
2.跨语言语音克隆。请参阅 demo_part2.ipynb,了解 MSML 训练集中可见或未可见的语言示例。
3. 高级用法。基本扬声器型号可以替换为用户喜欢的任何型号(任何语言和风格)。请使用演示中演示的功能来提取新基座扬声器的音色嵌入。se_extractor.get_se
4. 生成自然语音的技巧。有许多单说话人或多说话人的 TTS 方法可以生成自然语音,并且很容易获得。只需将基本扬声器型号替换为您喜欢的型号,您就可以将语音自然度提升到您想要的水平。
语言
我们只支持此版本模型重量的英文和中文。OpenVoice 可以适应任何其他语言,只要提供基础扬声器即可。
自 2023 年 5 月以来,OpenVoice 一直在为 myshell.ai 的即时语音克隆功能提供支持。截止到2023年11月,语音克隆模式已被全球用户使用数千万次,见证了平台用户爆发式增长。
相关资讯
人工智能耗电高,美国科技巨头纷纷投资核能
一段时间以来,随着人工智能的快速发展,其高能耗问题日益受到关注。在此背景下,包括微软、谷歌、亚马逊在内的美国科技巨头掀起了核能投资热潮。《纽约时报》16日报道称,亚马逊当天宣布向一家名为X-Energy的初
2025-02-05 14:46:03
北京·亦庄全域人工智能之城创新发布会举办
10月16日,北京·亦庄全域人工智能之城创新发布会在国家信创园成功举办,发布北京经济技术开发区(北京亦庄)全域人工智能之城建设首批标杆成果,面向全球创新企业开放全域场景应用机会清单,“百亿级”新质生产力平
2025-02-05 14:25:56
台积电看好前景,因人工智能热潮第三季度利润超预期
全球最大的合同芯片制造商台积电周四报告称,由于人工智能(AI)芯片需求飙升,季度利润增长超过54%,预计将保持强劲增长。台积电估计,其本季度的资本支出将增加一倍以上,达到约115亿美元,明年的预算可能会进
2025-02-05 14:05:54
ESG专访|欧洲工商管理学院院长韦洛索:人工智能耗能巨大,需通过可持续的方式发电
10月16日,在2024 ESG全球领导者大会上,欧洲工商管理学院院长韦洛索教授(Prof Francisco Veloso)在主题演讲中表示,尽管政府需要通过政策监督和激励措施来引领变革,但企业的参与是实现大规模影响的关键。在接
2025-02-05 13:45:53
人工智能+高等教育!第四届中原高等教育(国际)论坛在郑召开
当人工智能遇上高等教育,会碰撞出怎样的火花?10月16日,第四届中原高等教育(国际)论坛在郑州召开,十余位国内外知名专家学者,围绕“人工智能与高等教育创新”主题,就新时代人工智能快速发展背景下高等教育创
2025-02-05 13:25:44