简介
Voicebox,Meta ai开发的一种先进的生成式AI语音模型,可以执行语音生成任务,例如编辑、采样和风格化,但它并没有经过专门训练来通过上下文学习来完成这些任务。
Voicebox可以生成高质量的音频剪辑并编辑预先录制的音频(例如消除汽车喇叭或狗吠声),同时保留音频的内容和风格。该模型也是多语言的,可以产生六种语言的语音。
Voicebox功能特征:
Voicebox 的多功能性可实现多种任务,包括:
上下文文本到语音合成:使用短至两秒的音频样本,Voicebox 可以匹配音频风格并将其用于文本到语音生成。
语音编辑和降噪:Voicebox 可以重新创建被噪音打断的语音部分或替换说错的单词,而无需重新录制整个语音。例如,您可以识别被狗吠打断的语音片段,将其裁剪,然后指示 Voicebox 重新生成该片段 - 就像用于音频编辑的橡皮擦一样。
跨语言风格迁移:当给定某人的语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语文本时,Voicebox 可以读出任何这些语言的文本,即使样本语音并且文本是不同语言的。这项功能将来可以用来帮助人们以自然、真实的方式进行交流,即使他们说的语言不同。
多样化的语音采样:从多样化的数据中学习后,Voicebox 可以生成更能代表人们在现实世界中以及上述六种语言中交谈方式的语音。
Voicebox优点:
先进的噪音消除和风格转换工具可提高音频质量和多功能性。
对50,000+小时语音数据的广泛训练确保了声音的高精度和自然听起来。
使用六种不同语言的能力使其成为全球应用和跨语言任务的理想选择。
Voicebox缺点:
由于潜在的滥用而导致的可用性有限可能会限制合法用户和开发人员的访问。
未来,像 Voicebox 这样的多用途生成人工智能模型可以为虚拟助手和虚拟宇宙中的非玩家角色提供自然的声音。它们可以让视障人士听到人工智能用声音朗读朋友的书面信息,为创作者提供新工具来轻松创建和编辑视频音轨等等。
Voicebox 是我们生成式人工智能研究向前迈出的重要一步,我们期待继续在音频领域进行探索,并看看其他研究人员如何在我们的工作基础上继续发展。
相关资讯
多款国产AI视频生成产品在海外爆火
近期,MiniMax海螺AI、快手可灵AI等国产AI视频生成产品在海外迅速走红。在X等海外社交媒体上,不少用户分享了自己使用海螺AI、可灵AI生成视频的体验,AI产品生成的梗图创意视频、鬼畜画面引发了较多讨论和分享。
2025-01-31 21:59:17
AI时代新篇章开启,微软将推出全新十款代理打造AI生态体系
从未来一个月开始,微软公司将开放企业自主人工智能(AI)代理的制造权限,并宣布推出10款全新的AI自动代理(Autonomous Agents),旨在帮助企业员工更高效地完成各类任务。 在人工智能领域,智能代理是指能够自
2025-01-31 21:39:14
库克谈苹果牌AI在华上线时间:努力推进相关流程,期待尽快推出
根据新浪科技和界面新闻的报导,今天苹果公司的CEO库克访问了新浪的总部。在现场,有媒体向库克询问了关于Apple Intelligence何时能在国内正式推出的相关问题。对此,库克的回应充满了坦诚:“我们正在竭力推动App
2025-01-31 21:19:07
朱松纯:人工智能领域当有湖北军团
何为人工智能?人工智能有哪些发展趋势、变局与机遇?如何从中华传统文化中悟到人工智能的真谛?为促进人工智能发展和与其他学科专业交叉融合,湖北人工智能学院从2024年秋季学期开始,在全省普通本科高校开展人
2025-01-31 20:59:02
谷歌DeepMind开源SynthIDText工具,可辨别AI生成的文字
IT之家 10 月 27 日消息,谷歌 DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。谷歌在 2023 年 8 月推出了 SynthID 工具,该工具具备创建 AI 内容水印(声明该作
2025-01-31 20:38:57