Voicebox

简介

Voicebox，Meta ai开发的一种先进的生成式AI语音模型，可以执行语音生成任务，例如编辑、采样和风格化，但它并没有经过专门训练来通过上下文学习来完成这些任务。

Voicebox可以生成高质量的音频剪辑并编辑预先录制的音频（例如消除汽车喇叭或狗吠声），同时保留音频的内容和风格。该模型也是多语言的，可以产生六种语言的语音。

Voicebox功能特征：

Voicebox 的多功能性可实现多种任务，包括：

上下文文本到语音合成：使用短至两秒的音频样本，Voicebox 可以匹配音频风格并将其用于文本到语音生成。

语音编辑和降噪：Voicebox 可以重新创建被噪音打断的语音部分或替换说错的单词，而无需重新录制整个语音。例如，您可以识别被狗吠打断的语音片段，将其裁剪，然后指示 Voicebox 重新生成该片段 - 就像用于音频编辑的橡皮擦一样。

跨语言风格迁移：当给定某人的语音样本和一段英语、法语、德语、西班牙语、波兰语或葡萄牙语文本时，Voicebox 可以读出任何这些语言的文本，即使样本语音并且文本是不同语言的。这项功能将来可以用来帮助人们以自然、真实的方式进行交流，即使他们说的语言不同。

多样化的语音采样：从多样化的数据中学习后，Voicebox 可以生成更能代表人们在现实世界中以及上述六种语言中交谈方式的语音。

Voicebox优点：

先进的噪音消除和风格转换工具可提高音频质量和多功能性。

对50,000+小时语音数据的广泛训练确保了声音的高精度和自然听起来。

使用六种不同语言的能力使其成为全球应用和跨语言任务的理想选择。

Voicebox缺点：

由于潜在的滥用而导致的可用性有限可能会限制合法用户和开发人员的访问。

未来，像 Voicebox 这样的多用途生成人工智能模型可以为虚拟助手和虚拟宇宙中的非玩家角色提供自然的声音。它们可以让视障人士听到人工智能用声音朗读朋友的书面信息，为创作者提供新工具来轻松创建和编辑视频音轨等等。

Voicebox 是我们生成式人工智能研究向前迈出的重要一步，我们期待继续在音频领域进行探索，并看看其他研究人员如何在我们的工作基础上继续发展。