简介
TangoFlux是新加坡科技设计大学(SUTD)与NVIDIA合作研发的一款先进的文本到音频(TTA)生成模型,该模型拥有约5.15亿参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz立体声音频。TangoFlux不仅可以生成音效如鸟叫、口哨、爆炸等声音,还能生成音乐。
TangoFlux技术原理
变分自编码器: 使用VAE将音频波形编码成潜在的表示,从潜在表示中重构原始音频。
文本和时长嵌入: 基于文本编码和时长编码来控制生成音频的内容和时长。
FluxTransformer架构: 结合Diffusion Transformer (DiT) 和 Multimodal Diffusion Transformer (MMDiT)处理文本提示和生成音频。
流匹配: 学习从简单先验分布到复杂目标分布的映射,生成样本。
CLAP-Ranked Preference Optimization: 基于迭代生成偏好数据对,优化音频对齐。
TangoFlux主要功能
快速生成音频:TangoFlux能够在极短的时间内生成高质量的音频内容,适用于需要快速响应的应用场景。
高音质输出:生成的音频质量高,能够清晰再现各种声音事件,适合用于音乐、音效等多种类型的音频生成。
支持长音频生成:该模型能够处理长达30秒的音频生成任务,适合制作较长的音频内容。
多样化音效生成:TangoFlux不仅可以生成音乐,还能生成各种音效,如鸟叫、口哨、爆炸声等,适用于多种创意和娱乐项目。
TangoFlux应用场景
影视与游戏音频制作:TangoFlux可依剧本或场景描述,快速生成逼真音效、配乐及配音,缩短制作周期、降成本,提升作品音频质量,增强游戏互动性与沉浸感。
音乐创作灵感源:能按创作者设定,生成多样音乐片段,助力突破创作瓶颈,推动音乐创新,带来更多新颖作品。
VR与AR体验增强:依虚拟环境与用户交互生成实时逼真音频,提升VR游戏沉浸感,增强AR应用对虚实融合的感知。
广告营销音频创新:依广告创意与品牌形象生成独特音频,吸引消费者,唤起共鸣,提升品牌知名度与美誉度。
TangoFlux项目资源
项目官网: tangoflux.github.io
arXiv技术论文: https://export.arxiv.org/pdf/2412.21037
TangoFlux还采用了CLAP-Ranked Preference Optimization (CRPO)框架,通过迭代生成和优化偏好数据来提升模型的音频对齐能力。这种方法使得生成的音频不仅在质量上有保障,还能更好地符合用户的偏好和输入文本的意图。此外,TangoFlux的训练基于非专有数据集,使得模型更加开放和可访问,促进了进一步的研究和应用。
TangoFlux主要应用于多媒体内容创作,比如在电影、游戏、广告和视频制作中生成背景音乐、声效和配音,从而提高制作效率和降低费用。它的技术原理包括变分自编码器(VAE)、文本和时长嵌入、FluxTransformer架构等,这些技术共同支持了其高效的音频生成能力。
相关资讯:
文本转语音软件
相关资讯
王金平:低空经济也要赶上人工智能这个大趋势
数字启航,贸易扬帆;江城聚首,共绘新篇。11月12日下午,以“智联世界 货通天下”为主题的2024全球数字贸易大会在武汉隆重开幕,国家有关部委及行业协会领导、省市领导、外交使节、数字贸易领域专家学者、国内外行
2025-01-22 12:00:06
上海市政府常务会议原则同意《上海市发展医学人工智能工作方案(2025—2027年)》
上证报中国证券网讯(记者 宋薇萍)11月12日召开的上海市政府常务会议原则同意《上海市发展医学人工智能工作方案(2025—2027年)》并指出,当前,医学和人工智能正处于快速融合阶段,成为国际科技竞争的新焦点。
2025-01-22 11:40:01
徐汇首创全球AI人才地图网罗天下人工智能人才
2024年徐汇区“汇聚未来”创新创业人才峰会暨第三届徐汇区创新创业大赛启动仪式11月11日举行。在活动现场,新华社上海分社、中智股份、徐汇区三方共同发布了全球AI人才地图。这是徐汇区率先基于大模型技术,打造的
2025-01-22 11:20:00
AI独角兽卷入仲裁漩涡,都是利益惹的祸?
作为国内发展势头迅猛的AI独角兽之一,月之暗面今年估值快速提升,但这也暗藏了危机。近日,月之暗面创始人杨植麟、联合创始人兼CTO张宇韬收到前公司循环智能及其投资机构金沙江创投、靖亚资本、博裕资本、华山资
2025-01-22 10:59:51
人工智能技术应用亟待规范
据经济日报 近日,一系列由AI生成的配音视频在网络上引发关注,其逼真程度令人惊讶,不仅画面栩栩如生,声音特征也与真人几乎无异,短时间内便收获了过亿次的播放量。然而,这些视频中的内容与画面中的公众人物毫
2025-01-22 10:39:43