自Sora横空出世开辟了AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?
10月15日,火山引擎联合英特尔共同在视频云技术大会上发布了大模型训练视频预处理方案。《每日经济新闻》记者在发布会现场了解到,目前该技术方案已应用于豆包视频生成模型。
发布会上,Bytedance Research负责人李航介绍,豆包视频生成模型PixelDance在训练过程中采用了火山引擎的大模型训练视频预处理方案,充分利用了大量潮汐资源,为模型训练提供了有力支撑。
此外,抖音集团视频架构负责人王悦透露了字节自研视频编解码芯片的最新进展:经过抖音集团内部的实践验证,该芯片在同等视频压缩效率下,成本节省了95%以上。
“首先,超大规模视频训练数据集导致计算和处理成本激增。”王悦指出大模型厂商在预处理过程中面临诸多挑战,“其次是视频样本数据参差不齐,然后是处理链路环节多、工程复杂,最后还面临着对GPU、CPU、ARM等多种异构算力资源的调度部署。”
图片来源:每经记者 杨昕怡 摄
在9月24日的火山引擎AI创新巡展上,豆包视频生成-PixelDance和豆包视频生成-Seaweed两款大模型一并发布,吸引业内外人士关注。其实,字节跳动在视频生成模型上下的功夫不止于此。
10月15日,火山引擎发布了大模型训练视频预处理方案,致力于解决视频大模型训练的成本、质量和性能等方面的技术挑战。
据介绍,对训练视频进行预处理是保障大模型训练效果的重要前提。预处理过程可以统一视频的数据格式、提高数据质量、实现数据标准化、减少数据量以及处理标注信息,从而使模型能更高效地学习视频中的特征和知识,提升训练效果和效率。
在视频生成模型的训练中,算力成本无疑是首屈一指的挑战。
一位国内视频生成模型的算法工程师在接受《每日经济新闻》记者采访时表示,在拥有高质量数据后,视频模型会比大语言模型更难训练,有更多的算力需求,“目前已知的开源视频模型没有特别大,主要是目前很多视频模型处于不知道如何使用数据的阶段,(用于训练的)高质量数据也没有特别多。”
计算机科学家Matthias Plappert的研究也显示,Sora的训练对算力规模的要求巨大,在训练环节大约需要在4200~10500张Nvidia H100上训练1个月,且当模型生成到推理环节以后,计算成本将迅速超过训练环节。
为了解决降本难题,火山引擎借助Intel的CPU等资源,将大模型训练视频预处理方案依托于自研的多媒体处理框架。王悦表示,该方案还在算法和工程方面进行了调优,可以对海量视频数据高质量预处理,短时间内实现处理链路的高效协同,提高模型训练效率。
对于该方案的应用,李航在发布会现场透露,豆包视频生成模型PixelDance在训练过程中已采用该方案。同时,火山引擎视频云团队提供的点播解决方案还为PixelDance生产的视频提供了从编辑、上传、转码、分发、播放的全生命周期一站式服务,让模型的商业化应用有了保障。
此外,在此次发布会上,火山引擎还发布了跨语言同声复刻直播方案、多模态视频理解与生成方案、对话式AI实时交互方案和AIG3D大场景重建方案,从视频的生产端、交互端到消费端,全链路融入AI能力。
AI正全方位重塑着人们生产、传播和接受信息的路径。其中,不断涌现的视频新技术将人们从流畅、高清的数据世界带入了更加智能、更具交互体验的AI世界。
今年7月,商汤推出了首个面向C端用户的可控人物视频生成大模型Vimi;8月,“AI六小龙”之一的MiniMax发布了视频生成模型video-1;9月,可灵AI完成第9次迭代,发布“可灵1.5模型”,阿里云在云栖大会上推出全新的视频生成模型,字节也发布了2款视频生成模型⋯⋯AI视频产品的诞生和迭代几乎是以月来计时的。
对于AI视频产品的“爆发”,北京市社会科学院副研究员王鹏在接受《每日经济新闻》记者采访时表示,国内AI视频产品正处于快速发展和不断迭代的阶段,主要因为市场需求旺盛、应用场景广泛和商业化模式多样等。
目前市场上AI视频产品的落地大多在影视、电商营销等领域,例如今年7月,即梦AI和博纳影业合作推出了全国首部AIGC生成式连续性叙事科幻短剧集《三星堆:未来启示录》;今年9月,快手联合贾樟柯、李少红等9位知名导演启动“可灵AI”导演共创计划。
与此同时,工信部信息通信经济专家委员会委员盘和林向《每日经济新闻》记者指出,如今部分AI视频产品处于导入期,因为技术或合规性,很难在市场上铺开,“目前感觉开源(AI视频产品)比闭源的更受欢迎,因为AI视频生成的成本很高,而视频制作者往往缺少资金,所以利用开源的、下载到终端的AI算法可以更好地制作生成视频。”
在他看来,现阶段AI视频产品主要有算力和合规风险两方面的主要障碍。“算法、算力和数据方面都需要企业投入较多的资源和时间;另一难点在于合规风险,如今对隐私越来越重视,合规是绕不过去的话题,而AI视频有时可能会侵犯个人隐私。”他解释。
此外,易观分析研究合伙人陈晨也在接受《每日经济新闻》记者采访时表达了对视频生成大模型短期变现能力的担忧,“由于AI大模型高昂的模型训练与推理成本,加之C端用户对AI工具的需求相对分散,付费意愿不足,视频大模型在C端市场的商业化仍然会面临一个较长的培育期。”
AI视频的时代来到了,但这注定是一个长坡厚雪的赛道,如何降本增效、拿下更多市场也将成为互联网大厂和科技企业面对的不变命题。
最新发现
相关资讯
字节豆包直面AI视频降本难题,压力给到了谁?
自sora横空出世开辟了AI视频的新纪元以来,国内外各大玩家陆续加入AI视频的竞逐赛。但是,当进入这一更交互、更沉浸的视频新时代,又该如何应对成本、质量和性能方面的挑战?10月15日,火山引擎联合英特尔共同在
2025-02-05 17:46:39
媒体人眼中的与AI“共舞”
在第六届世界媒体峰会期间,生成式人工智能和大语言模型的应用成为诸多媒体人热议的话题。媒体行业正迎来一个人机协作新阶段,在新闻信息采集、生产和分发的全链条中,人工智能(AI)参与度越来越高。在这股智能
2025-02-05 17:26:36
应对AI虚假信息,多国媒体加速构建“真实性”防线
人工智能(AI)在拓展创意边界、提升传播效能的同时,也带来虚假信息泛滥、知识产权侵权等隐忧,给国际传播生态建设带来新挑战。一些媒体和国际组织开始探索如何应用AI新技术应对AI虚假信息,“用技术对抗技术,用
2025-02-05 17:06:28
AI时代,教师是否到了要退出历史舞台的时刻?70岁的TA回答……
随着人工智能(AI)在教育领域的广泛运用,作业批改、简单答疑乃至制定个性化学习辅导方案如今均能通过机器实现。不少人由此发问:AI时代,教师是否到了要退出历史舞台的时刻?“人工智能时代,我们是将教育的未来
2025-02-05 16:46:28
谷歌AI又闯祸:错把游戏开发者个人电话当公司电话公布
IT之家 10 月 17 日消息,谷歌搜索的实验性 AI 功能“Overview(概述)”再次闯祸,该功能曾因提供错误和有害搜索结果而备受批评,而其最新失误更是导致了一名游戏开发者的个人电话号码被错误地公开。Skybound Game
2025-02-05 16:26:27
AI视频爆发式增长,游戏市场持续回暖,影视IP迎来新机遇
近期,多个领域呈现出积极的增长态势,AI视频技术的快速发展、游戏市场的持续回暖以及影视IP的新机遇成为市场关注的焦点。这些变化不仅反映了科技创新的步伐,也预示着相关产业可能迎来新一轮的发展机遇。AI视频
2025-02-05 16:06:24
今日热榜
马来西亚设立国家人工智能办公室
2024-12-19 16:44:28中美AI竞赛开启:既决高下,也决生死
2024-12-31 12:33:04通用人工智能,是个啥智能?
2025-01-06 17:44:07首届中医人工智能高质量发展论坛开幕
2025-01-16 15:45:46路演开启!一起见证人工智能最新成果→
2025-01-24 12:32:30谷歌发布新一代人工智能技术
2024-12-19 16:43:53聚焦人工智能、区块链、量子科技等9大前沿领域,2024年上海市产业青年创新大赛颁奖大会在静安举行
2024-12-19 17:08:14花6.5万元购“AI数字人”直播带货被禁播?买家能解约吗?法院
2024-12-19 21:30:55通用人工智能国赛为何连续两年落地安徽?
2024-12-19 23:31:31AI“魔改”短视频要严守二创边界
2024-12-20 01:31:46热门推荐