2月16日,北京大学人工智能专业博士@北大AI鱼博士 发微,从技术角度解读了OpenAI最新发布的Sora:
OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。其训练过程获得了大语言模型的灵感,采用扩散型变换器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无需对素材进行裁切,直接为不同设备以其原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来了革命性的进步,其技术细节值得每一位从业者细致研究。
Sora 详细的技术报告发布了,相关从业者可能都需要看看。里面有 OpenAI的训练思路以及 Sora 详细的技术特性,下面是主要的,详细的可以去看完整内容。
简单来说 Sora 的训练量足够大也产生了类似涌现的能力。
技术特点:
1、三维空间的连贯性:Sora可以生成带有动态相机运动的视频。随着相机移动和旋转,人物和场景元素在三维空间中保持连贯的运动。
2、模拟数字世界:Sora还能模拟人工过程,如视频游戏。Sora能够同时控制Minecraft中的玩家,并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示,可以零样本地激发Sora的这些能力
3、长期连续性和物体持久性:对视频生成系统来说,Sora通常能够有效地模拟短期和长期的依赖关系。同样,它能在一个样本中生成同一角色的多个镜头,确保其在整个视频中的外观一致。
4、与世界互动:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上留下随时间持续的新笔触,或者一个人吃汉堡时留下咬痕。
【训练过程】:
1、Sora 的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。
3、Sora实际上是一种扩散型变换器模型(Diffusion Transformer)。
首先将视频压缩到一个低维潜在空间19中,然后将这种表现形式分解成时空区块,从而将视频转换为区块。
4、训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入,输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练,并在此空间中生成视频。还开发了一个对应的解码器模型,它能将生成的潜在表示映射回到像素空间。
5、对于给定的压缩输入视频,提取一系列时空区块,它们在变换器模型中充当标记(token)。这种方案同样适用于图像,因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中,可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。
6、随着 Sora 训练计算量的增加,样本质量有了显著提升。Sora训练时没有对素材进行裁切,使得Sora能够直接为不同设备以其原生纵横比创造内容。
7、针对视频的原生纵横比进行训练,还可以提高构图和取景的质量。训练文本到视频的生成系统需要大量配有相应文本提示的视频。应用了在DALL·E 3中引入的重新字幕技术到视频上。
8、与DALL·E 3相似,也利用了GPT技术,将用户的简短提示转换成更详细的提示,然后发送给视频模型。
完整报告请访问OpenAI官网查看。
重点关注:
1、Sora展现的三维空间连贯性和长期物体持久性,提升了视频内容的真实感。
2、通过模拟数字世界和与世界互动,Sora能够创造出富有创意的视频内容。
3、Sora的独特训练方法及其对不同纵横比的原生支持,标志着视频生成技术的一个新时代。
最新发现
相关资讯
大揭秘:OpenAI公布Sora模型技术原理以及训练细节
2月16日,北京大学人工智能专业博士@北大AI鱼博士 发微,从技术角度解读了OpenAI最新发布的Sora:OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维
2025-06-22 15:37:02
OpenAI正在推出一种新的视频生成模型,它的名字叫Sora
OpenAI 正在推出一种新的视频生成模型,它的名字叫 Sora。这家人工智能公司称,Sora& 8221;可以根据文字说明创建逼真而富有想象力的场景& 8221;。文本到视频模式允许用户根据自己编写的提示创建长达一分钟的逼真
2025-06-22 15:13:02
AI模拟器拿下物理仿真新SOTA!|SIGGRAPHAsia2023最佳论文
机器学习让计算机图形学(CG)仿真更真实了!方法名为神经流向图(Neural Flow Maps,NFM),四个涡旋的烟雾也能精确模拟的那种:更为复杂的也能轻松实现:要知道,在这个AI应用满天飞的时代,CG物理仿真仍然是传
2025-06-22 14:49:02
多机位视频?OpenAISora可以一次性生成多个机位视频,正接受测试!
OpenAI 近日发布了 Sora 模型,可以根据用户输入的文本描述,生成一段视频内容,一经公布便引发网友热议。然而,Sora 的能力还不止于此。当地时间周六 OpenAI 研究科学家比尔・皮布尔斯 (Bill Peebles) 在 X 上晒
2025-06-22 14:25:02
【3.5深圳】向AIGC要增长,出海电商如何打造运营“新基建”?
向AIGC要增长,出海电商如何打造运营“新基建”?2024年3月5日 13:30 ~ 2024年3月5日 17:00 广东深圳南山区北京航空航天大厦(报名审核通过后告知详细地址)活动背景随着Al技术的快速发展,诸多以AI为驱动的新
2025-06-22 14:01:02
【2.25北京】Sora/ChatGPT/AIGC创新创业交流,AIGC行业/职业发展趋势交流
Sora ChatGPT AIGC创新创业交流AIGC行业 职业发展趋势交流2024年2月25日 15:00 ~ 2024年2月25日 17:00北京朝阳建国门外大街1号国贸商城南区地下一层SB133号(GIVENCHY旁)Peet& 8217;s Coffee皮爷咖啡(国贸店)报名
2025-06-22 13:37:02
今日热榜
科大讯飞“牵手”中国华能集团,打造人工智能赋能能源电力行业典型示范
2024-12-27 15:57:44人工智能赋能新质生产力发展,政协委员献策未来发展
2025-05-02 07:51:09人工智能驱动的服务模型加速故障排除
2025-05-02 08:51:19大模型的人才黑洞效应,还在持续,ResNet作者张祥雨,投身AI大模型
2025-05-02 09:51:29T3出行领行阡陌大模型国家备案与数字化智能化发展
2025-05-02 11:11:43T3出行领行阡陌大模型国家网信办算法备案通过
2025-05-02 11:31:45超威财报后暴跌,“AI服务器”真不赚钱?
2025-05-02 12:32:05AI学习机售价破万元引争议,物超所值还是智商税?
2025-05-02 13:32:18人工智能威胁之谜:或毁灭人类,概率仅为5%
2025-06-04 12:00:10AI学会欺骗,探索人工智能新边界
2025-06-04 13:12:10热门推荐