Google Veo

简介

Google Veo是我们迄今为止最强大的视频生成模型。它可以生成超过一分钟的高质量 1080p 分辨率视频，具有多种电影和视觉风格。

它准确地捕捉提示的细微差别和基调，并提供前所未有的创意控制水平——理解各种电影效果的提示，例如延时或风景的空中拍摄。

我们的视频生成模型将有助于创建使每个人都可以进行视频制作的工具。无论您是经验丰富的电影制作人、有抱负的创作者，还是希望分享知识的教育家，Google Veo 都能为讲故事、教育等带来新的可能性。

在接下来的几周内，其中一些功能将通过 Labs.google 上的新实验工具 VideoFX 向选定的创作者开放。您现在可以加入候补名单。

将来，我们还将把 Google Veo 的一些功能引入 YouTube Shorts 和其他产品。

FireShot Capture 3000 - 我明白了 - 谷歌 DeepMind --- Veo - Google DeepMind - deepmind.google.jpg

Google Veo功能特征：

更好地理解语言和视觉：

为了产生连贯的场景，生成视频模型需要准确地解释文本提示并将这些信息与相关的视觉参考相结合。

凭借对自然语言和视觉语义的深入理解，Google Veo 生成紧跟提示的视频。它准确地捕捉短语中的细微差别和语气，在复杂的场景中呈现复杂的细节。

电影制作控制：

当同时给出输入视频和编辑命令时，例如将皮划艇添加到海岸线的航拍照片中，Google Veo 可以将此命令应用于初始视频并创建新的编辑视频。

此外，它还支持遮罩编辑，当您向视频和文本提示添加遮罩区域时，可以更改视频的特定区域。

Google Veo 还可以生成一个视频，其中包含图像作为输入以及文本提示。通过提供参考图像与文本提示相结合，它可以让 Google Veo 生成遵循图像风格和用户提示说明的视频。

该模型还能够制作视频剪辑并将其延长至 60 秒甚至更长。它可以通过单个提示来完成此操作，也可以通过提供一系列提示来完成此操作，这些提示一起讲述一个故事。

视频帧之间的一致性

保持视觉一致性对于视频生成模型来说是一个挑战。角色、物体甚至整个场景可能会在帧之间闪烁、跳跃或意外变形，从而破坏观看体验。

Google Veo 的尖端潜在扩散变压器减少了这些不一致的出现，使角色、物体和风格保持在适当的位置，就像在现实生活中一样。

基于多年的视频生成研究

Google Veo 建立在多年的生成视频模型工作基础上，包括生成查询网络 (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，以及我们的 Transformer 架构和 Gemini。

为了帮助 Google Veo 更准确地理解和遵循提示，我们还在训练数据中的每个视频的字幕中添加了更多详细信息。为了进一步提高性能，该模型使用高质量的压缩视频表示（也称为潜在图像），因此也更加高效。这些步骤提高了整体质量并减少了生成视频所需的时间。