事实上通过文本生成短视频并不是什么新鲜事情,今年早些时候,清华大学和北京人工智能研究院的一组研究人员发布了 CogVideo,它可以将文本翻译成相当高保真的短片。但 Imagen Video 似乎是对先前最先进技术的重大飞跃,显示了现有系统难以理解的动画字幕的能力。
马修·古兹迪亚(Matthew Guzdial)通过邮件表示:“这显然是重大改进。正如您从视频示例中看到的那样,即使通信团队选择了最佳输出,仍然存在奇怪的模糊和人为因素。所以这绝对不会很快直接用于动画或电视中。但它或类似的东西肯定可以嵌入工具中,以帮助加快某些事情的速度”。
Imagen Video 建立在 Google 的 Imagen 之上,这是一个可与 OpenAI 的 DALL-E 2 和 Stable Diffusion 相媲美的图像生成系统。 Imagen 是所谓的“扩散”模型,通过学习如何“破坏”和“恢复”许多现有数据样本来生成新数据(例如视频)。当它输入现有样本时,该模型可以更好地恢复之前破坏的数据以创建新作品。
最新文章