Meta通过博客文章宣布,他们正忙于开展“仅基于文本指令的受控图像编辑和基于扩散模型的文本到视频生成方法”的新研究。
简而言之,这意味着他们希望引入Facebook和Instagram生成人工智能工具。Meta正在开发的项目称为EmuVideo和EmuEdit。
什么是鸸鹋视频?
这个工具,顾名思义,就是用来生成视频的。Meta将其描述为“一种基于扩散模型的文本到视频生成的简单方法”。EmuVideo应响应各种输入:仅文本、仅图像以及文本和图像。Meta阐明,该过程分为两个步骤:首先,根据文本提示生成图像,然后根据文本和生成的图像生成视频。
我们最先进的方法易于实现,仅使用两个扩散模型即可以每秒16帧的速度生成512x512的四秒长视频。
什么是鸸鹋编辑?
这应该允许通过识别和生成任务进行“精确图像编辑”。正如Meta所说,生成式人工智能的使用通常是一个过程,而不是一项单一任务。
“EmuEdit能够通过指令进行自由形式的编辑,包括本地和全局编辑、删除和添加背景、颜色和几何变换、检测和分割等任务。当前的方法通常倾向于过度修改或在各种编辑任务上表现不佳。我们认为,主要目标不应该只是产生“可信”的图像。相反,模型应该专注于仅精确更改与编辑请求相关的像素。与当今许多生成式AI模型不同,EmuEdit精确遵循指令,确保输入图像中与指令无关的像素保持不变。例如,添加文本“Aloha!”时对于棒球帽来说,帽子本身应该保持不变”,Meta团队表示。
潜在的用例
对于Meta来说,未来的道路绝对是人工智能驱动的。
“虽然这项工作目前纯粹是基础研究,但潜在的用例是显而易见的。想象一下,您可以即时生成自己的动画贴纸或巧妙的GIF并发送到群聊中,而不必搜索完美的媒体来进行回复。或者编辑您自己的照片和图像,无需任何技术技能。或者通过动画静态照片为您的Instagram帖子增添一些额外的魅力。或者生成一些全新的东西”,博客文章总结道。