首页 >>  正文

horse-riding

来源:baiyundou.net   日期:2024-07-27

作者 | 李水青编辑 | 漠影

AI文生视频赛道正呈现出爆发之势!

继本月AI文生视频工具Pika 1.0爆火出圈、Gen-2效果大升级之后,斯坦福大学AI科学家李飞飞的团队也有了新动作!

智东西12月12日报道,今日,李飞飞及其学生团队与谷歌合作,推出了AI视频生成模型W.A.L.T(窗口注意力潜在Transformer ,Window Attention Latent Transformer)。

▲李飞飞在社交平台X发声转发

演示中,W.A.L.T可以通过自然语言提示,生成3秒长的每秒8帧、分辨率达512×896的逼真视频。

▲W.A.L.T的文生视频示例

W.A.L.T可以让一张静态图片变为一个的动态感十足的动图。

▲W.A.L.T的图生视频示例

W.A.L.T还可以用于生成3D摄像机运动的视觉效果。

▲W.A.L.T的3D视频生成示例

与爆火的Pika 1.0、Gen-2等同类工具类似,W.A.L.T采用扩散模型(Diffusion Model)技术。

同时,W.A.L.T的创新之处在于,其将Transformer架构与潜在扩散模型(Latent Diffusion Models,LDM)相结合,在一个共享潜在空间中压缩图像和视频,从而降低计算要求,提高训练效率。

根据论文,W.A.L.T在视频生成基准UCF-101和Kinetics-600、图像生成基准ImageNet测试上实现了SOTA(当前最优效果)。

项目地址:

https://walt-video-diffusion.github.io/

论文地址:

https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf

▲W.A.L.T相关论文截图

一、一句话生成3s视频,高逼真、强动态、3D视觉

W.A.L.T模型目前支持文生视频、图片转视频和3D相机拍摄视频三项能力,团队展示了一系列W.A.L.T生成示例。

1、文生视频:一句话生成高清逼真视频

输入一句简短的提示词,W.A.L.T模型就可以给出一个3秒长的逼真视频。以下是一些示例:

阳光明媚的下午,宇航员在喂鸭子。(An astronaut feeding ducks on a sunny afternoon.)

一头戴着生日帽的大象在海滩上行走。(An elephant wearing a birthday hat walking on the beach.)

皮卡丘在拳击场内戴着拳击手套。(Pikachu wearing boxing gloves, inside a boxing ring.)

一只可爱的熊猫在天空中滑板,越过雪山,充满梦幻和异想天开的气氛。(A cute panda skateboarding in the sky, over snow covered mountains, with a dreamy and whimsical atmosphere.)

一对情侣撑着雨伞走回家,倾盆大雨,油画风格。(A couple walking home with umbrellas, heavy downpour, oil painting style.)

2、图片转视频:用户提供图片,生成动态视频

这里的图片不是由W.A.L.T模型生成的,但动态效果是的,如下面的示例所示:

一个穿着全套太空服的宇航员骑着马,慢动作。(An astronaut in full space suit riding a horse, slow motion.)

一个巨大的机器人在雪里行走。(A giant robot walking through a snowy landscape.)

一只大泰迪熊慢镜头走在第五大道上。(A large teddy bear walking down 5th avenue, slow motion.)

3、3D相机拍摄视频:物体全景多细节展示

团队还展示了3D视频内容的生成,效果看起来就像一个3D摄像机拍摄而来。示例如下:

镜头转向盘子里的汉堡,工作室。(Camera turns around a burger on a plate, studio lighting, 360 rotation.)

摄像机绕着戴着一副耳机的南瓜,工作室灯光,360度旋转。(Camera turns around a pair of headphones around a pumpkin, studio lighting, 360 rotation.)

二、Transformer+潜在扩散模型,降低计算成本

Transformer在处理视频等高维数据时成本过高,潜在扩散模型(Latent diffusion models,LDM)可以降低计算要求。

因此,李飞飞学生团队与谷歌研发者共同提出了窗口注意力潜在Transformer(Window Attention Latent Transformer,W.A.L.T),这是一种基于Transformer的潜在视频扩散模型(latent video diffusion models,LVDM)方法。

当下,市面上的同类工具如Pika Labs推出的Pika 1.0、Runway的Gen-2,大都采用扩散模型(Diffusion Model),这是很长时间里图像和视频生成领域的主流技术路线。

W.A.L.T沿用这一主流技术路径,并在此基础上进行创新,主要实现以下两方面的升级:

1、使用局部窗口注意力,显著降低计算需求。

2、更有利的联合训练:空间层独立处理图像和视频帧,而时空层专注于时间关系建模。

据悉,这一架构主要的优势是它能同时在图像和视频数据集上进行训练。

这得益于W.A.L.T的两个关键决策:

1、使用因果编码器,在一个共享潜在空间中压缩图像和视频。

2、使用基于窗口注意力的Transformer架构,在潜在空间中联合时空生成建模,从而提高记忆和训练效率。

团队基于W.A.L.T训练了三个模型的级联(Cascade),用于文本到视频的生成任务,包括:一个基本的潜在视频扩散模型、两个视频超分辨率扩散模型。

在无需使用无分类器指导的情况下,W.A.L.T在视频生成基准UCF-101和Kinetics-600、图像生成基准ImageNet测试上实现了SOTA。

▲在基于kinect-600的帧预测和基于UCF-101的类条件生成的视频生成评价

三、AI生成视频爆发,巨头和创企都加码了

短短一个月时间里,AI生成视频赛道已成爆发态势,背后玩家不仅覆盖高校及科研团队,还有多家科技巨头及AI创企。

先是11月3日,视频生成领域的“老大哥”Runway宣布其AI视频生成工具Gen-2更新,分辨率提升至4K,大幅提高保真度和一致性。一周后,Runway又紧锣密鼓地发布了运动画笔功能,强化视频局部编辑能力。

Gen-2体验地址:

https://research.runwayml.com/gen2

▲Runway在X平台宣布其AI视频生成工具Gen-2更新

紧接着,国内外的科技巨头都加入了这一赛道。

11月16日,科技巨头Meta推出了文生视频模型Emu Video。Emu Video可以通过自然语言生成高质量视频,它将视频生成分为两个步骤,首先生成以文本为条件的图像,然后生成以文本和生成的图像为条件的视频。

项目主页地址:

emu-video.metademolab.com

11月18日,国内大厂字节跳动推出了文生视频模型PixelDance,提出了基于文本指导+首尾帧图片指导的视频生成方法,使得视频生成的动态性更强。

项目主页地址:

https://makepixelsdance.github.io

▲PixelDance的强动态效果演示

一些AI创企的做法则更激进,直接扔出体验体验链接,引爆消费级市场。

11月29日,AI创企Pika Labs推出网页版Pika 1.0,一时间在消费级市场火出圈。Pika 1.0能根据文字图片,生成一段3s的流畅视频;它还支持用户圈定视频里的元素,进行视频局部编辑。Pika仅仅开放半年已有超50万用户,目前还有更多用户排队申请体验网页版Pika 1.0产品。Pika是一家创立于今年4月的创企,近期刚刚宣布了5500万美元融资。

Pika 1.0体验地址:

https://pika.art/waitlist

▲Pika Labs官宣网页版Pika 1.0上线

在图像领域深耕已久的Stability AI也不示弱。11月29日,Stability AI推出了名为Stable Video Diffusion的视频生成模型,提供SVD和SVD-XT两个模型。其中,SVD将静止图像转换为14帧的576×1024视频,而SVD-XT在相同的架构下将帧数提升至24。这两者都能以每秒3到30帧的速度生成视频,目前已进入“研究预览”阶段。

官方演示视频:

https://www.youtube.com/watch?v=G7mihAy691g

除此之外,国内美图公司发布的AI视觉大模型MiracleVision的4.0版本,刚刚新增了AI视频两大能力;来自中国科学院等机构的研究者在11月21日提出了一个无需训练的文本生成视频框架GPT4Motion;阿里的研究团队在最新论文中提出了新框架Animate Anyone,支持从静态图像AI生成动态视频。

商业化产品集中爆发,AI生成视频技术似乎正迎来一个“ChatGPT时刻”。

结语:技术和产品迭代扎堆,AI视频生成赛道爆发

短短一个月时间里,我们看到AI视频生成的技术和产品加速爆发,科研机构、AI创企和科技巨头都出动了。

仅仅一年之前,ChatGPT以迅雷不及掩耳之势走向全球,为文本创作领域带来重大的变革,并掀起了全球范围内的“百模大战”。

一年后的今天,AI视频生成赛道或许迎来一个新的“ChatGPT时刻”,国内外的玩家都已经“开卷”了,推动多模态大模型的升维竞赛打响。

","gnid":"9947bd53acb398d7e","img_data":[{"flag":2,"img":[{"desc":"","height":"383","title":"","url":"https://p0.ssl.img.360kuai.com/t01c7524259b4852780.jpg","width":"900"},{"desc":"","height":909,"title":"","url":"https://p0.ssl.img.360kuai.com/t013ce41550cb1ee893.jpg","width":1000},{"desc":"","height":448,"s_url":"https://p0.ssl.img.360kuai.com/t012071753222272c01_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01ad8d041168b2544d.gif","width":782},{"desc":"","height":448,"s_url":"https://p0.ssl.img.360kuai.com/t01200d768308dad402_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t0153c203570bace8aa.gif","width":782},{"desc":"","height":494,"s_url":"https://p0.ssl.img.360kuai.com/t01d9ea99f78c3c6361_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01d5c0fdba2c32d490.gif","width":864},{"desc":"","height":792,"title":"","url":"https://p0.ssl.img.360kuai.com/t015b8bb37360c4cdee.jpg","width":1000},{"desc":"","height":496,"s_url":"https://p0.ssl.img.360kuai.com/t01a25b5196ed2553d6_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01bd96c16c1c1c6ef9.gif","width":822},{"desc":"","height":496,"s_url":"https://p0.ssl.img.360kuai.com/t01ffffd6563b1052db_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01ec7e92f1886e4d6f.gif","width":822},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t01b44ff789ebfe8a95_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01b44ff789ebfe8a95.gif","width":"822"},{"desc":"","height":496,"s_url":"https://p0.ssl.img.360kuai.com/t017431287cf22a9490_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01e6af6bab02625db1.gif","width":822},{"desc":"","height":496,"s_url":"https://p0.ssl.img.360kuai.com/t01ea4ddf5041b87bac_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t018b43ca0206bf7a22.gif","width":822},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t015eb0df5cd8000d5b_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t015eb0df5cd8000d5b.gif","width":"822"},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t01ce63b365e2d106aa_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01ce63b365e2d106aa.gif","width":"822"},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t015a95d121018415bf_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t015a95d121018415bf.gif","width":"822"},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t018ef2e02b6bb16028_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t018ef2e02b6bb16028.gif","width":"822"},{"desc":"","height":"496","s_url":"https://p0.ssl.img.360kuai.com/t015f4d3b22db2a00f5_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t015f4d3b22db2a00f5.gif","width":"822"},{"desc":"","height":"813","title":"","url":"https://p0.ssl.img.360kuai.com/t0152f9f05621f0ddf0.jpg","width":"1000"},{"desc":"","height":"476","title":"","url":"https://p0.ssl.img.360kuai.com/t0199edf884db520019.jpg","width":"1000"},{"desc":"","height":"645","title":"","url":"https://p0.ssl.img.360kuai.com/t01552966d809e6102b.jpg","width":"1000"},{"desc":"","height":"1007","title":"","url":"https://p0.ssl.img.360kuai.com/t01a6fe903c1f834b4f.jpg","width":"1000"},{"desc":"","height":"596","title":"","url":"https://p0.ssl.img.360kuai.com/t01e39765ad3b2f557f.jpg","width":"1000"},{"desc":"","height":"600","s_url":"https://p0.ssl.img.360kuai.com/t01174740f82ebd5c76_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01174740f82ebd5c76.gif","width":"600"},{"desc":"","height":"1384","title":"","url":"https://p0.ssl.img.360kuai.com/t01205db97a0f0155c5.jpg","width":"1316"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1702386600000,"pure":"","rawurl":"http://zm.news.so.com/35605d49ed3c7fde03af7f7259ff68e0","redirect":0,"rptid":"ab8acf495860b424","rss_ext":[],"s":"t","src":"智东西","tag":[{"clk":"ktechnology_1:谷歌","k":"谷歌","u":""},{"clk":"ktechnology_1:斯坦福","k":"斯坦福","u":""}],"title":"拳打Pika脚踢Gen-2!斯坦福李飞飞联合谷歌,AI文生视频大模型炸圈

伍吴炕655什么是合成词,怎样判断合成词? -
勾倩真18197257426 ______ 定义 在英语中,合成词是由两个单词连在一起合成一个新词.一般是前一个词修饰或限制后一个词. 例: 构成名词  1、名词+名词:一般来讲,构成的词还是名词.如:website,homework,basketball. 2、名词+动词: snowfall 下雪 3、名词+动词-ing : horse-riding骑马 4、名词+介词+名词: daughter-in-law儿媳 5、动词-ing+名词: waiting-room候车室 6、形容词+名词: greenhouse温室 7、副词+名词: income收入

伍吴炕655骑马的英语翻译 骑马用英语怎么说 -
勾倩真18197257426 ______ 骑马Riding骑马Riding

伍吴炕655英语中合成词的定义是什么? -
勾倩真18197257426 ______ 英语中很多单词是通过合成的方式构成的,他们叫做合成词,常见合成词有合成名词、合成动词、合成形容词等几种类型. 1.合成名词 名词+名词: football足球 名词+动词: snowfall 下雪 名词+动词-ing : horse-riding骑马 名词+介词+名词: ...

伍吴炕655英语中表示8个方向的词是什么? -
勾倩真18197257426 ______ 英语中表示8个方向的词分别为:east东,south南,west西,north北,northeast东北,southeast东南,northwest西北,southwest西南. 其属于合成词构词法,即名词加名词构成新名词. 构词方法 一、构成名词 1、名词+名词:website,...

伍吴炕655went horse - riding为什么不用to -
勾倩真18197257426 ______ 我不理解为啥非要用go to 啊 这个是去到..地方.比如go to school 去学校. go horse-riding 就是去骑马的意思.

伍吴炕655合成词中的 名词+动词ing形式 是怎么一回事? -
勾倩真18197257426 ______[答案] 名词+动词:snowfall 下雪名词+动词-ing :horse-riding骑马名词+介词+名词:daughter-in-law儿媳动词-ing+名词:waiting-room候车室形容词+名词:greenhouse温室副词+名词:income收入介词+名词:afternoon下午过...

伍吴炕655两个英文单词之间加一杠是什么意思? -
勾倩真18197257426 ______ 两个普通的单词用一杠(语法上称为连字符)连接之后就变成了一个词,词性多为形容词a five-year-old boy 一个五岁的男孩a newly-built building 一幢新建的楼房如果不加连字符,就不能作为形容词来使用.

伍吴炕655We did some boating and we did some horse - riding是什么意思?
勾倩真18197257426 ______ 我们划过船并骑过马.

伍吴炕655合成词中的 名词+动词ing形式 是怎么一回事?大神们帮帮忙 -
勾倩真18197257426 ______ 第一种,be doing(现在进行时) 第二种,固定短语:如:like doing, enjoy doing, can't help doing等等

伍吴炕655什么叫“合成词”? -
勾倩真18197257426 ______[答案] 英语中的合成词 定义 在英语中,合成词是由两个单词连在一起合成一个新词.一般是前一个词修饰或限制后一个词. 构成名... 如:website,homework,basketball. 2、名词+动词:snowfall 下雪 3、名词+动词-ing :horse-riding骑马 4、名词+介词+名词...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024