首页 >>  正文

上下同字谜

来源:baiyundou.net   日期:2024-08-31

克雷西 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

AI画的玛丽莲·梦露,倒转180°后,竟然变成了爱因斯坦?!

这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!

哪怕是截然不同的对象也可以,例如一位男子,经过反色处理,就神奇地转变成一名女子:

就连单词也能被翻转出新效果,happy和holiday只在一旋转间:

原来,这是来自密歇根大学的一项“视觉字谜”新研究,论文一发出就在Hacker News上爆火,热度飙至近800。

英伟达高级AI科学家Jim Fan赞叹称:

这是我近期见到最酷的扩散模型!

还有网友感叹称:

这让我想到了从事分形压缩工作的那段经历。我一直认为它是纯粹的艺术。

要知道,创作一幅经过旋转、反色或变形后呈现出新主题的绘画作品,怎么也需要画家对色彩、形状、空间具备一定的理解能力。

如今连AI也能画出这样的效果,究竟是如何实现的?实际效果是否有这么好?

我们上手试玩了一番,也探究了一下背后的原理。

Colab就能直接试玩

我们用这个模型绘制了一组Lowpoly风格的画,让它正着看是一座山,反过来则是城市的天际线。

同时,我们让ChatGPT(DALL·E-3)也试着画了一下,结果除了清晰度高一些之外似乎就没什么优势了。

而作者自己展示的效果则更加丰富,也更为精彩。

一座雪后的山峰,旋转90度就变成了一匹马;一张餐桌换个角度就成了瀑布……

最精彩的还要属下面这张图——从上下左右四个角度看,每个方向的内容都不一样。

(这里先考验一下各位读者,你能看出这四种动物分别是什么吗?)

以兔子为初始状态,每逆时针旋转90度,看到的依次是鸟、长颈鹿和泰迪熊。

而下面这两张图虽然没做到四个方向每个都有“新内容”,但还是做出了三个不同的方向。

除了旋转,它还可以把图像切割成拼图,然后重组成新的内容,甚至是直接分解到像素级。

风格也是千变万化,水彩、油画、水墨、线稿……应有尽有。

那么这个模型去哪里能玩呢?

为了能让更多网友体验到这个新玩具,作者准备了一份Colab笔记。

不过免费版Colab的T4不太能带动,V100偶尔也会显存超限,要用A100才能稳定运行。

甚至作者自己也说,如果谁发现免费版能带动了,请马上告诉他。

言归正传,第一行代码运行后会让我们填写Hugging Face的令牌,并给出了获取地址。

同时还需要到DeepFloyd的项目页面中同意一个用户协议,才能继续后面的步骤。

准备工作完成后,依次运行这三个部分的代码完成环境部署。

需要注意的是,作者目前还没有给模型设计图形界面,效果的选择和提示词的修改需要我们手动调整代码。

作者在笔记中放了三种效果,想用哪个就取消注释(去掉那一行前面的井号),并把不用的删除或注释掉(加上井号)。

这里列出的三种效果不是全部,如果想用其他效果可以手动替换代码,具体支持的效果有这些:

修改好后要运行这行代码,然后提示词也是如法炮制:

修改好并运行后,就可以进入生成环节了,这里也可以对推理步数和指导强度进行修改。

需要注意的是,这里一定要先运行image_64函数生成小图,然后再用后面的image变成大图,否则会报错。

做个总结的话,我们体验后的一个感觉是,这个模型对提示词的要求还是比较高的。

作者也意识到了这一点,并给出了一些提示词技巧:

△机翻,仅供参考

那么,研究团队是如何实现这些效果的呢?

“糅合”多视角图像噪声

首先来看看作者生成视错觉图像的关键原理。

为了让图像在不同视角下,能根据不同的提示词呈现出不同的画面效果,作者特意采用了“噪声平均”的方法,来进一步将两个视角的图像糅合在一起。

简单来说,扩散模型(DDPM)的核心,是通过训练模型将图像“打碎重组”,基于“噪点图”来生成新图像:

所以,要想让图像在变换前后,能根据不同提示词生成不同图像,就需要对扩散模型的去噪过程进行改动。

简单来说,就是对原始图像和变换后的图像,同时用扩散模型进行“打碎”处理做成“噪点图”,并在这个过程中将处理后的结果取平均,计算出一个新的“噪点图”。

随后,基于这个新的“噪点图”生成的图像,就能在经过变换后呈现出想要的视觉效果。

当然,这个变换的图像处理过程,必须要是正交变换,也就是我们在展示效果中看到的旋转、变形、打碎重组或反色等操作。

具体到扩散模型的选择上,也有要求。

具体来说,这篇论文采用了DeepFloyd IF来实现视错觉图像生成。

DeepFloyd IF是一个基于像素的扩散模型,相比其他扩散模型,它能直接在像素空间(而非潜在空间或其他中间表示)上进行操作。

这也让它能更好地处理图像的局部信息,尤其在生成低分辨率图像上有所帮助。

这样一来,就能让图像最终呈现出视错觉效果。

为了评估这种方法的效果,作者们基于GPT-3.5自己编写了一个50个图像变换对的数据集。

具体来说,他们让GPT-3.5随机生成一种图像风格(例如油画风、街头艺术风),然后再随机生成两组提示词(一个老人、一个雪山),并交给模型生成变换画。

这是一些随机变换生成的结果:

随后,他们也拿CIFAR-10进行了一下不同模型间图像生成的测试:

随后用CLIP评估了一下,结果显示变换后的效果和变换之前的质量一样好:

作者们也测试了一下,这个AI能经得起多少个图像块的“打碎重组”。

事实证明,从8×8到64×64,打碎重组的图像效果看起来都不错:

对于这一系列图像变换,有网友感叹“印象深刻”,尤其是男人转变成女人的那个图像变换:

我看了大概有10遍左右。

还有网友已经想把它做成艺术作品挂在墙上了,或是使用电子墨水屏:

但也有专业的摄影师认为,现阶段AI生成的这些图像仍然不行:

仔细观察的话,会发现细节经不起推敲。敏锐的眼睛总是能分辨出糟糕的地方,但大众并不在意这些。

那么,你觉得AI生成的这一系列视错觉图像效果如何?还能用在哪些地方?

参考链接:

[1]https://news.ycombinator.com/item?id=38477259

[2]https://arxiv.org/pdf/2311.17919.pdf

[3]https://twitter.com/DrJimFan/status/1730253638935920738

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"9e87d1e8eb8ec0620","img_data":[{"flag":2,"img":[{"desc":"","height":308,"s_url":"https://p0.ssl.img.360kuai.com/t012c118be5da42f065_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t017e609e6dca3d6bc5.gif","width":254},{"desc":"","height":310,"s_url":"https://p0.ssl.img.360kuai.com/t01714719025214ff1d_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01c90db39b34c19b3f.gif","width":250},{"desc":"","height":198,"s_url":"https://p0.ssl.img.360kuai.com/t018d2fa385c17f9429_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t017f51a11c16575551.gif","width":158},{"desc":"","height":"230","title":"","url":"https://p0.ssl.img.360kuai.com/t0103b99a02dd31021f.jpg","width":"974"},{"desc":"","height":474,"s_url":"https://p0.ssl.img.360kuai.com/t0132131902ac7a2407_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t0193092be755768603.gif","width":584},{"desc":"","height":"345","title":"","url":"https://p0.ssl.img.360kuai.com/t01fd447a35b6abf262.jpg","width":"1080"},{"desc":"","height":"504","title":"","url":"https://p0.ssl.img.360kuai.com/t0105a28b18b8327d09.jpg","width":"1026"},{"desc":"","height":"996","title":"","url":"https://p0.ssl.img.360kuai.com/t0174cd0a717fa283b5.jpg","width":"1080"},{"desc":"","height":344,"s_url":"https://p0.ssl.img.360kuai.com/t01bd169e5a820e484e_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t010910056eb6f534fe.gif","width":666},{"desc":"","height":"1112","title":"","url":"https://p0.ssl.img.360kuai.com/t01bdca371b35930285.jpg","width":"1104"},{"desc":"","height":556,"s_url":"https://p0.ssl.img.360kuai.com/t01460aa66650a1cd05_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01b22891588e96663e.gif","width":552},{"desc":"","height":"580","title":"","url":"https://p0.ssl.img.360kuai.com/t017e8479bf48f1c802.jpg","width":"996"},{"desc":"","height":"344","s_url":"https://p0.ssl.img.360kuai.com/t0148d6eaa0a1f2b98e_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t0148d6eaa0a1f2b98e.gif","width":"666"},{"desc":"","height":"751","title":"","url":"https://p0.ssl.img.360kuai.com/t01574c8362c1b846bc.jpg","width":"1080"},{"desc":"","height":"368","title":"","url":"https://p0.ssl.img.360kuai.com/t01c7b9f912635fb67b.jpg","width":"804"},{"desc":"","height":"247","title":"","url":"https://p0.ssl.img.360kuai.com/t01ff1eb0a7ce44462e.jpg","width":"1080"},{"desc":"","height":"884","title":"","url":"https://p0.ssl.img.360kuai.com/t01fd775ebf35ccc3a9.jpg","width":"1030"},{"desc":"","height":"529","title":"","url":"https://p0.ssl.img.360kuai.com/t011ac75379c74f3790.jpg","width":"1080"},{"desc":"","height":"197","title":"","url":"https://p0.ssl.img.360kuai.com/t013aa0c0f974f93e07.jpg","width":"1080"},{"desc":"","height":"916","title":"","url":"https://p0.ssl.img.360kuai.com/t01ee3289b2e464b4c0.jpg","width":"1164"},{"desc":"","height":"293","title":"","url":"https://p0.ssl.img.360kuai.com/t010247cf74b35935fe.jpg","width":"1080"},{"desc":"","height":"610","title":"","url":"https://p0.ssl.img.360kuai.com/t010c2a0af492bfbe9b.jpg","width":"1080"},{"desc":"","height":"922","title":"","url":"https://p0.ssl.img.360kuai.com/t01c9726636a1e88d82.jpg","width":"1080"},{"desc":"","height":"163","title":"","url":"https://p0.ssl.img.360kuai.com/t0122c8fc59613a3026.jpg","width":"1080"},{"desc":"","height":"455","title":"","url":"https://p0.ssl.img.360kuai.com/t014c2ccdf118df15db.jpg","width":"1080"},{"desc":"","height":"558","title":"","url":"https://p0.ssl.img.360kuai.com/t01a86d77db36573860.jpg","width":"1080"},{"desc":"","height":"1088","title":"","url":"https://p0.ssl.img.360kuai.com/t014a4774421e618c10.jpg","width":"926"},{"desc":"","height":"736","title":"","url":"https://p0.ssl.img.360kuai.com/t015d6417bd148ff15d.jpg","width":"986"},{"desc":"","height":"948","title":"","url":"https://p0.ssl.img.360kuai.com/t01ebfb1528c5b1c698.jpg","width":"1014"},{"desc":"","height":"599","title":"","url":"https://p0.ssl.img.360kuai.com/t015ec99114bed0ce15.jpg","width":"1080"},{"desc":"","height":"447","title":"","url":"https://p0.ssl.img.360kuai.com/t01961e8dd19dad355e.jpg","width":"1080"},{"desc":"","height":"727","title":"","url":"https://p0.ssl.img.360kuai.com/t01762a3b32dfff0d51.jpg","width":"1080"}]}],"original":0,"pat":"zzc,art_src_3,sexamb,fts0,sts0","powerby":"pika","pub_time":1701579120000,"pure":"","rawurl":"http://zm.news.so.com/f4735e819736ff6d6518d601c85ed57b","redirect":0,"rptid":"bcba4c42a56d901f","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"kscience_1:爱因斯坦","k":"爱因斯坦","u":""},{"clk":"kscience_1:英伟达","k":"英伟达","u":""},{"clk":"kscience_1:科学家","k":"科学家","u":""}],"title":"AI视觉字谜爆火!梦露秒变爱因斯坦,英伟达AI科学家:近期最酷

庄包霞2367上下相同左右为1有头为头无头为大猜1字是甚么字
离寇该13953224206 ______ 是“天”字.“天字去掉上面的1横为“大”字,上面与下面都是1横.左侧的1撇,右侧的1捺可以是斜着的“1”.亲,不知我的回答还满意吗?若不满意请提出您的建议吧.

庄包霞2367超难字谜谁能想出快快!
离寇该13953224206 ______ 上下合,猜一个字 答案是:卡 上下串通,猜一个字 答案是:卡 上下难分,猜一字 答案是:卡 久雷不雨,猜一字 答案是:田 千言万语,猜一字 答案是:够 千里姻缘一线...

庄包霞2367叠字字谜 1.上上下下 2.加加减减 3.先先后后 -
离寇该13953224206 ______[答案] 卡 圭 告

庄包霞2367课外趣题:(猜一猜,各打一个字):上下一致()水上人家()空中飞人()巧夺天工() -
离寇该13953224206 ______ 上下一致(卡)水上人家(沪)空中飞人(会)巧夺天工(人)

庄包霞2367求关于方向的字谜,就是答案是东西南北啊或者上下左右的字谜RT 不要方位字谜,也就是答案是一个字,这个字是一个方向的字谜. -
离寇该13953224206 ______[答案] 休把旁人抬太高(东) 古钱串起缺一枚(南)酒后一别到黄昏(西)乘人不备背朝南(北)

庄包霞2367猜字迷 1.文武双全 迷底是:2.上下不分 迷底是:3.你我各一半猜字迷1.文武双全 迷底是:2.上下不分 迷底是:3.你我各一半 迷底是: -
离寇该13953224206 ______[答案] 斌、卡、伐 亲,新的1年开始,祝好事接2连3,心情4季如春,生活5颜6色,7彩缤纷,偶尔8点小财,烦恼抛到9霄云外!

庄包霞2367请大家猜数字谜;上下同,不是横,把腰挺,把腰弓,猜四位数字
离寇该13953224206 ______ 8193

庄包霞2367有什么左右相同的字还有上下相同的字 -
离寇该13953224206 ______ 炎 吕、昌、多

庄包霞2367一字谜,1、一来就能分上下.2、一到就坏.3、一飞就是一天.4、一走就了. -
离寇该13953224206 ______[答案] 一来能分上下( 卜 ) 一到就坏( 夕 ) 一飞就是一天( 目 ) 一走就了( 子 ) 同学您好,如果问题已解决,记得采纳哦~~~您的采纳是对我的肯定~ 祝您策马奔腾哦~

庄包霞2367上下相同,左右一样,开口难言,(猜一字)
离寇该13953224206 ______ 是个哑字

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024