首页 >>  正文

压缩比越高图像越清晰

来源:baiyundou.net   日期:2024-09-25

Alex 发自 凹非寺

量子位 | 公众号 QbitAI

免费开源的Stable Diffusion又被玩儿出了新花样:

这次是被拿来压缩图片

Stable Diffusion不仅能把同一张原图缩到更小,而且表现还肉眼可见地优于JPEG和WebP

对于同一张原图,Stable Diffusion压缩出来的图像不仅有更多细节,而且压缩伪影也变少了。

但用Stable Diffusion来压缩图的软件工程师Matthias Bühlmann(咱们就叫他MB哥吧)也指出,这种方式也有明显的局限性。

因为这不太擅长处理人脸和文字等,有时甚至会在解码扩展回去后,幻化出原图中不存在的特征。

比如像这样(效果可以让人吓一跳)

△左为原图,右为Stable Diffusion压缩再扩展的生成图

不过,话说回来——

Stable Diffusion是如何压缩图片的?

要讲清楚Stable Diffusion怎么压缩图片,不妨从Stable Diffusion的一些重要工作原理说起。

Stable Diffusion是一种特殊的扩散模型,叫作潜在扩散 (Latent Diffusion)

和标准扩散(Standard Diffusion )不同,潜在扩散在维度较低的隐空间(Latent Space)上进行扩散过程,而不使用实际的像素空间。

也就是说,隐空间的表示结果是一些分辨率较低的压缩图,不过这些图有较高的精确度。

这里说一下,图像的分辨率和精度是两回事儿。分辨率是表示一张图数据量多少的参数,而精度是反映结果与真值接近程度的量。

就拿这个骆驼的大头照来举例:原图大小768KB,分辨率为512×512,精度为3×8位。

用Stable Diffusion压缩到4.98KB后,分辨率减少为64×64,而精度反而提升到4×32位了。

所以看起来,Stable Diffusion的压缩图和原图相比,差别不大。

如果再进一步具体而言而话,Stable Diffusion这种潜在扩散模型有三个主要组成部分

VAE (Variational Auto Encoder,变分自编码器)U-Net,和文本编码器 (Text-encoder)

不过在这项压缩图像的测验中,文本编辑器没什么用。

发挥主要作用的还是VAE,它由两部分组成:一个编码器和一个解码器。

所以,VAE可以将一张图从图像空间中,编码再解码得到一些潜在空间表示(Latent space representation)

MB哥发现,VAE的解码功能对于量化潜在表示来说,表现非常稳定。

通过缩放、拖拽和重新映射,将潜在表示从浮点量化为8位无符号整数,就可以得到不怎么失真的压缩图了:

首先将latents量化为8位无符号整数,此时图像大小为64×64×4×8Bit=16 kB(原图大小512×512×3×8Bit=768 kB)

然后再运用调色板(Palette)和抖动(Dither),进一步使数据缩小到5kB,同时还提高了图像的还原度。

作为一位严谨的程序员,MB哥除了通过肉眼观察,还对图像质量进行了数据分析。

不过,从图像质量评估的两项重要指标PSNR(峰值信噪比)和SSIM(结构相似性)来看,Stable Diffusion的压缩结果并没有比JPG和WebP好到哪儿去。

另外,当把潜在表示重新解码扩展到原图分辨率时,虽然图像的主要特征仍然可见,但VAE也会将高分辨率的特征赋予这些像素值。

用大白话讲,就是重建的图像往往和原图不一样,里面夹杂了不少新生成的“鬼畜”特征。

让我们再来回顾一下这张图:

虽然用Stable Diffusion来压缩图确实还存在不少问题,但用MB哥的话来说,其效果还是很惊艳的,非常有发展前途。

现在MB哥已经把相关代码放到了Google Colab上,感兴趣的朋友可以仔细看看~

传送门

https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing

参考链接:

[1]https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/

[2]https://matthias-buehlmann.medium.com/stable-diffusion-based-image-compresssion-6f1f0a399202

[3]https://huggingface.co/blog/stable_diffusion

— 完 —

量子位 QbitAI · 头条号签约

","force_purephv":"0","gnid":"90860cddc87e7ec13","img_data":[{"flag":2,"img":[{"desc":"","height":"806","title":"","url":"https://p0.ssl.img.360kuai.com/t01cbb54a265104e750.jpg","width":"1080"},{"desc":"","height":"607","title":"","url":"https://p0.ssl.img.360kuai.com/t017f906b9e30004b94.jpg","width":"1080"},{"desc":"","height":"676","title":"","url":"https://p0.ssl.img.360kuai.com/t01733d8951d2747adb.jpg","width":"1372"},{"desc":"","height":"399","title":"","url":"https://p0.ssl.img.360kuai.com/t01f5cc27299580d52b.jpg","width":"1080"},{"desc":"","height":"595","title":"","url":"https://p0.ssl.img.360kuai.com/t0150847c0a79a8fb1c.jpg","width":"1080"}]}],"original":0,"pat":"qgc,art_src_3,fts0,sts0","powerby":"hbase","pub_time":1664440320000,"pure":"","rawurl":"http://zm.news.so.com/a8959cb5943c6a03814666301dad6d61","redirect":0,"rptid":"fbb45198bb7919bb","s":"t","src":"量子位","tag":[],"title":"Stable Diffusion还能压缩图:比JPEG更小更清晰,但千万别试人脸

金蚁宏2034相同的一幅相片.png 格式与 jpeg格式比较.哪种更清晰?哪种图片质量更好? -
甫永帖19362397427 ______ PNG是20世纪90年代中期开始开发的图像文件存储格式,其目的是试图替代GIF和TIFF文件格式,同时增加一些GIF文件格式所不具备的特性.流式网络...

金蚁宏2034图片压缩的原理???? -
甫永帖19362397427 ______ 首先说明 jpeg图片: JPEG是joint Photographic Experts Group(联合图像专家组)的缩写,文件后辍名为".jpg"或".jpeg",是最常用的图像文件格式,由一个软件开发联合会组织制定,是一种有损压缩格式,能够将图像压缩在很小的储存空...

金蚁宏2034pg.png格式怎么使用 -
甫永帖19362397427 ______ ps么,你说的pg应该是.jpg吧 jpg:是后缀名,jpeg既可作为后缀名,又能代表文件格式.JPEG格式的优点之一是可以压缩图像数据,JPEG是一种有损压缩格式,能够将图像压缩在很小的储存空间,图像中重复或不重要的资料会被丢失,因此...

金蚁宏2034gif、bmp、jpg三种图像的格式的区别 -
甫永帖19362397427 ______ bmp是位图,对图像不进行任何压缩.所以图片显示的非常清晰,但是文件比较大. .jpg(jpeg)文件,采用了比较先进的压缩技术,所以文件比较小但是能保证图片显示的清晰和艳丽. .gif压缩比较大,文件较小,由于这种格式的本意是用来交换图片...

金蚁宏2034问一下各种图片格式的区别~ -
甫永帖19362397427 ______ JPEG:应用最广泛的图片格式之一,它采用一种特殊的有损压缩算法,将不易被人眼察觉的图像颜色删除,从而达到较大的压缩比(可达到2:1甚至40:1),所以“身材娇小,容貌姣好”,特别受网络青...

金蚁宏2034监控摄像机500、700线什么意思? -
甫永帖19362397427 ______ 监控摄像机“500、700线”定义应该是“水平方向上每屏幕长度的像素数”. 简单地说,就是沿屏幕的水平方向量取一段长度,使其等于画面的垂直高度,其中所含的像素数就等于用电视线数表达的分辨率,我们通常所用的测试图就是根据这...

金蚁宏2034BMPJPG两种图象格式的区别
甫永帖19362397427 ______ ■先说BMP、JPG图片文件格式各自的特点 系统下的标准位图格式,使用很普遍.其结构简单,未经过压缩,一般图像文件会比较大.它最大的好处就是能被大多数软件“接受”,可称为通用格式.JPEG:也是应用最广泛的图片格式之一,它采用一种特殊的有损压缩算法,将不易被人眼察觉的图像颜色删除,从而达到较大的压缩比(可达到2:1甚至40:1),所以“身材娇小,容貌姣好”,特别受网络青睐.■再说BMPJPG两种图片文件格式的区别①前者文件较大,占用空间大;后者“身材小”.②前者”知己”多,后者“知己”要少.③前者较后者而言,网络上少见.

金蚁宏2034数码相机的像素和照片的清晰度有关系吗? -
甫永帖19362397427 ______ 清晰度不好说.主要看画质,画质主要由感光元件的尺寸和质量已经镜头素质决定的.感光元件尺寸越大,同像素下画质越好.如果像素增加而感光元件不变的话,反而会导致画质下降.所以像素并不是越大越好,与感光元件搭配合理才行.单反相机的感光元件比普通卡片机尺寸要大几倍,多数单反相机的像素并不必普通数码相机更大,但画质却好的多,也是这个原因.

金蚁宏2034jpg是什么意思?
甫永帖19362397427 ______ jpg是常用的图像文件格式的后缀名,说的简单点就是静态压缩格式.jpg后缀一般在形容词后面,文字+jpg的描述形式是用文字给出一种画面感,更显生动.jpg是JPEG图...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024