首页 >>  正文

吃汉堡合集

来源:baiyundou.net   日期:2024-09-21

报告出品方:浙商证券

以下为报告原文节选

------

1 多模态AI综述

1.1 AI模型:必将从单模态走向多模态,实现复杂场景下的智能决策



1.2 2024年,有望出现多模态领域类ChatGPT的爆款应用



1.3大模型行业规模持续增长,市场前景广阔

• 预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据,预计2023年全球大模型市场规模达到210亿美元,同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元,2022~2028年复合增长率约为47.12%,根据IDC预测,全球生成式AI计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元,CAGR约为91.34%。

• 预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据,预计2023年中国大模型市场规模达到147亿人民币,同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币,2022~2028年复合增长率约为60.11%,市场规模快速成长。

• 多模态大模型带来AI全新应用场景,多模态内容市场规模有望快速成长。第一财经数据显示,预计至2025年,中国多模态内容市场规模将达到832.7亿美元,2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。



1.4多模态AI以融合为核心,基于5大技术环节实现复杂问题解决


1.5OpenAI 发布Sora模型,将视觉数据转化为patch

• 过去的视频模型(循环网络、生成对抗网络、自回归Transformer和扩散模型等):只关注特定类型的视觉数据、较短或者固定尺寸的视频;

• Sora:通用的视觉数据模型,能生成各种持续时间(甚至长达1分钟)、宽高比和分辨率的视频和图片。借鉴了LLM的思想。

• 视频压缩网络(Video compression network):减少视觉数据维度。输入原始视频,输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。(同时训练了一个解码器将生成的潜在表征转回原像素空间)• 潜空间patch(Spacetime latent patches ):类比Transformer tokens,推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。



Sora模型核心要点梳理



2 Sora技术路线


2.1 Sora模型底座:Diffusion Transformer

• Sora是一个Diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。



• Sora是一个Diffusion(扩散)模型:输入有噪声的patch,预测原来“干净”的patch。

• 同时,Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今,视频领域同样表现优异。

• Sora模型 VS 基础模型:基于Transformer的Sora与基于U-Net的基础模型相比,有提升了一个量级的视频时长(2秒到1分),更强的清晰度(4K到1080P),支持数字世界模拟,在一致性等方面均表现更优。


Sora模型灵感:谷歌使用Patchify技术压缩时空变量

• 2023年12月,斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。该方法成功地将 Transformer 架构整合到了隐视频扩散模型中。

• 隐扩散模型(LDM)可在源自自动编码器的更低维隐空间中运行,从而降低计算需求。第一阶段,用一个自动编码器将视频和图像映射到一个统一的低维隐空间,可以在图像和视频数据集上联合训练单个生成模型,并显著降低生成高分辨率视频的计算成本。第二阶段,该团队设计了用于隐视频扩散模型的新 Transformer 块,其由自注意力层构成,这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先,使用局部窗口注意力能显著降低计算需求。其次,它有助于联合训练,其中空间层可以独立地处理图像和视频帧,而时空层则用于建模视频中的时间关系。

• Patchify(图块化)。按照原始 ViT 的设计,该团队对每个隐含帧分别进行图块化,做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 Transformer 模型的计算和内存成本很高,尤其是对于视频任务。为了效率以及联合处理图像和视频,该团队是以窗口方式计算自注意力,这基于两种类型的非重叠配置:空间(S)和时空(ST),

• 该团队在文本 - 图像和文本 - 视频对上联合训练了 W.A.L.T 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集,其中包含约 970M 对文本 - 图像和约 89M 对文本 - 视频。



Sora模型亮点一:直接在原始图片的大小上训练

• 过去:往往将视频或者图片压缩到固定大小(比如4秒钟、分辨率256*256)。

• Sora:直接在原始素材规格上训练。



Sora模型亮点二:为视频训练素材生成详细字幕

• 方法: Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型,然后用它为训练集中的视频生成文本说明。

• 技术来源:DALL E3中已经使用过,使用GPT将简短prompt转化为详细说明,这些说明会被输入到视频模型中。

• 优点:增强文本理解能力,可以提高文本的保真度和视频的整体质量,使得Sora能够生产准确遵循用户提升的高质量视频。



2.2 Sora应用一:图片生成视频

• Sora除了可以支持文字生成视频,还可以支持图片或视频作为输入,生成视频。



Sora应用二&三:视频编辑、视频拼接



Sora应用四:图片生成,更高像素



2.3 Sora核心能力一&二:3D一致性&物体持久性

• 视频生成模型最大的挑战:长视频序列保持时间一致性。

• 源于规模效应,Sora生成的人物和场景在三维空间的移动十分自然。

• 有效模拟短期和长期依赖关系:物体被遮挡或暂离画面,也可以准确表示它们。

• 长时间序列外观一致性:能够在单个视频中生成同一角色的多个场景,保持外观一致性。


Sora核心能力三&四:世界交互&模拟数字世界

• 世界交互:模拟简单行为方式影响世界状态,如吃汉堡后留下咬痕。

• 模拟数字世界:如视频游戏。以“Minecraft”为例,Sora能控制玩家角色,以高度逼真方式模拟游戏世界变化。



2.4 Sora模型的局限性

• 但是,Sora还存在不少局限:

虽然能模拟一些基础物理互动,比如玻璃的碎裂,但还不够精确;

其他相互作用,比如吃食物,并不总是能产生物体状态的正确变化;

长视频中存在逻辑不连贯,或者物体会无缘无故出现的现象。


--- 报告摘录结束 更多内容请阅读报告原文 ---

报告合集专题一览 X 由【报告派】定期整理更新

(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)

精选报告来源:报告派


科技 / 电子 / 半导体 /

人工智能 | Ai产业 | Ai芯片 | 智能家居 | 智能音箱 | 智能语音 | 智能家电 | 智能照明 | 智能马桶 | 智能终端 | 智能门锁 | 智能手机 | 可穿戴设备 |半导体 | 芯片产业 | 第三代半导体 | 蓝牙 | 晶圆 | 功率半导体 | 5G | GA射频 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圆 | 封装封测 | 显示器 | LED | OLED | LED封装 | LED芯片 | LED照明 | 柔性折叠屏 | 电子元器件 | 光电子 | 消费电子 | 电子FPC | 电路板 | 集成电路 | 元宇宙 | 区块链 | NFT数字藏品 | 虚拟货币 | 比特币 | 数字货币 | 资产管理 | 保险行业 | 保险科技 | 财产保险 |

","gnid":"9fb6e3b8218f6f906","img_data":[{"flag":2,"img":[{"desc":"","height":"526","title":"","url":"https://p0.ssl.img.360kuai.com/t0187004b42ac530de1.jpg","width":"1048"},{"desc":"","height":"523","title":"","url":"https://p0.ssl.img.360kuai.com/t01231f3bf2ab65eed9.jpg","width":"1028"},{"desc":"","height":"294","title":"","url":"https://p0.ssl.img.360kuai.com/t01e248b78d1804c4cf.jpg","width":"1032"},{"desc":"","height":"523","title":"","url":"https://p0.ssl.img.360kuai.com/t010acce0cce7b68261.jpg","width":"1028"},{"desc":"","height":"317","title":"","url":"https://p0.ssl.img.360kuai.com/t01899e7067980e64a3.jpg","width":"1029"},{"desc":"","height":"403","title":"","url":"https://p0.ssl.img.360kuai.com/t0177e2fd4f5cd0265b.jpg","width":"1084"},{"desc":"","height":"454","title":"","url":"https://p0.ssl.img.360kuai.com/t0182e3d310a3d3b98a.jpg","width":"1037"},{"desc":"","height":"380","title":"","url":"https://p0.ssl.img.360kuai.com/t01dc9e41c1db1d02d2.jpg","width":"829"},{"desc":"","height":"463","title":"","url":"https://p0.ssl.img.360kuai.com/t011e9d940685e3a4d0.jpg","width":"430"},{"desc":"","height":"266","title":"","url":"https://p0.ssl.img.360kuai.com/t012740b20647af9217.jpg","width":"586"},{"desc":"","height":"210","title":"","url":"https://p0.ssl.img.360kuai.com/t01fe5dd381aca36f2f.jpg","width":"466"},{"desc":"","height":"421","title":"","url":"https://p0.ssl.img.360kuai.com/t0109b676bceef3d6e6.jpg","width":"1033"},{"desc":"","height":"422","title":"","url":"https://p0.ssl.img.360kuai.com/t0185393ee8381888a7.jpg","width":"1034"},{"desc":"","height":"483","title":"","url":"https://p0.ssl.img.360kuai.com/t0161a3f693552ead6c.jpg","width":"1002"},{"desc":"","height":"522","title":"","url":"https://p0.ssl.img.360kuai.com/t012c7bb3aa5d1819e1.jpg","width":"1029"},{"desc":"","height":"537","title":"","url":"https://p0.ssl.img.360kuai.com/t012c3cf5704991a37e.jpg","width":"1004"},{"desc":"","height":"487","title":"","url":"https://p0.ssl.img.360kuai.com/t010afa5e1d38c25fc6.jpg","width":"599"},{"desc":"","height":"537","title":"","url":"https://p0.ssl.img.360kuai.com/t018a06b57b3feab31b.jpg","width":"632"},{"desc":"","height":"392","title":"","url":"https://p0.ssl.img.360kuai.com/t01d3c5c603cf91b13e.jpg","width":"992"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1709089991000,"pure":"","rawurl":"http://zm.news.so.com/64413510e38c36f594cbbe6108e0a88f","redirect":0,"rptid":"e40ba766957721ab","rss_ext":[],"s":"t","src":"报告派研读","tag":[{"clk":"ktechnology_1:人工智能","k":"人工智能","u":""}],"title":"人工智能行业报告:从Sora看多模态大模型发展

路娴居4967蜂蜜汉堡是怎么做成的?
丰阮常17671391981 ______ 做蜂蜜汉堡材料的:熟鸡蛋1个,吐司面包2片,蜂蜜少许,猕猴桃30克. 做法步骤如下: 1.将吐司硬边切掉,用模具压成若干片小圆面包片. 2.熟鸡蛋、猕猴桃分别去皮切片备用. 3.取1片面包,放上猕猴桃片、鸡蛋片,淋少许蜂蜜,再盖 上一片面包即可. 花样繁多的烤饼干小模具都可以用来切面包,让吃饭变成好 玩的事.

路娴居4967美式汉堡里面主要放了哪些材料?
丰阮常17671391981 ______ 用料:牛肉馅 100克、鸡蛋 1个、面粉 1大勺、盐 1小勺、黑胡椒粉 1小勺、橄榄油 1大勺、汉堡面包 2片、生菜 适量、番茄酱 适量.使用了这些材料会使做出来的美食美味可口.

路娴居4967奶酪汉堡包怎样吃合适?
丰阮常17671391981 ______ 奶酪汉堡包不是不可以吃,偶而吃一次可以,但不要长期吃

路娴居4967郑州除了德克士肯德基以外,还有哪家汉堡好吃?
丰阮常17671391981 ______ 有一家麦基客汉堡,第一次知道这家汉堡店还是在大学里,味道不错,周末经常去那里光顾,现在毕业了有点儿怀念啊

路娴居4967武汉这儿哪家汉堡的口味最好呢??
丰阮常17671391981 ______ 上次我和朋友在南湖优力克汉堡吃的还不错,你可以去看看!

路娴居4967学校2015第二集孔太光吃汉堡包店里放的英文歌曲 -
丰阮常17671391981 ______ Have you ever felt some kind of emptiness inside You will never measure up to those people you Must be strong can't show them that you're weak Have you ever told someone something That's far from the truth Let them know that you're okay Just to ...

路娴居4967你知道吗经常吃汉堡会消化不良?
丰阮常17671391981 ______ 汉堡作为现代西式快餐中的主食之一,是如今十分受欢迎的一种食物.最早的汉堡 是由两片小圆面包在中间夹一块牛肉肉饼组成的,而在现代汉堡家族中,除了夹传统的 ...

路娴居4967产妇剖腹产能吃汉堡包吗?
丰阮常17671391981 ______ 可以适量的食用些,而且不宜过多.主要看你是不是给宝宝吃的母乳,如果吃的是母乳吃汉堡,里面别有辛辣刺激的东西,还有别吃甜品,甜品对剖腹产的伤口愈合有影响的.建议多吃些易消化的食物,多吃些富含蛋白质和维生素的食物,注意休息和保暖.最好吃营养清淡的.吃垃圾食品对母乳也不好.

路娴居4967汉堡和热狗有什么不同?
丰阮常17671391981 ______ 汉堡包,被称为西方五大快餐之一,如何起源的呢? 原始的汉堡包是剁碎的牛肉末和... 先传入巴尔干半岛,而后传到德意志,逐淅改生食为熟食.德国汉堡地区的人将其加...

路娴居4967沈阳汉堡包哪里便宜我在青岛吃过12元给两个汉堡一杯可乐想问问沈
丰阮常17671391981 ______ 中山公园西门旁边儿,有个碰碰凉,12块钱3个

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024