首页 >>  正文

layer+normalization

来源:baiyundou.net   日期:2024-09-12

1月22日,零一万物Yi系列模型家族迎来新成员,Yi Vision Language(Yi-VL)多模态语言大模型正式面向全球开源。凭借卓越的图文理解和对话生成能力,Yi-VL模型在英文数据集MMMU和中文数据集CMMMU上取得了领先成绩,展示了在复杂跨学科任务上的强大实力。

据悉,Yi-VL模型基于Yi 语言模型开发,包括Yi-VL-34B和Yi-VL-6B两个版本。在全新多模态基准测试MMMU中,两个版本均有不俗表现。

MMMU(全名Massive Multi-discipline Multi-modal Understanding & Reasoning 大规模多学科多模态理解和推理)数据集包含了11500个来自六大核心学科(艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程)的问题,涉及高度异构图像类型和交织文本图像信息,对模型的高级知觉和推理能力提出了极高要求。令人瞩目的是,Yi-VL-34B在该测试集上以41.6%的准确率,成功超越了一系列多模态大模型,仅次于GPT-4V(55.7%),展现出强大的跨学科知识理解和应用能力。

 

 来源:https://mmmu-benchmark.github.io

同样,在针对中文场景打造的CMMMU数据集上,Yi-VL模型再次展现“更懂中国人”的独特优势。CMMMU包含了约12000道源自大学考试、测验和教科书的中文多模态问题。其中,GPT-4V在该测试集上的准确率为43.7%, Yi-VL-34B以36.5%的准确率紧随其后,领先于当前最前沿的开源多模态模型。

 

 

 来源:https://cmmmu-benchmark.github.io/

Yi-VL模型在图文对话等多元场景中的表现如何?我们先看两个范例:

 

 

可以看到,基于Yi语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型——这也是Yi-VL模型的核心亮点之一。

 图说:Yi-VL模型架构设计和训练方法流程一览。


在架构设计上,Yi-VL模型基于开源 LLaVA架构,包含三个主要模块:

• Vision Transformer(简称ViT)用于图像编码,使用开源的OpenClip ViT-H/14模型初始化可训练参数,通过学习从大规模"图像-文本"对中提取特征,使模型具备处理和理解图像的能力。

• Projection模块为模型带来了图像特征与文本特征空间对齐的能力。该模块由一个包含层归一化(layer normalizations)的多层感知机(Multilayer Perceptron,简称MLP)构成。这一设计使得模型可以更有效地融合和处理视觉和文本信息,提高了多模态理解和生成的准确度。

• Yi-34B-Chat和Yi-6B-Chat 大规模语言模型的引入为 Yi-VL 提供了强大的语言理解和生成能力。该部分模型借助先进的自然语言处理技术,能够帮助 Yi-VL 深入理解复杂的语言结构,并生成连贯、相关的文本输出。

在训练方法上,Yi-VL模型的训练过程分为三个精心设计的阶段,旨在全面提升模型的视觉和语言处理能力。

• 第一阶段:零一万物使用1亿张的“图像-文本”配对数据集训练 ViT 和 Projection 模块。在这一阶段,图像分辨率被设定为224x224,以增强 ViT 在特定架构中的知识获取能力,同时实现与大型语言模型的高效对齐。

• 第二阶段:零一万物将 ViT 的图像分辨率提升至448x448,这一提升让模型更加擅长识别复杂的视觉细节。此阶段使用了约2500万“图像-文本”对。

• 第三阶段:零一万物开放整个模型的参数进行训练,目标是提高模型在多模态聊天互动中的表现。训练数据涵盖了多样化的数据源,共约100万“图像-文本”对,确保了数据的广泛性和平衡性。

零一万物技术团队同时也验证了可以基于Yi 语言模型强大的语言理解和生成能力,用其他多模态训练方法比如BLIP、Flamingo、EVA等快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。Yi系列模型可以作为多模态模型的基座语言模型,给开源社区提供一个新的选项。同时,零一万物多模态团队正在探索从头开始进行多模态预训练,更快接近、超过GPT-4V,达到世界第一梯队水平。

目前,Yi-VL 模型已在Hugging Face、ModelScope等平台上向公众开放,用户可通过以下链接亲身体验这款模型在图文对话等多元场景中的优异表现。欢迎探索Yi-VL多模态语言模型的强大功能,体验前沿的AI技术成果! 

Yi-VL 模型地址:

https://huggingface.co/01-ai

https://www.modelscope.cn/organization/01ai

 雷峰网

","gnid":"9c9aa2abe41d6f3ee","img_data":[{"flag":2,"img":[{"desc":"","height":"171","title":"","url":"https://p0.ssl.img.360kuai.com/t0122e1ddd48a6ac376.jpg","width":"740"},{"desc":"","height":"447","title":"","url":"https://p0.ssl.img.360kuai.com/t01f44e2836e415e8fe.jpg","width":"740"},{"desc":"","height":"416","title":"","url":"https://p0.ssl.img.360kuai.com/t01b991d575a54194b3.jpg","width":"740"},{"desc":"","height":"464","title":"","url":"https://p0.ssl.img.360kuai.com/t015107d79119c9ccdb.jpg","width":"740"},{"desc":"","height":"725","title":"","url":"https://p0.ssl.img.360kuai.com/t01218a9ea9d96e556b.jpg","width":"740"},{"desc":"","height":"508","title":"","url":"https://p0.ssl.img.360kuai.com/t0150a3a573ddf23922.jpg","width":"740"},{"desc":"","height":"646","title":"","url":"https://p0.ssl.img.360kuai.com/t01ede1d97f26479817.jpg","width":"740"},{"desc":"","height":"245","title":"","url":"https://p0.ssl.img.360kuai.com/t01adb73d1621363b3a.jpg","width":"740"}]}],"original":0,"pat":"art_src_1,fts0,sts0","powerby":"pika","pub_time":1705919079000,"pure":"","rawurl":"http://zm.news.so.com/18f9043f77cdc859dbbb197c4143ec76","redirect":0,"rptid":"e71322bdff04f2a1","rss_ext":[],"s":"t","src":"雷峰网","tag":[],"title":"零一万物Yi-VL多模态语言模型上线,跻身全球开源顶尖水平

苗菊之4665photoshop中图层名是layer是怎么回事 -
容郭乔13769698456 ______ 那是英文版的默认图层名称,就像中文版的,背景,图层1,图层2.......图层N..简单的说就是layer1 =图层1 ,中英翻译!

苗菊之4665CAD里面的Layer Manager这个命令如何使用 -
容郭乔13769698456 ______ 设置各图层,分别在各图层状态下,绘制相应的图.不需要显示的图层,在Layer Manager命令后点击前面那个灯泡按钮就关闭了这个图层,这样就可以让需要的图层单独显示了.

苗菊之4665有谁可以帮我制作字?
容郭乔13769698456 ______ 第1步:按ctrl + N新建一个图形文件,宽度为800PX,高度为800px,白色背景.然后设置前景色颜色为R 26,G 104, B 175.然后用字体工具在文件上随便写一个你想要做出效果的字.本例选择的字体是Times New Roman,字体属性Bold + Italic...

苗菊之4665如何用PS制作钢印效果.急!!! -
容郭乔13769698456 ______ 新建一个 RGB 颜色模式的 PSD 文档,尺寸暂定为 300 * 300 Pixels .建议使用文件名为 Silver Coin.psd . 按住工具箱中的 Rectangular Marquee Tool ( M ) 工具不放,在弹出的工具列表中选择 Elliptical Marquee Tool ( M ) 圆形选区工具.双击它...

苗菊之4665在网页中怎么制作幻灯片切换 -
容郭乔13769698456 ______ 步骤一:图形元素的制作和准备. 制作幻灯片所用的并将之放入Dreamweaver的层中.准备在每个幻灯片中实现7幅的交替变换,因此制作7幅不同的.注意要在Photoshop中优化压缩,并调整成相同的尺寸.建立层,插入初始,该幻灯片默...

苗菊之4665水晶字是什么? -
容郭乔13769698456 ______ 水晶字是用化学药水将透明有机玻璃(亚克力)跟有色有机片粘合起来组合而成.用电脑也可以设计出来 第1步:按ctrl + N新建一个图形文件,宽度为800PX,高度为800px,白色背景.然后设置前景色颜色为R 26,G 104, B 175.然后用字体工...

苗菊之4665normal的用法 -
容郭乔13769698456 ______ 正常的;标准的;常见的;正交的;与血液的盐浓度相同的;正(断层)的 n. 正常状态;平均状态;典型;法线;正交 例句 1. The normal amount of DNA has been duplicated thousands of times. DNA的正常量增加了数千倍. 牛津词典 2. He ...

苗菊之4665layer单词 -
容郭乔13769698456 ______ layer 英[ˈleiə] 美[ˈleɚ] n. 层,层次;膜;[植]压条;放置者,计划者 vt. 把…分层堆放;借助压条法;生根繁殖;将(头发)剪成不同层次 vi. 形成或分成层次;[植]通过压条法而生根 [例句]• One less layer in thedisplay •屏幕少了一层 如果您满意我的回答,请及时点击【采纳为满意回答】按钮!!!手机提问的朋友在客户端右上角评价点【满意】即可!!!你的采纳是我前进的动力!!!谢谢!!!

苗菊之4665请问下 谁知道3D max英文版里的Normal命令,在中文版里是哪个??? -
容郭乔13769698456 ______ 是Normal Align这个命令吧是指法线(Normal)对齐的意思,快捷键是ALT+N

苗菊之4665求讲解CAD LISP中layer的用法及格式 -
容郭乔13769698456 ______ (if (null (tblsearch "layer" "图层名称")) (entmake (list'(0 . "LAYER")'

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024