首页 >>  正文

篮球的外形描写

来源:baiyundou.net   日期:2024-07-08

happy 投稿

量子位 | 公众号 QbitAI

谷歌扳回一局!

在Gemini开放API不到一周的时间,港中文等机构就完成评测,联合发布了多达128页的报告,结果显示:

在37个视觉理解任务上,Gemini-Pro表现出了和GPT-4V相当的能力

在多模态专有基准MME上,Gemini-Pro的感知和认知综合表现则直接获得了1933.4的高分,超越GPT-4V(1926.6)。

此前,CMU测评发现Gemini-Pro的综合能力居然和GPT-3.5差不多

现在,在多模态这个一大主推的卖点上,Gemini-Pro可算是扳回一局。

那么具体如何?

测评报告一共128页,咱们就挑重点来看。

Gemini-Pro的首份多模态能力报告来了

这份测评主要是对Gemini-Pro的视觉理解能力进行评估。

一共涵盖基础感知、高级认知、挑战性视觉任务和各种专家能力四大领域,在37个细分任务项上进行定性比较。

定量评估则在专为多模态大语言模型专门设计的评测基准MME上展开。

首先来看定量测试结果。

MME上综合表现比GPT-4V强

MME基准包含两大类任务。

一个是感知,涵盖目标存在性判断、物体计数、位置关系、颜色判断、OCR识别、海报识别、名人识别、场景识别、地标识别和艺术品识别等。

一个是认知,涵盖常识推理、数值计算、文本翻译和代码推理等。

结果如下:

可以看到Gemini-Pro和GPT-4V可谓“各有所长”。

而计分显示,Gemini-Pro的总分为1933.4,比GPT-4V(1926.6)要高那么一点点。

具体来看:

1、Gemini-Pro在文本翻译、颜色/地标/人物识别、OCR等任务中表现突出;

2、GPT-4V在名人识别任务上的得分为0,主要是因为拒绝回答名人相关的问题;

3、无论是Gemini还是GPT-4V在位置识别任务上表现都不佳,表明他们对空间位置信息不敏感;

4、开源模型SPHINX在感知任务上与GPT-4V以及Gemini平齐甚至更优,但认知和两者有较大差距。

下面就是四大项任务上的定性结果了。

基础感知

感知能力直接影响模型在高阶任务中的能力,因为它决定了模型获取和处理原始视觉输入的准确性和有效性。

报告中分别测试了模型的对象级感知能力、场景级感知能力和基于知识的感知能力。

具体一共10个细分任务:

鉴于篇幅有限,我们在此只展示其中5个:

1、空间关系

都不分左右。但GPT-4V可以通过上下文少样本学习这项任务,然后做出正确回答。

2、物体计数

简单样例整体还OK,但复杂一点的全军覆没。不过在数NBA篮球运动员时,Gemini-Pro的答案已经相当接近了(正确为42个)。

3、视觉错觉

左侧样例中,两个梨实际上具有相同的亮度。Gemini Pro正确识别,而GPT-4V和SPHNIX被欺骗。

4、场景理解

模型都能够描绘场景中的关键视觉元素。相比之下,GPT-4V显示出优越的性能,描述更加详细,并且幻觉的实例也更少。

5、视频场景理解

从视频中抽取三个时刻的关键帧,Gemini Pro能够将不同帧的信息整合成一个连贯的场景描述。

而GPT-4V只是逐帧描述图像的内容。相比之下,SPHNIX的描述并没有表现出对图像序列的全面理解。

高级认知

这类任务需要模型进行深入的推理、解决问题和决策。

在此,报告中分别测试了模型的富含文本的视觉推理能力、抽象视觉推理能力、解决科学问题能力、情感分析能力、智力游戏能力。具体包括13项细分任务,同样限于篇幅我们只展示其中几项。

1、代码生成

将结构化视觉内容转换为相应的代码是多模态大模型的一项重要技能,在此分别测试了模型识别公式生成LaTex代码和识别网页生成HTML代码的能力。

Gemini Pro和GPT-4V在公式识别上表现出更好的结果,但仍然会错误识别一些小字符或符号。

三个模型的识别网页生成相应HTML代码的能力仍然存在很大的改进空间。

2、抽象视觉刺激

对抽象视觉刺激和符号的理解和推理是人类智能的一项基本能力。GPT-4V展示了最好的抽象性能,提供了对象如何由形状组成的详细描述。Gemini Pro能识别一些简单的抽象模式。

3、图像情感分析

模型都可以很好地描绘视图,并提供其中可能的情感。GPT-4V观察是中立的,强调情绪是主观的,同时给出了更全面的分析。Gemini Pro倾向于直接输出情感偏好。

4、情感调节输出

情感调节输出是让多模态大模型描述以预定义情感为条件的视觉上下文。

虽然Gemini Pro和GPT-4V能够正确地将相应的情感注入到生成的文本中,但它们都遇到了幻觉问题。

5、数独游戏

如果仅以图像作为输入,尽管Gemini Pro尝试在输出矩阵内提供答案,但无法正确识别空白位置,而GPT-4V和SPHNIX则无法进行第一步 光学字符识别。此外,给定相应的文本输入,Gemini Pro和GPT-4V都可以给出正确的答案。

挑战性视觉任务

评估多模态大模型在超出标准视觉问答范围的各种具有挑战性的视觉任务中的性能。

需要模型具有深厚的视觉感知和理解能力,评估这类表现将有助于深入了解模型在多领域应用的可行性。

报告中分别测试了模型在图像视觉任务和时序视觉任务中的性能。具体包括以下7个细分任务:

在此我们展示3个。

1、指称表达式理解

Gemini Pro和GPT-4V都能够识别指称对象的大致位置,但它们很难提供精确的坐标和框大小。而SPHNIX展示了提供引用对象的准确位置和大小的能力。

2、目标跟踪

Gemini Pro和GPT-4V都能够描绘出要跟踪的目标的细节,但它们随后两帧图像中提供了错误的边界框。

3、视觉故事生成

任务要求模型完全理解图像中的信息,并在生成的故事中对其进行逻辑组织。

Gemini Pro和SPHNIX提供了连贯的故事,但却和没有十分贴近漫画剧情。

GPT-4V为每个插图提供了精确的描述,却未能根据任务要求将它们编织成一个有凝聚力的故事。

各种专家能力

专家能力衡量多模态大模型将其学到的知识和技能应用于不同专业领域的泛化能力。除了上述的感知和认知任务外,多模态大模型在专门和独特场景下的鲁棒性通常具有更实际的参考意义。也是7个细分任务:

在此我们同样展示3个:

1、缺陷检测

缺陷检测需要高精度和对细节的关注。对于缺陷明显的图像,模型都可以提供正确答案,其中GPT-4V输出更详细的原因和描述。

对于下图中的螺纹损坏的样例,Gemini Pro给出了过于笼统的答案,SPHNIX错误地描述了外观,而GPT-4V给出了标准答案。

2、经济分析

报告展示了两个用于回答问题的股价走势图。Gemini Pro擅长专家级金融知识,能够给出正确答案。GPT-4V由于安全风险而没有给出明确答案。SPHNIX由于缺乏相关训练数据无法理解此类问题。

3、机器人运动规划

机器人规划要求机器人能够确定如何在给定情况下采取行动以实现特定目标。

Gemini Pro和GPT-4V都可以提供有条理且详细的步骤,并且GPT-4V似乎比Gemini Pro给出了更合理的决定,例如电池的安装顺序,但SPHNIX无法完成手机的组装,说明其泛化能力有限。

总结评价:都是“半斤八两”

鉴于其卓越的多模态推理能力,Gemini确实是GPT-4V的有力挑战者

在大多数情况下,与GPT-4V相比,Gemini的回答准确性具有竞争力,并展示了不同的回答风格和偏好。

GPT-4V倾向于生成对感知任务更详细的描述,并为认知任务提供深入的分析和逐步的中间推理,而Gemini更喜欢对答案提供直接而简洁的回应,这有助于用户快速找到相关信息。

不过,两个模型也存在一定的共性问题,比如空间感知能力不强,复杂OCR和抽象视觉理解不理想,推理过程可能存在不自洽结果,对提示设计的鲁棒性不足……在很多情况下仍然陷入困境。

所以,从现阶段成果来看,两者都点“半斤八两”的意思。

作者最后的结论就是:

大模型的多模态能力总的来说都还有很长的路要走。

具体往哪走?

三个方面:视觉表示编码(细粒度外观、空间关系感知)、多模态对齐(减轻幻觉、OCR准确性)以及模型推理能力(定量处理、逻辑一致性)。

关于Gemini Pro与GPT-4V、SPHNIX的更多评估比较,请查看原论文。

链接:

[1]https://arxiv.org/pdf/2312.12436.pdf

[2]https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"982d2b9bbffb3703c","img_data":[{"flag":2,"img":[{"desc":"","height":"493","title":"","url":"https://p0.ssl.img.360kuai.com/t014a8919df3a74bd6b.jpg","width":"1080"},{"desc":"","height":"569","title":"","url":"https://p0.ssl.img.360kuai.com/t018d17128bff7fd08f.jpg","width":"1080"},{"desc":"","height":"993","title":"","url":"https://p0.ssl.img.360kuai.com/t015ed38866e41306d5.jpg","width":"1080"},{"desc":"","height":"310","title":"","url":"https://p0.ssl.img.360kuai.com/t0133a5e9cc1a9c0c50.jpg","width":"886"},{"desc":"","height":"1300","title":"","url":"https://p0.ssl.img.360kuai.com/t016321c34162a7ff8d.jpg","width":"616"},{"desc":"","height":1236,"title":"","url":"https://p0.ssl.img.360kuai.com/t0186c00e2a44fd2b7b.jpg","width":1080},{"desc":"","height":1208,"title":"","url":"https://p0.ssl.img.360kuai.com/t0140b2a8eb2ffbf9f6.jpg","width":932},{"desc":"","height":1606,"title":"","url":"https://p0.ssl.img.360kuai.com/t0118957304fc200d1b.jpg","width":1080},{"desc":"","height":1159,"title":"","url":"https://p0.ssl.img.360kuai.com/t019ad403c646bbd669.jpg","width":1080},{"desc":"","height":1691,"title":"","url":"https://p0.ssl.img.360kuai.com/t01b48be4515488bfe6.jpg","width":1080},{"desc":"","height":"850","title":"","url":"https://p0.ssl.img.360kuai.com/t01a6e7519c798eecd9.jpg","width":"394"},{"desc":"","height":"979","title":"","url":"https://p0.ssl.img.360kuai.com/t01a8747111232aa5e5.jpg","width":"1080"},{"desc":"","height":"1283","title":"","url":"https://p0.ssl.img.360kuai.com/t01edcef9d2d5a87e48.jpg","width":"1080"},{"desc":"","height":"1506","title":"","url":"https://p0.ssl.img.360kuai.com/t011331cf4c7d2fa5db.jpg","width":"1080"},{"desc":"","height":"1486","title":"","url":"https://p0.ssl.img.360kuai.com/t0104dad3bce977b362.jpg","width":"1080"},{"desc":"","height":"1087","title":"","url":"https://p0.ssl.img.360kuai.com/t01e45087018a5d954c.jpg","width":"1080"},{"desc":"","height":"1567","title":"","url":"https://p0.ssl.img.360kuai.com/t016586b16f640970e8.jpg","width":"1080"},{"desc":"","height":"492","title":"","url":"https://p0.ssl.img.360kuai.com/t012159f975e79fe269.jpg","width":"390"},{"desc":"","height":"1064","title":"","url":"https://p0.ssl.img.360kuai.com/t01d87910fe78c57e41.jpg","width":"1080"},{"desc":"","height":"1563","title":"","url":"https://p0.ssl.img.360kuai.com/t018cec71c7a821d27b.jpg","width":"1080"},{"desc":"","height":"1600","title":"","url":"https://p0.ssl.img.360kuai.com/t01b0c4406bf2bbae9e.jpg","width":"1080"},{"desc":"","height":"952","title":"","url":"https://p0.ssl.img.360kuai.com/t016ec7db15f17eb2b2.jpg","width":"648"},{"desc":"","height":"1245","title":"","url":"https://p0.ssl.img.360kuai.com/t0137da24fd5ae2b070.jpg","width":"1080"},{"desc":"","height":"1513","title":"","url":"https://p0.ssl.img.360kuai.com/t01a77bc3c30456e44b.jpg","width":"1080"},{"desc":"","height":"1474","title":"","url":"https://p0.ssl.img.360kuai.com/t01306e1dab6862b95c.jpg","width":"1080"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1703220240000,"pure":"","rawurl":"http://zm.news.so.com/6ece97116b0f6a6216984ca0346e0330","redirect":0,"rptid":"345b25b24f776536","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"谷歌Gemini扳回一局!多模态能力和GPT-4V不分伯仲|港中文测评

籍显盆4760求一段 打篮球的人物描写.要有动作,神态,外貌等等,主要突出其动作.200字左右. -
訾任狄18246725537 ______ 只听“嘟”的一声哨响,球已被扔向空中,早已准备好了的我方队员吴枫纵身一跃,伸出巨掌,奋力一击,球不偏不倚正好落到在刘家辉的手里.他四周巡视了一番,便快速运球,跑过中场线,我的站位方向正好有一个空裆,刘家辉瞅准时机传...

籍显盆4760打篮球时的神态外貌描写的段落 -
訾任狄18246725537 ______ “女人什么的,我可不在意.”烛龙指尖拨着篮球不停的旋转,“能玩球才是最美的生活啊.” “那么上把.”池蛟双手摊开,微微屈膝,完美的防守者姿势. 烛龙在弧顶左手不断的运球,然后俩个胯下运球,但是池蛟没有近身防守. “他...

籍显盆4760篮球运动员外貌描写急急急!!! -
訾任狄18246725537 ______ tall and strong.Ordinary-looking, not very handsome, Short hair, small eyes, the nose is not high, not sexy.

籍显盆4760描写人物外貌神态语言心理的段落 -
訾任狄18246725537 ______ 兴奋和激动如同决了堤的洪水,浩浩荡荡,哗哗啦啦地从他的心理倾泻了 出来,他再也无法隐藏他的那份斯文了. 奔跑,奔跑,奔跑!他的心激动着,他的痛快已经不能用我们浅薄的语言来表述,似乎他身上的每一根汗毛都有跳动的欢畅 描写人...

籍显盆4760谁有描写篮球高手的作文500字以上,最好有外貌描写,能通过一场比赛来说明他的特点. -
訾任狄18246725537 ______[答案] 多看NBA,特别是中央5套的,边听边记,主持人和张指导会帮你写好的!

籍显盆4760谁知道人物描写(外貌、语言、动作、神态、心理)的段落?
訾任狄18246725537 ______ 外貌: 乍一看,她个子挺高的,身材很好,不胖也不瘦,是块跳舞的料.细看,她留着齐耳短发,头上总是一左一右地夹着两只发夹,把头发紧紧地拢在耳朵后面,显出一张光滑白净的脸庞.她的眼睛不大,细细长长的,但是很有神采,一笑就变成了两条缝.鼻子微微上翘,给人一种俏皮的感觉,显得十分可爱.她平时最喜欢穿的是一条蓝底白花的连衣裙,裙摆又宽又大.她一跑动起来,裙子就像一只花蝴蝶一样飞起来了. 动作: 他弯着腰,篮球在他的手下前后左右不停地拍着,两眼溜溜地转动,寻找“突围”的机会.突然他加快了步伐,一会左拐,一会右拐,冲过了两层防线,来到篮下,一个虎跳,转身投篮,篮球在空中划了一条漂亮的弧线后,不偏不倚地落在筐内.

籍显盆4760人物的外貌、动作、神态描写各一段 -
訾任狄18246725537 ______[答案] 好词 1)描写人物外貌的词语 虎头虎脑 眉清目秀 面红耳赤 白净柔嫩 满面红光 满头银发 目光炯炯 双目如潭 火眼金睛 浓眉大眼 慈眉善目 气宇轩昂 高大魁梧 英姿飒爽 衣着得体 (2)描写人物表情的词语 眉开眼笑 破涕为笑 捧腹大笑 笑逐颜开 满面春...

籍显盆4760描写神情、外貌的句子 -
訾任狄18246725537 ______ 1. 只见他的脸憋得通红,双眉拧成疙瘩,就连胳膊上的青筋都看得清清楚楚. 老师看到题后,皱着眉头,习惯地把左手的大拇指放在嘴唇下面来回移动,思考着. 他习惯地用双手捶着朐,像人猿泰山似的嗷嗷叫几声,才出去玩儿. 他的脸惨白...

籍显盆4760有没有有关黑子的篮球紫原敦外貌描写的作文 -
訾任狄18246725537 ______ 出自黑子的篮球官方小说《ReplaceⅡ》中第1GWelcometo帝光祭的插图,动画漫画都没有涉及主要是回忆奇迹众在帝光中学文化祭中的各种表现.小紫身后的是二黄和桃子,二黄和小紫是一个班的,小紫装扮是cos法国末代王后,著名台词是“没有饭吃就吃点心嘛”~~和小紫形象各种贴啊啊啊啊,另外,二黄cos的是凡尔赛玫瑰的女主

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024