首页 >>  正文

subset

来源:baiyundou.net   日期:2024-07-04

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??

具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。

在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分

没错,论文中的Ruozhiba就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:

最离谱的是,弱智吧AI代码能力也超过了使用专业技术问答社区思否数据训练的AI,这下吧友自己都闹不明白了。

其他平台围观网友也纷纷蚌埠住。

这项研究来自中科院深圳先进技术研究院、中科院自动化研究所,滑铁卢大学等众多高校、研究机构联合团队。

作者之一也现身评论区,透露使用弱智吧数据训练AI属于灵机一动,以前只用来测试。

弱智吧数据究竟如何达成这一成就,具体到论文中看。

弱智发言成指令微调神器

这项研究起初为解决中文大模型训练中的诸多问题

  • 中文数据集很多是从英文翻译过来的,没有很好地契合中文的语言习惯和文化背景
  • 不少数据集是用AI生成的,质量难以保证,容易出现事实性错误
  • 即使是人工标注的数据集,也存在数据量小、覆盖领域不全面等问题

为了解决这些痛点,团队从中文互联网的各种知识源头直接收集数据,比如知乎、豆瓣、百科、小红书等,经过一系列严格的清洗和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA

除了探索不同数据源的作用,团队还专门从中抽取出一个精华子集CQIA-Subset

在众多数据来源中,弱智吧成了最特别的一个。

由500个点赞最高的帖子标题+人工或GPT-4的回复组成指令微调数据集, 经过人工审核后,最终留下了240组指令-回复数据对。

分别用各种数据集训练零一万物Yi系列开源大模型,在BELLE-Eval测试集上使用GPT-4评分得到结果。

在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。

看来小模型还没能领悟弱智的精髓。

到了Yi-34B,弱智吧版本表现就一骑绝尘了。

只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。

另外,在安全评估上弱智吧版本也能排上第二。

对于这类现象,研究人员在分析中也给出简单猜测:

可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。

当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。

通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集提供了很多有益的启示。比如社交媒体数据虽然开放多样,但也存在不少有害信息风险;而百科类数据专业性强,但覆盖面可能不够广。

弱智吧上大分

这项研究一发,网友集体笑不活。除了“XSWL、思路开阔了”婶儿的纯围观,也有网友认真讨论起了弱智吧有如此奇效的原因。

大伙儿都比较认可的一个原因是弱智吧题目的“异质”。

像脑筋急转弯,增加了指令多样性,所以提升了模型最终性能:

通用数据集多半已经在pretrain阶段见过了,再训一遍只会加重overfitting。

另一个原因是弱智吧数据文本质量很高,用词准确且简洁

千言万语汇成一句话:把弱智吧只当简单的段子合集真的是严重低估了它的价值!

雀食,要不此前弱智吧问题也经常被大伙儿用来测试大模型呢。

事实上从ChatGPT诞生之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的重要见证者了。

一开始只是网友拿来拷打AI,搞搞节目效果。

后来大家发现,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。

还记得23年初那会儿,各家大模型第一版还不太能很好应对这类问题,如2023年3月的文心一言:

后续版本也渐入佳境了,如2023年8月的文心一言:

知道今天,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。

秘塔写作猫

Inspo

再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。

当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了训练集。

思路确实是被打开了~

论文地址:

https://arxiv.org/abs/2403.18058

参考链接:

[1]https://x.com/9hills/status/1775358963724554410

[2]https://zhuanlan.zhihu.com/p/690640864

[3]https://tieba.baidu.com/p/8964992247

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"935d2846562bc4d20","img_data":[{"flag":2,"img":[{"desc":"","height":"448","title":"","url":"https://p0.ssl.img.360kuai.com/t0101cf20a541558bd3.webp","width":"1064"},{"desc":"","height":"403","title":"","url":"https://p0.ssl.img.360kuai.com/t0144794e552d6c2920.webp","width":"1080"},{"desc":"","height":"904","title":"","url":"https://p0.ssl.img.360kuai.com/t0120a01f063ed35f8c.jpg","width":"1164"},{"desc":"","height":"594","title":"","url":"https://p0.ssl.img.360kuai.com/t016da851863a7902c4.webp","width":"1072"},{"desc":"","height":"386","title":"","url":"https://p0.ssl.img.360kuai.com/t01ccd3ba174e1ee470.webp","width":"932"},{"desc":"","height":"352","title":"","url":"https://p0.ssl.img.360kuai.com/t0128bd2611cc87fa3b.webp","width":"1080"},{"desc":"","height":"232","title":"","url":"https://p0.ssl.img.360kuai.com/t017700200833ac7532.webp","width":"834"},{"desc":"","height":"1152","title":"","url":"https://p0.ssl.img.360kuai.com/t01f848bcfe1b132cae.jpg","width":"1356"},{"desc":"","height":"380","title":"","url":"https://p0.ssl.img.360kuai.com/t01155863215c544030.webp","width":"1080"},{"desc":"","height":"403","title":"","url":"https://p0.ssl.img.360kuai.com/t0144794e552d6c2920.webp","width":"1080"},{"desc":"","height":"770","title":"","url":"https://p0.ssl.img.360kuai.com/t014684b006ee65e19b.webp","width":"602"},{"desc":"","height":"248","title":"","url":"https://p0.ssl.img.360kuai.com/t0110067dfdf02002f7.jpg","width":"1340"},{"desc":"","height":"1205","title":"","url":"https://p0.ssl.img.360kuai.com/t01eecdd5846ce9936c.webp","width":"1080"},{"desc":"","height":"344","title":"","url":"https://p0.ssl.img.360kuai.com/t01e32d24074673c452.webp","width":"1054"},{"desc":"","height":"206","title":"","url":"https://p0.ssl.img.360kuai.com/t01ee001ccc3f4bb400.webp","width":"1054"},{"desc":"","height":"168","title":"","url":"https://p0.ssl.img.360kuai.com/t01feb8fc78755904d4.webp","width":"1080"},{"desc":"","height":"140","title":"","url":"https://p0.ssl.img.360kuai.com/t01b1c9c476ed7aaac4.webp","width":"1054"},{"desc":"","height":"363","title":"","url":"https://p0.ssl.img.360kuai.com/t013951845f29e33e3a.webp","width":"1080"},{"desc":"","height":"294","title":"","url":"https://p0.ssl.img.360kuai.com/t01fab9823ba41dbd9c.webp","width":"1080"},{"desc":"","height":"447","title":"","url":"https://p0.ssl.img.360kuai.com/t01964d77b52822ae40.webp","width":"1080"},{"desc":"","height":"424","title":"","url":"https://p0.ssl.img.360kuai.com/t01aef5befcdf25ac22.webp","width":"1080"},{"desc":"","height":"574","title":"","url":"https://p0.ssl.img.360kuai.com/t011a686749457e1cf5.webp","width":"946"},{"desc":"","height":"1322","title":"","url":"https://p0.ssl.img.360kuai.com/t014a0ca3cbd7e63132.webp","width":"1038"},{"desc":"","height":"522","title":"","url":"https://p0.ssl.img.360kuai.com/t0195d9e4efc168e7a5.webp","width":"1080"},{"desc":"","height":"340","s_url":"https://p0.ssl.img.360kuai.com/t01654005f931dc0dd6_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t01654005f931dc0dd6.gif","width":"320"}]}],"original":0,"pat":"pdc,art_src_3,fts0,sts0","powerby":"pika","pub_time":1712203140000,"pure":"","rawurl":"http://zm.news.so.com/76f7ceb243c02d19f1542c248383e93d","redirect":0,"rptid":"a617f4821c793235","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:中科院","k":"中科院","u":""},{"clk":"ktechnology_1:小红书","k":"小红书","u":""}],"title":"弱智吧竟成最佳中文AI训练数据?!中科院等:8项测试第一

骆拜彼1621{0,1}*的无穷子集怎么表示法 -
金兴阁19838437741 ______ 你好,{x│0中文名:子集外文名:Subset应用领域:数学表达式:A⊆B分享定义如果集合A的任意一个元素都是集合B的元素(任意a∈A则a∈B),那么集合A称为集合B的子集,记为A⊆B或 B⊇A,读作“集合A包含于集合B”或集合B包含集...

骆拜彼1621r 用subset选取子集后,factor的level为什么不改变 -
金兴阁19838437741 ______ 不知道你说的大表格有多大,但只要能加载到R语言的内存中运算就可以计算.使用subset函数 假设数据集为x12 a 30) a 50) subset第一个参数是要筛选的数据集,第二个就是条件,像你说的问题,在第一步过滤的基础上再过滤一次就行,也可以合并到一起.

骆拜彼1621翻译一个句子,重点是SUBSET,拒绝机译Several trials have been conducted in elderly patients inorder to evaluate the role of these new agents in a first - ... -
金兴阁19838437741 ______[答案] subset of patients患者群 /患者组、这部分患者 已经在老年患者中进行了几次试验,用以评估这些新制剂在一线和二线治疗中,对老年患者(这一患者群)所起的作用

骆拜彼1621oracle数据库中有哪些字符集,字符集之间的子集和超集关系是怎么样的? -
金兴阁19838437741 ______ oracle数据库的字符集有很多的,具体的也不能一一详细地列举出来了,但是,建库的时候,会有选择字符集的界面,点开下拉条,将会列出oracle所支持的所有字符集(10/12). 超集与子集是包含和被包含的关系,超集兼容子集.

骆拜彼1621集合之中的子集分不分大小 -
金兴阁19838437741 ______ 集合之中的子集部分大小 没有大子集、小子集的分法 子集是一个数学概念,如果集合A的任意一个元素都是集合B的元素(任意a∈A则a∈B),那么集合A称为集合B的子集(subset).

骆拜彼1621subset()详细用法 r语言 -
金兴阁19838437741 ______ ? subset 解决一切?是英文半角状态下的问号...

骆拜彼1621suhset汉语是啥意思
金兴阁19838437741 ______ sunset 日落

骆拜彼1621r语言 怎么去掉不要的col subset -
金兴阁19838437741 ______ 我们拿mtcars来做例子,比如你不想要第一列mtcars$mpg,有三种方法可以实现.直接去掉,subset()和transfrom()1. 直接写-1 mtcars[,-1]2.select参数给负的列名 subset(mtcars, select = -mpg)3.mpg这一列强制为空 transfrom(mtcars, mpg = NULL)

骆拜彼1621matlab 中什么语句可以得到排列组合的所有情况例如C8取2 的所有情况(不是值) -
金兴阁19838437741 ______[答案] 命令:combntns(set,subset)在集合set中取subset个元素的所有组合例如:在[2 3 5 9 7]中取3个元素的所有组合为:combntns([2 3 5 9 7],3)运行结果:2 3 52 3 92 3 72 5 92 5 72 9 73 5 93 5 73 9 75 9 7另外可以用命...

骆拜彼1621r软件 如何取一个集合的子集的集合 -
金兴阁19838437741 ______ 可以考虑用subset函数,如:library(car)WoolWool2=subset(Wool,load>46)Wool2

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024