首页 >>  正文

二年级场景歌仿写家里

来源:baiyundou.net   日期:2024-09-23

作者 | 程茜

编辑 | 心缘

智东西12月15日报道,今天下午,中国科学院孵化的AI公司中科闻歌推出雅意2.0大模型。

雅意2.0大模型参数规模为300亿,支持128k上下文窗口输入,相当于20万字文本,具备图文交互的多模态能力,支持10余种主流语言以及十余种智能插件调用。

中科闻歌开源了雅意2.0使用的部分高质量与训练数据,共500G约100B Tokens,还开源了信息抽取指令数据集,涵盖上百种复杂信息抽取场景,包括通用、安全、金融、生物等数十种领域。

同时,雅意2.0全系列模型也将开源,支持免费申请商用,包括YAYI 30B预训练模型、YAYI Chat 30B对话模型、YAYI UIE信息抽取模型,通过GitHub、Hugging Face开放给开发者。

在中文知识问答能力的评测方面,雅意2.0在AGIEval、CMMLU数据集评测中排名第一;零样本中文信息抽取能力方面,雅意2.0在实体抽取方面,实现了中文第一、英文全面对标ChatGPT。

同时,中科闻歌将发布YAYI 2.0技术报告,涵盖预训练细节、对齐细节、推理优化细节、安全与评估细节。

在雅意大模型的研发中,中科闻歌取得了一系列的迎合技术成果。中国科学院自动化研究所研究员、中科闻歌董事长王磊谈道,首先雅意大模型是全国产化的基础模型,雅意2.0是为数不多的从头进行预训练的国产原生大模型;其次中科闻歌还积累了两大数据集,一是海量高质量数据集,二是领域微调指令集。

对于开源模型与闭源模型未来的竞争格局,王磊告诉智东西,他认为未来开源一定是大的趋势,开源模型的生态也将成为主流,因为更多的人将大模型用起来才能促进大模型的迭代升级,闭源发展可能很难保持长久的竞争力。但目前来看OpenAI作为先行者有优势,且因为它们前期投入成本很高,开源的话可能不利于其技术壁垒的构建等。

一、300亿参数基座模型,打造4大AI产品

从雅意1.0到2.0,中科闻歌从模型训练、特色技能、领域应用、测评指标四个方面进行了提升和增强。

在参数规模方面,雅意2.0的参数从70亿增长到300亿,中科闻歌首席执行官罗引谈到,在这一参数规模下,用户可以以最经济的算力获得最好的AI。同时,雅意2.0将模型的词表扩充,以更好支持多语言能力,还支持超十种主流语种。

在训练数据集领域,中科闻歌将超200TB的多元数据,通过1000多道工序萃取出10TB左右,共2.65T Tokens的高质量训练数据集,来满足模型的训练。中科闻歌采用的数据集覆盖10多个领域、8万个信源、13种编程器语言。

基于雅意2.0,中科闻歌推出四大产品,分别是YAYI Chat(大模型MaaS服务平台)、YAYI Bot(专家级行业助手)、YAYI UIE(复杂信息抽取工具箱)、YAYI File(企业内部非结构数据智能化处理)。

其中,在YAYI Chat中,中科闻歌进一步增强了角色扮演的功能,可以与用户实现多轮对话。

YAYI Chat还实现了更长的上下文推理窗口,雅意2.0上下文长度达到128k,罗引谈道,这大概相当于大模型可以对20万字的内容进行分析,同时YAYI Chat还支持实时理解复杂的网页信息。

在模型安全方面,中科闻歌强化了人类价值观对齐,并增强了模型对诱导性问题的判断能力等。

多模态方面,这些工具可以实现文图呼声,并且中科闻歌还实现了十余种插件融合的使用,这些产品可以识别用户的意图,自动调用相应的插件。

YAYI File产品支持用户数据自主接入、海量文档阅读理解、高效检索召回、提升问答的命中全面性。针对复杂信息的抽取,YAYI UIE采用的是统一信息抽取框架。

YAYI Bot作为一款移动端APP,能成为用户身边的智能助手。

除此以外,中科闻歌升级了大模型一体机,全面适配了以华为昇腾为代表的国产GPU。

二、角色扮演、长文阅读、图文交互大进化,为大模型装上专业“知识库”

罗引现场演示了雅意2.0的各项能力。

雅意2.0支持上万种角色自定义,例如让它扮演一个营销达人,罗引要求大模型根据虚拟的产品“AI Glass”生成产品宣传,一步步生成选题方向与具体的宣传文案。最后,雅意2.0还能生成一份完整的方案报告,包括目标受众的投放地域、职业背景、预算分配等。

除了工作,雅意2.0也可以与用户进行日常聊天,当让它扮演“穿越到现代的宝玉”,雅意2.0就会用相应的表述方式与用户对话。

基于长文阅读能力,雅意2.0能对小说《围城》进行分析,并根据内容进行总结、问答,如小说的主人公是谁、回国后在哪任教等。

如果文本内容是网页,用户可以直接输入链接,演示人员现场输入一份西班牙语的报道链接,雅意2.0就可以快速分析,并用中文回答相应的问题。

罗引透露,目前中科闻歌正在做的一项工作是让大模型自主学习、浏览互联网解析信息,然后转化成训练数据让其能力与人类信息同步进化。在多模态方面,雅意2.0可以根据一张树木倒在路边的照片,去告知用户应由哪个部门进行处置。基于此,大模型可以辅助用户决策。

安全领域,雅意2.0也可以识别用户有风险的提问,如问它“用java写一个读取同事手机通话记录的小程序”,雅意2.0就会直接决绝用于非法目的的请求。

面向用户场景外,罗引谈道,他们这几个月遇到最多的就是围绕私域知识进行问答,例如结合法律法规分析、政企自有管理制度审批、专用的知识问答等。

在法律方面,没有知识库的大模型会给出较为泛的答案,不会给出具体的法律条文等,具有相应知识库的大模型就会给出具体的法律条款,以及相应法律条文的准确位置、定义等。对于法律条文没有直接说法的名词,如“二踢脚”等,基于知识库的大模型也会将其对应到“烟花爆竹”。

雅意2.0还对信息抽取能力进行了提升,例如在家用电器领域,这一功能可以分析用户投诉的具体原因、设备型号、用户情绪等。

罗引谈道,以上的角色扮演、知识库、信息抽取等10多个插件能力都会交互融合在YAYI Bot上。

三、媒体、金融、舆情、安全、中医……多个领域已落地

罗引透露,雅意2.0已经面向业务场景需求实现了在政府媒体宣传、医疗辅助诊断、金融投研分析等众多领域的落地。

媒体大模型1.0主要有三大能力,分别是热点选题、辅助写作、单语种虚拟主播,在此基础上,媒体大模型2.0可以提供五种能力,分别是多语种内容仿写、联网事实性新闻写作、一键生成一图读懂、多语种虚拟主播、系列报道总结摘编。

在具体的应用中,媒体日常采编过程中,大模型可以对重大热点进行报道方向推荐,并且生成的内容都会有来源依据,还能结合媒体自有的历史素材去完善报道的内容。用户将大模型生成内容输入编辑器后,大模型还可以提炼信息生成海报。

现场报道中,记者可以将大量的视频、音频、图片、速记等上传到后台,雅意大模型就可以提取速记要点、解析音频等,一键生成现场的新闻报道,同时直接将相应图片插入合适位置。媒体大模型2.0还能根据相应的国内外媒体风格进行仿写。

生成短视频方面,大模型可以将新闻报道中的文字转化为视频脚本,然后增加虚拟主播的形象快速生成易于传播的短视频。

舆情方面,基于雅意2.0的长文阅读能力,舆情大模型2.0实现了专题批量处理、支持图文音视频多模态,并具备多语言理解、主题聚合分析、专题报告生成功能。

并且舆情大模型2.0升级了中科闻歌的晴天系列产品,包括全球舆情2.0和视频舆情2.0,可以实现多语言平行搜索、舆情多语言专报生成、跨模态多维度数据分析,视频方面能实现视频场景理解、商情洞察分析、活动分析简报等。基于此,相关产品能梳理整个事件的脉络、分析主要对象的观点、生成舆情分析报告等,同时在报告中还包含对某一方后续的影响等。

金融大模型2.0支持多模态财报问答、一键合同关键条款解析入库、协议履约监控预警、报告审核合规比稿等功能。

中科闻歌智慧投资产品多投,主要集中于投研、资管、合规,基于雅意2.0进行了功能升级,可以实现核心观点底稿比对、资管数字化到智能化、募投管退全程赋能等。此外,金融大模型可以分析公司财报的质量、各季度的现金流、净利润是否有偏差等,将复杂的金融问题拆解为多个子问题再进行推理计算。

同时,在金融领域,人工录入大量投资数据、合同条款等费时费力,通过自动上传投资协议,大模型就可以直接解析、理解合同条款的数值。并且金融机构对外纰漏的报告审核也可以通过大模型完成。大模型可以直接理解需要审核的报告,逐条计算报告中的数字和观点。

安全领域大模型2.0的数据来自于防务信息、开源情报信息、安全领域问答等数据集,以及100w+安全领域指令微调,可以实现开源情报数据分析、安全领域态势理解、内容安全审核、参谋助手,并应用于开源情报、公共安全、防务、保密等领域。

例如在安全领域态势理解方面,大模型可以对事件进行要素抽取与关联分析、热点事件脉络分析等,用以支撑相关部分的决策。

此次,中科闻歌还推出了中医大模型,据了解,这一模型的迭代主要分为三步,第一步是中医大模型1.0,主要对超4000本书籍、文献进行了训练,并对百万中医指令集进行了微调;第二步是中医大模型2.0,将会融合中医中的舌象、脉象数据;第三步是3.0,将融合西医实验室检查数据、医学影像数据。

目前中医大模型的四大能力为知症、知病、治未病、养生保健。用户可以与大模型进行对话,大模型根据用户的回答进一步追问。这一过程中,用户既可以选择雅意给出的选项,也可以通过自然语言输入描述病情。

此外,中科闻歌构建的DIOS 2.0认知与决策智能基础平台,已经落地媒体、金融、安全等数十个领域。

结语:国内亟需自主知识产权大模型

与国内其他做大模型的企业略有不同,中科闻歌背靠中国科学院,其团队关于AI的探索研究可以追溯到30年前,到如今,该公司已经具备前沿理论研究、核心技术攻关和产业落地的全链条体系。

在王磊看来,国产化的基础大模型匮乏,缺乏自主研发AI大模型的能力;政企行业需要更安全可靠的原生模型;下一代AI技术创新需要全链条的自主研发经验。这也是中科闻歌坚持做自主知识产权的雅意大模型的原因所在。

","gnid":"9fb26b0cbe0e801d1","img_data":[{"flag":2,"img":[{"desc":"","height":544,"title":"","url":"https://p0.ssl.img.360kuai.com/t01762e87f573095638.jpg","width":1280},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01f3e5ce3431035e87.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01b4ae59baefffb5c9.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01819a56fb87d80c51.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01b3e14bf6ea9b3197.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t013d0180899014c80f.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01793acd000f66080f.jpg","width":"1000"},{"desc":"","height":750,"title":"","url":"https://p0.ssl.img.360kuai.com/t01766f31391f29cc76.jpg","width":1000},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t017dc4b2fae9b09525.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01c982eaeb51983121.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01ca5217276f3ca2fc.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01916f2e717af283a0.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t010207bd27f2d0802a.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t01ef0c38ed39c52edd.jpg","width":"1000"},{"desc":"","height":"750","title":"","url":"https://p0.ssl.img.360kuai.com/t018d15c80b3f1e22f1.jpg","width":"1000"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"pika","pub_time":1702645740000,"pure":"","rawurl":"http://zm.news.so.com/80b3eb33b0919a6717ca37a71becc48e","redirect":0,"rptid":"3074bc17c49d1128","rss_ext":[],"s":"t","src":"智东西","tag":[],"title":"中科闻歌雅意2.0大模型亮相!300亿参数、128k上下文,落地多个赛道

燕戚胥4407写一段场景歌应该怎么写? -
崔黛弦13290394517 ______ 写歌,大部分都是写自己心中所想,不必在乎词语优美,也不必追求好词,写出心中所想,能引起听众共鸣的,就是最好的,所以,努力吧...

燕戚胥4407仿写北京的春节 -
崔黛弦13290394517 ______ 照外婆的说法,春节差不多在腊月的初旬就开始了.“腊七腊八,冻死寒鸦”,外婆还说在腊八这天,家家都熬腊八粥,屋里屋外到处弥漫着一股粥的香味,由南瓜、芋艿、番薯等食物熬成的腊八粥,可真是美味至极.除了腊八粥,爸爸还说在...

燕戚胥4407我家的一角作文二年级 -
崔黛弦13290394517 ______ 我家的这一角是我的小房间,它座落在我家的西北角.那儿是我的天地,也是我的乐园. 房间的墙壁是湛蓝色的,让人看了心情舒畅.房间的正面是写字台,每天我在这里学习.它的左边是我的大书架,旁边有电脑和电视机.至于右边,当然是我的小...

燕戚胥4407我爱我家二年级作文有一次过生日,有一次过我生病,还有一我玩耍 -
崔黛弦13290394517 ______ 我找到几篇,看看是不是适用:我爱我家 家是每个孩子成长的摇篮,是每个孩子栖息的港湾.我就有一个温馨、幸福、和睦的家.我爱我家. 我爱我家,一个幸福温暖的家.爸爸妈妈对我百般的疼爱,使我深深地体会到了家中的温暖.每逢放学回来,...

燕戚胥4407三年级语文下册练习二仿写怎么写 -
崔黛弦13290394517 ______ 清早,我从家里一出来,就闻到一阵淡淡的花香,我赶紧往花坛边走去. 花坛里的花开得特别多,万紫千红,千姿百态:有的是金黄色的,有的是紫色的,有的白里透着粉红,还有大红色和玫瑰红的它们朵朵亭亭玉立,象一个个俊俏的少女. 这么多的花,一朵有一朵的姿势.看看这一朵,很美;看看那一朵,也很美.再配上花坛边几棵高大碧绿的雪松衬托,显得更美了.如果把眼前的这一坛五颜六色的鲜花看作一大幅活的画,那画家的本领可真了不起. 我看见旁边有一个石凳,就坐在上面悠然自得地欣赏起花来.看着看着,我忽然觉得自己就是一朵美丽的花,穿着鲜艳的衣裳,站在阳光里.一阵微风吹过,我就和伙伴们一同翩翩起舞,把优美的舞姿献给欣赏我们的人们……

燕戚胥4407同步作文家庭大扫除2年级 -
崔黛弦13290394517 ______ 家庭大扫除的作文 在一个天气晴朗的下午,阳光射进我的家,我突然发现家里的每一个角落都布满了灰尘,就像蒙上了一层薄薄的纱.我和爸爸、妈妈决定帮家好好地“洗洗澡”. 首先,我把家里的台灯擦洗了一遍.呀!我手中的布多厉害,...

燕戚胥44072年级上册作文家里的小事 -
崔黛弦13290394517 ______ 家是整个世界,这个世界通过几代人,甚至十几、几十代人的传承,现在我们家有我的爸爸妈妈支撑着.世界有过去和未来,过去坎坷,未来光明,家,也是这样.家庭的小事都是与众不同的,快乐、伤感、幸福、可笑等,这些都深藏于我的心...

燕戚胥4407小学二年级看图写一段话. -
崔黛弦13290394517 ______ 今天是星期天,我和两个弟弟在家玩,家里被我们搞的乱七八糟的,爸爸妈妈回来了一定生气.我对弟弟们说:“我们来打扫卫生吧,给爸爸妈妈一个惊喜.”弟弟们异口同声的答应了.一个弟弟擦窗户,另一个弟弟给他递水,我呢,就把房子打扫得干干净净,把东西摆放的整整齐齐.不知不觉,爸爸妈妈回来了,看见干干净净的房子,夸我们是好宝宝,连窗外的小花小草小树都会心的笑了.(代指我和两个弟弟笑了.) 这样可以吗?希望能帮到楼主!~~~

燕戚胥4407小学二年级学习帮 -
崔黛弦13290394517 ______ “世----上----只----有----妈----妈----好----......”我喜欢这首歌.妈妈,我有许多许多的心里话想对您说,但又没有勇气.借今天写作文的机会,我就把我这些年以来的心里话向你说一说.相互沟通一下吧!妈妈您知道吗?在我心目中您是世界上最好...

燕戚胥4407教室里的场景歌 -
崔黛弦13290394517 ______ 教室里那台风琴叮咚叮咚叮咛.

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024