首页 >>  正文

轻量版网页入口web免费

来源:baiyundou.net   日期:2024-08-02

金磊 明敏 发自 凹非寺

量子位 | 公众号 QbitAI

开源最彻底的大模型来了——130亿参数,无需申请即可商用。

不仅如此,它还附带着把全球最大之一的中文数据集也一并开源了出来:600G1500亿tokens!

这就是来自昆仑万维的Skywork-13B系列,包含两大版本:

  • Skywork-13B-Base:该系列的基础模型,在多种基准评测中都拔得头筹的那种。
  • Skywork-13B-Math:该系列的数学模型,数学能力在GSM8K评测上得分第一。

在各大权威评测benchmark上,如C-Eval、MMLU、CMMLU、GSM8K,可以看到Skywork-13B在中文开源模型中处于前列,在同等参数规模下为最优水平

而Skywork-13B系列之所以能取得如此亮眼的成绩,部分原因离不开刚才我们提到的数据集。

毕竟清洗好的中文数据对于大模型来说可谓是至关重要,几乎从某种程度上决定了其性能。

但昆仑万维能将如此“至宝”无偿地给奉献出来,不难看出它对于构建开源社区、服务开发者的满满诚意。

除此之外,昆仑万维Skywork-13B此次还配套了“轻量版”大模型,是在消费级显卡中就能部署和推理的那种!

Skywork-13B下载地址(Model Scope):

https://modelscope.cn/organization/skywork

Skywork-13B下载地址(Github):

https://github.com/SkyworkAI/Skywork

接下来,我们进一步来看下Skywork-13B系列更多的能力。

无需申请即可商用

Skywork-13B系列大模型拥有130亿参数、3.2万亿高质量多语言训练数据

由此,模型在生成、创作、数学推理等任务上提升明显。

首先在中文语言建模困惑度评测中,Skywork-13B系列大模型超越了目前所有中文开源模型

在科技、金融、政务、企业服务、文创、游戏等领域均表现出色。

另外,Skywork-13B-Math专长数学任务,进行过数学能力强化训练,在GSM8K等数据集中取得了同等规模模型最佳效果。

与此同时,昆仑万维还开源了数据集Skypile/Chinese-Web-Text-150B。其数据是通过精心过滤的数据处理流程从中文网页中筛选而来。

由此,开发者可以最大程度借鉴技术报告中大模型预训练的过程和经验,深度定制模型参数,进行针对性训练与优化 。

除此之外,Skywork-13B还公开了模型使用的评估方法、数据配比研究和训练基础设施调优方案等。

而Skywork-13B的一系列开源,无需申请即可商用

用户在下载模型并同意遵守《Skywork模型社区许可协议》后,不用再次申请商业授权。

授权流程也取消了对行业、公司规模、用户数量等方面限制。

昆仑万维会如此彻底开源其实也并不意外。

昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的老兵了,也是中文Linux开源最早的推动者之一。

在今年ChatGPT趋势刚刚兴起时,他就多次公开发声、强调开源的重要性:

代码开源可助力中国版ChatGPT弯道超车。

所以也就不难理解Skywork-13B系列大模型的推出了。

所以,Skywork-13B系列开源工作,具体是如何实现的呢?

更“瘦”结构、更全数据

Skywork-13B的技术细节可以从四方面看起:

  • 模型结构
  • 训练数据
  • 训练方法
  • 评估方法

首先在结构上,Skywork-13B相比Llama2-13B,更加“瘦长”,模型层数为52。

这样做的好处是能在大Batch Size训练下取得更好泛化效果

同时将FFN Dim缩小到12288和4608,可以保证模型参数量和原始Llama2-13B模型相当

具体Skywork-13B和Llama2-13B对比如下:

其次在数据方面,昆仑万维也公开了英文、中文、代码数据的比例。

可以看到中英文部分吸收了大量网页数据和社交媒体数据,同时兼顾了相对专业的方面,比如学术论文、年报、文书等。

代码方面则主要从GitHub上吸收数据。

在训练方法方面,Skywork-13B也是完全开源。

训练共有两个阶段:

第一阶段使用通用语料进行通用能力学习,第二部分加入STEM(科学,技术,工程,数学)相关数据进一步增强模型的推理能力、数学能力、问题解决能力。

这样做的好处是能更加精细化利用数据。

最后在模型评估方面,昆仑万维给出了领域数据困惑度评估方法。

大语言模型训练的本质是让预测的下一个词(个体)更加准确。

昆仑万维认为评估基础大模型的一个重要方式,就是评估在各个领域中,大语言模型生成文章(整体)的概率。

一般模型预测下一个词的概率会使用Cross Entropy损失函数,整体的损失函数为每个位置预测真实词损失的平均:

n表示文档长度(token数量),pi是位置i上真实词的概率。

将文档中每个位置上真实词的概率连乘,则为生成文档整体的概率。

这样一来,就能将loss和生成文章的概率联系在一起了。

而由于不同模型使用的分词器不同,token数量不同,因此对损失函数乘以token数目n,这样就能仅考虑生成文章的概率部分,不同模型也可以进行比较

将标准化后loss取指数转换成perplexity(困惑),可以使模型的差异更加可读。

基于如上分析,昆仑万维在多个领域筛选出了这个月发表的成百上千篇高质量文章(2023年10月),并进行人工核对。

选择最新的数据,为的是保证测试数据不在所有评估大模型的训练集范围内。

如下是最后评估结果,可以看到Skywork-13B表现突出。

如何评价?

对于昆仑万维此次的开源发布,可以说它主打的就是个“敢”

毕竟能将大模型背后的利器——高质量数据集,能够如此毫不避讳地放出来共享,放眼全球范围都是寥寥无几的存在。

而若是将时间线拉开来看,我们就不难理解昆仑万维是怎么这么“敢”的了。

早在今年年初、全球各大厂商大模型“争奇斗艳”白热化阶段,昆仑万维就以黑马的姿态直接杀入百模大战。

首发就敢以现场直播、实时演示的方式,让天工参加自家程序员面试,并且很流畅地通过了第一关:

而且除了面试题之外,昆仑万维还敢直面弹幕中网友们现场提出的各种刁钻问题:

在接下来的时间里,昆仑万维还保持着数月一迭代的优化,让语义理解、推理等任务变得更加丝滑。

并且在8月底,昆仑万维率先在国内推出了第一款融入大模型能力的AI搜索。

是当时刨除插件形式之外,第一个敢将大模型能力投入应用的独立AI搜索产品。

而在短短2个月后,昆仑万维又将最新的大模型、最新的数据集,一并发布且开源,可以说它的一切动作不仅在于快,更是在于敢。

那么接下来的问题是——为什么要这么做?

其实,对于AIGC这一板块,昆仑万维早在2020年便已经开始涉足,早早的准备和技术积累就是它能够在大热潮来临之际快速跟进的原因之一。

据了解,昆仑万维目前已形成AI大模型、AI搜索、AI游戏、AI音乐、AI动漫、AI社交六大AI业务矩阵。

至于不遗余力的将开源这事做好做大,一方面是源于企业的基因。

昆仑万维董事长兼CEO方汉是最早参与到开源生态建设的开源老兵,也是中文Linux开源最早的推动者之一,开源的精神和AIGC技术的发展早已在昆仑万维战略中完美融合。

正如方汉此前所言:

昆仑天工之所以选择开源,因为我们坚信开源是推动AIGC生态发展的土壤和重要力量。昆仑万维致力于在AIGC模型算法方面的技术创新和开拓,致力于推进开源AIGC算法和模型社区的发展壮大,致力于降低AIGC技术在各行各业的使用和学习门槛。

没错,降低门槛,便是其坚持开源的另一大原因。

从昆仑万维入局百模大战以来的种种动作中,也很容易看到它正在践行着让天工用起来更简单、更丝滑。

总而言之,昆仑万维目前已然是处于国产大模型的第一梯队,甚至说是立于金字塔尖都不足为过。

那么在更大力度的开源加持之下,天工大模型还将有怎样惊艳的表现,是值得期待一波了。

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"9cc0106b5cff27151","img_data":[{"flag":2,"img":[{"desc":"","height":"225","s_url":"https://p0.ssl.img.360kuai.com/t012722b4ebb5abf039_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t012722b4ebb5abf039.gif","width":"308"},{"desc":"","height":"464","title":"","url":"https://p0.ssl.img.360kuai.com/t01d3e55e4d8643cb42.jpg","width":"1080"},{"desc":"","height":"554","title":"","url":"https://p0.ssl.img.360kuai.com/t0175360ddbbfad2d1b.jpg","width":"1080"},{"desc":"","height":"450","title":"","url":"https://p0.ssl.img.360kuai.com/t0192a23313b2a7c8d2.jpg","width":"450"},{"desc":"","height":"755","title":"","url":"https://p0.ssl.img.360kuai.com/t01549309259e5dfb32.jpg","width":"738"},{"desc":"","height":"966","title":"","url":"https://p0.ssl.img.360kuai.com/t010455486db368cfa6.jpg","width":"680"},{"desc":"","height":"694","title":"","url":"https://p0.ssl.img.360kuai.com/t01d533544ad69e1d91.jpg","width":"1080"},{"desc":"","height":"896","s_url":"https://p0.ssl.img.360kuai.com/t013b5a4305c474785f_1.gif","title":"","url":"https://p0.ssl.img.360kuai.com/t013b5a4305c474785f.gif","width":"900"},{"desc":"","height":"415","title":"","url":"https://p0.ssl.img.360kuai.com/t01b47a95672129419d.jpg","width":"1080"},{"desc":"","height":"498","title":"","url":"https://p0.ssl.img.360kuai.com/t016aa5af4a836bfa3e.jpg","width":"1080"}]}],"original":0,"pat":"zzc,art_src_3,fts0,sts0","powerby":"pika","pub_time":1698649200000,"pure":"","rawurl":"http://zm.news.so.com/f1892a719885efe2216f79b5d3403a45","redirect":0,"rptid":"b003e66a0f6cf039","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维

籍逃栏3369微信公众号网页版登录入口在哪里? -
那泥兴15718817666 ______ 公众号网页版登录入口是:微信公众平台登录页面.1. 微信公众平台登录页面地址:首先,公众号网页版的登录入口是微信公众平台的登录页面.你可以通过在搜索引擎中输入“微信公众平...

籍逃栏3369百度的网页版入口在哪? -
那泥兴15718817666 ______ 百度贴吧网页版入口是百度贴吧官网(https://tieba.baidu.com).拓展知识:百度(Baidu)是拥有强大互联网基础的领先AI公司.百度愿景是:成为最懂用户,并能帮助人们成长的全球顶级高科技公...

籍逃栏3369拷贝漫画网页版入口在哪里 -
那泥兴15718817666 ______ 拷贝漫画网页版入口通常可以通过搜索引擎直接搜索"拷贝漫画网页版"或者访问拷贝漫画的官方网站,在网站上找到"网页版入口"或者类似的链接进行访问.不过,由于网络...

籍逃栏3369网易邮箱web页面登录 -
那泥兴15718817666 ______ 登陆mail.163.com 进入邮箱后就是web登陆. web是网站的意思. 连上Internet,打开浏览器,输入网址,登陆web 意思为你登陆网站. 我们使用的126、163、yahoo.等信箱都是web方式登录,是指使用web方式收发邮件,和outlook等邮件客户端一样,都是收发邮件的 一种方式,应该是邮件服务器所提供的功能.不存在只能固定在一台电脑上的问题.只要有了信箱地址和密码到任何一台电脑上连线都可以登录. 邮件客户端软件是必须依赖于某个WEB邮箱才可以使用.所以如果你想使用客户端软件收发信件还必须事先进行设置.

籍逃栏3369快手官方网页版入口 快手在线打开观看 快手直播官方网页版入口 -
那泥兴15718817666 ______ 快手官方网页版入口是 https://www.kuaishou.com/,在该网站上可以登录自己的账号,观看热门内容、搜索感兴趣的内容和用户,发布自己的视频等. 要在线打开观看快手,可以在快手官方网页版上搜索感兴趣的内容或用户,点击进去即可观看对应的视频或直播. 快手直播官方网页版入口是https://live.kuaishou.com/,在该网站上可以浏览当前正在进行的直播和预告,也可以搜索感兴趣的主播和内容,观看直播和互动. 总之,通过快手官方网页版和直播官方网页版,用户可以更方便地浏览和使用快手平台,享受多样的内容和带来的乐趣.

籍逃栏3369jmcomic3.0mic网页版入口在哪里(jmcomic3 -
那泥兴15718817666 ______ jmcomic3.0mic网页版入口在jmcomic2.0mic网页版入口网址里面.根据查询相关资料信息,jmcomic2.0mic网页版入口网址:点此进入jmcomic3.0mic网页版,https://www.china-consulting.cn/sjtx/27683.html.

籍逃栏3369拷贝漫画网页版入口在哪儿 - 百度问一问
那泥兴15718817666 ______ 拷贝漫画网页版哗枯入御芦念口的镇困网址是https://www.copymanga.com/.

籍逃栏3369大象网页版登录入口
那泥兴15718817666 ______ https://www.hntv.tv/todo/大象网系大象新闻客户端的PC端,又名河南网络广播电视... 辐射中部,面向全国. 大象网页版登录入口 大象网页版的登录入口是http://x....

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024