首页 >>  正文

のが翻译

来源:baiyundou.net   日期:2024-09-28

智东西(公众号:zhidxcom)

作者 | ZeR0

编辑 | 漠影

大规模中文语言模型,又迎来了新玩家。

近日,微信AI推出百亿级参数规模的自研NLP大规模语言模型WeLM,能在零样本及少样本的情境下完成对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解等NLP(自然语言处理)任务,具备记忆能力、自我纠正和检查能力。

目前,WeLM已部署应用于微信视频号的部分场景中,未来在进一步优化后还将应用于更多微信应用场景。

一、极强知识储备,在14项中文NLP任务中表现超同类

WeLM可在零样本及少样本的情境下,完成多类NLP任务。以文本风格转换(改写)为例,尽管用户给出的5个例子和最后需要生成的例子并没有重合的风格转换类型,但WeLM拥有出色的举一反三能力,通过学习少量的文本转换例子,即可达到对任意类型的文本转换。

该模型还具有尺寸合理的优势,在与业界同级别的CPM、华为Pangu和百度Ernie3.0的对比测试中,WeLM表现出极强的知识储备。

在14项中文NLP任务上,WeLM的整体表现超出了所有同大小的模型,甚至能够匹配比它大25倍的模型。同时,在强大的中文理解和生成能力外,WeLM还有出色的多语言理解能力,用户的输入可以在跨多语言(中日英)丝滑切换。

从“微信AI推出のWeLM是一个language model thatいろいろなtaskをperformができる”这句混合中日英三国语言文本的翻译结果来看,WeLM的翻译相较Google翻译更为精准。

在进一步微调后,WeLM可以拥有更好的零样本学习能力,根据场景拥有更好的表现。

二、自回归模型路线,全量数据10TB

WeLM的相关技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已发布于论文预印本网站arXiv。

论文链接:https://arxiv.org/abs/2209.10372

据介绍,在纯Encoder(Bert)、纯Decoder(GPT) 以及Encoder-Decode(T5) 结构等主流NLP模型路径的选择上,WeLM和GPT3、Google PaLM一样,选择了自回归模型的路线。

同时,考虑到不同的用户对于模型效果和推理延迟会有考量或者取舍(trade-off),微信AI的WeLM训练了1.3B、2.7B以及10B三个版本的模型,满足不同用户的调用需求。

同时,在训练数据上,微信AI团队希望构建一个足够丰富、足够干净、足够公平的数据集,为此研究团队从Common Crawl下载了近两年的中文网页数据,和大量的书籍、新闻。

为了增强专业能力,微信AI团队还在数据集补充了知识密集的论坛数据和一些学术论文,搜集完成后的全量数据10TB,其中包含了750G的英文数据,并保留了部分日韩文。

随后,通过规则过滤和额外训练的二分类fasttext模型,以及对测评相关数据的去除,数据集最终处理完的数据量为262B tokens。

为了更好的平衡各个数据源的比重,微信AI团队也对数据进行不同比重的采样,最终,整体数据集的Topic分布相比Common Crawl更加平滑。

结语:落地且实用才是硬道理

为了推动WeLM落地应用,微信AI团队还发布了一个供用户体验的交互式网页PlayGround,并开放了用于访问WeLM的API接口。用户可通过调整配置以实现更贴近的文本生成效果。

体验申请API接口:https://welm.weixin.qq.com/docs/

除了通过交互式网页PlayGround进行体验外,想开发者也可以通过https://welm.weixin.qq.com/docs/api/填写问卷获得WeLM的API Token并调用相应接口,将WeLM部署在自己的应用上。

未来,微信AI还将针对WeLM进行进一步的微调优化,进一步提升其在新任务上的泛化效果,并吸取更多开发者、用户的意见和建议,将该模型早日打磨成为真正能落地且实用的工具。

","force_purephv":"0","gnid":"93c8d9f04c0d95955","img_data":[{"flag":2,"img":[{"desc":"","height":"340","title":"","url":"https://p0.ssl.img.360kuai.com/t01bc8e3f5c74322bc3.jpg","width":"800"},{"desc":"","height":"1043","title":"","url":"https://p0.ssl.img.360kuai.com/t012e823e47c5cd3647.jpg","width":"800"},{"desc":"","height":"232","title":"","url":"https://p0.ssl.img.360kuai.com/t01fe978046c13a4125.jpg","width":"800"},{"desc":"","height":"505","title":"","url":"https://p0.ssl.img.360kuai.com/t0186880a7e13b96a22.jpg","width":"800"},{"desc":"","height":"230","title":"","url":"https://p0.ssl.img.360kuai.com/t0106ca4f3ceade19fc.jpg","width":"800"},{"desc":"","height":"641","title":"","url":"https://p0.ssl.img.360kuai.com/t013549b0e1bc041432.jpg","width":"800"},{"desc":"","height":"392","title":"","url":"https://p0.ssl.img.360kuai.com/t01eab6aac70dc2a42a.jpg","width":"800"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1665715920000,"pure":"","rawurl":"http://zm.news.so.com/a386439bbcf702f4cacdddf85ba81daa","redirect":0,"rptid":"b982c3e5c93b9e13","s":"t","src":"智东西","tag":[{"clk":"ktechnology_1:nlp","k":"nlp","u":""}],"title":"AI大模型落地微信视频号!少样本搞定高质量翻译,擅长多语言理解

荣策屠883陈さんがまだ食べたことのない日本料理. 这里为什么用の而不是が,可不可以把 の去掉?这句话怎么翻译 -
厍璧泽15028544973 ______ 这里的の和が是可以互换的,但是前面陈さんが已近用过一个が了,所以用の更合适.不能把の去掉,助词很重要的.

荣策屠883日语翻译口にするのが惮れるやり取りな -
厍璧泽15028544973 ______ 口にする,“说...”的意思,の是动词名词化用法.惮る意思是“顾忌、忌惮”,这里是可能形用法.やり取り指的是“交换、对换” 所以句子意译为:我没有做什么说不出口(或者不可告人)的交易!

荣策屠883日语翻译 どれがあなたのかばんですが -
厍璧泽15028544973 ______ 翻译:“哪个是你的包?”. 疑问词后经常用“が~”, 再如:谁が王さんですか 授业はいつが始まりますか 首先疑问词后面习惯基本都用が多 どれがあなたのかばんですか “重点在前面的哪个~” どれはあなたのかばんですか “ 重点在你的包~” 语感上略有差异.

荣策屠883まさか お花ちゃんを惩らしめるためとはいいながら そこに忍んできたのが田中さまとは——怎么翻译呢? -
厍璧泽15028544973 ______ 日语是正确的 只是没有前后文很难翻译 因为忍ぶ这个词可以有很多种引申的含义

荣策屠883消灭するくらいのことがないと 怎么翻译 -
厍璧泽15028544973 ______ 翻成我们习惯的说法可以这样翻:若是没有毁灭,就……. くらいのこと在这里可以看作是一种强调(语气)的形式语言,不用具体翻译意思的.

荣策屠883日本人善于学习,并加以改造为自己的东西.用日语怎么说.日本人は他人から知识を勉强で、什么什么のが上 -
厍璧泽15028544973 ______ 首先没有「勉强で」这种说法,应该是「勉强して」.日本人は他人から知识を勉强して、自分のものにつくりかえる(直接说する也行)のが上手

荣策屠883翻译一下おもしろいものがたくさんありました -
厍璧泽15028544973 ______ おもしろいものがたくさんありました 翻译为:有很多有意思的东西

荣策屠883态度が大きくなって 怎么翻译? -
厍璧泽15028544973 ______ 态度が大きくなって 的意思是对前辈真是傲慢无礼,态度不好.例句1、 恭而无礼则劳,慎而无礼则葸,勇而无礼则乱,直而无礼则绞. 恭で无礼は労、慎で无礼は恐れる、勇で无礼は乱、直で无礼は挽き. 2、 一个最高尚的人也可以因习惯而变得愚昧无知和粗野无礼,甚至粗野到惨无人道的程度.陀思妥耶夫斯基 最も高尚な人、习惯が无知とも粗野无礼粗野非道な程度まで.ドストエフスキー 3、 赞美使一些人变得谦逊,使另一些人变得无礼. 賛美をいくつか人は谦逊させるが、别の人が无礼. 4、 子曰:“恭而无礼则劳,慎而无礼则葸,勇而无礼则乱,直而无礼则绞.”. 子曰く、「恭で无礼は労、慎で无礼は恐れる、勇で无礼は乱、直で无礼は挽き.」.

荣策屠883最近のイキイキ社员の働きがい翻译一下 -
厍璧泽15028544973 ______ 这句话翻译成汉语的意思是:最近员工干劲十足.イキイキ是热情,情绪高涨的意思 働きがい:有意义的,有价值.最近の是最近的,固定翻译这个词 イキイキ社员是形容词修饰社员,直接翻译 后面的働きがい的有价值的,这是整个句子的主干.

荣策屠883ふたり いきものがかり 的翻译是什么 -
厍璧泽15028544973 ______ ふたり是今年生物股长出的单曲 好像是五月份发行的 很好听 いきものがかり这个是“生物股长”是一个日本组合 女的是主唱 摘录歌词如下 两个人 紧紧相拥 即使再怎么紧紧地相拥 也有无法传递出去的思念 无言的伤痛 现在就由我来承受吧 从...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024