首页 >>  正文

英语三种语义关系

来源:baiyundou.net   日期:2024-09-21

链接大模型与外部知识,通用语义向量模型是决定大模型性能的关键组件。由“关联文本”为基本元素的优质训练数据,是生产通用语义向量模型的核心要素。

智源研究院发布大规模文本对训练数据集MTP(massive text pairs),开放热门语义向量模型BGE训练所用的超3亿条中英文数据,以规模巨大、主题丰富、数据质量高为特点,推动语义向量模型训练高质量发展。

智源BGE中英文语义向量模型

开源可商用,自发布以来,即凭借优秀的中英文语义检索精度与整体语义表征能力成为广受社区欢迎的语义向量模型:

- 大规模向量模型权威排行榜 MTEB上排名稳居第一

- Hugging Face 累计下载量达到数十万

- 被LangChain, LangChain-Chatchat, llama_index 等多个知名开源项目集成

与此同时,BGE模型回应社区反馈、快速迭代,带来一系列升级更新。

MTP数据集链接:

https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型链接:

https://huggingface.co/BAAI

BGE 代码仓库:

https://github.com/FlagOpen/FlagEmbedding

秉承 BAAI 数据集开源传统,3亿中英向量模型训练数据开放

数据在大模型训练中至关重要,构建高质量开源数据集,特别是用于训练基础模型的开源数据集对大模型发展意义重大,然而中文社区却鲜少数据开源贡献者。

本次发布的全球最大语义向量模型训练数据MTP,具备如下特征:

  • 规模巨大:3亿文本对,中文1亿,英文2亿。
  • 主题丰富:源自海量优质文本数据,涉及搜索、社区问答、百科常识、科技文献等多种主题。
  • 数据质量高:数据经过必要的采样、抽取、过滤获得;由该数据训练得到的语义向量模型BGE (BAAI General Embedding)性能大幅领先同类别模型。

详情参见MTP数据集:

https://data.baai.ac.cn/details/BAAI-MTP

建设高质量中文数据集、推动数据资源开源开放是智源来持续贡献的方向。

  • 2021年,智源推出全球最大语料库WUDAO copora ,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。
  • 今年开放的最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源动人故事。

目前,智源亦在推动各方共建大规模高质量中文数据库,以盘活我国高质量中文数据资源,加快数据处理相关标准、技术、工具和支撑平台研发,提高数据处理效率。

下载达数十万,被LangChain集成,广受欢迎的BGE模型升级更新

BGE 语义向量模型一经发布就备受大模型开发者社区关注,目前Hugging Face累计下载量达到数十万,且已被LangChain, LangChain-Chatchat, llama_index 等知名开源项目集成。

了解更多:

《链接大模型与外部知识,智源开源最强语义向量模型BGE 》

中文语义向量模型评测(C-MTEB)

英文语义向量模型评测榜(MTEB)

Langchain官方推文:“BGE模型在MTEB基准上排名第一”。

LangChain联合创始人兼首席执行官Harrison Chase推荐

Deep trading 创始人Yam Peleg 表示:“BGE在(推出)不到一周时间超越了之前的领先模型,创下新纪录”。

基于社区反馈,BGE进一步优化更新,表现更加稳健、出色。具体升级如下:

  • 模型更新。BGE-*-zh-v1.5缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数temperature至0.02,使得相似度数值更加平稳 。
  • 新增模型。开源BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。
  • 新增功能。BGE1.1增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。

值得一提的是,日前智源联合Hugging Face发布了一篇技术报告,报告提出用C-Pack增强中文通用语义向量模型。

《C-Pack: Packaged Resources To Advance General Chinese Embedding》:https://arxiv.org/abs/2309.07597

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"9b06a50b66af14af9","img_data":[{"flag":2,"img":[{"desc":"","height":"1244","title":"","url":"https://p0.ssl.img.360kuai.com/t0161b2875e165163c6.jpg","width":"2148"},{"desc":"","height":"440","title":"","url":"https://p0.ssl.img.360kuai.com/t015890467d0b2a8404.jpg","width":"1270"},{"desc":"","height":"510","title":"","url":"https://p0.ssl.img.360kuai.com/t01fed89e6759601601.jpg","width":"1272"},{"desc":"","height":"720","title":"","url":"https://p0.ssl.img.360kuai.com/t01c46e391702a06f49.jpg","width":"985"},{"desc":"","height":"636","title":"","url":"https://p0.ssl.img.360kuai.com/t015d6bb59bf5d103af.jpg","width":"1080"},{"desc":"","height":"720","title":"","url":"https://p0.ssl.img.360kuai.com/t01271100fe367dddaf.jpg","width":"834"}]}],"original":0,"pat":"art_src_3,fts0,sts0","powerby":"hbase","pub_time":1694766120000,"pure":"","rawurl":"http://zm.news.so.com/a146a93d284977244b686e309c5b7d5a","redirect":0,"rptid":"60038fad30b97d9a","rss_ext":[],"s":"t","src":"量子位","tag":[],"title":"智源发布超3亿对面向中英文语义向量模型训练数据集

强茂士1980动词的 - ed形式有哪些语法应用?
巴空新15378246707 ______ 一、作表语 动词的-ed形式是动词的另一种非限定性形式,一般由动词加-ed构成.... 三、作定语 1.-ed分词可以作前置定语,此时,分词与名词之间有两种语义关系:一种...

强茂士1980定语后置和状语前置的区别就像凌万顷之茫然是定语后置为啥惑之不解是
巴空新15378246707 ______ 一般说来,形容词放在所修饰名词的前面.单个的现在分词、过去分词以及动名词作... 动词不定式做后置定语与被修饰成分之间表示不同的语义关系. 1. 表示动宾关系. ...

强茂士1980定语、状语、补语怎么分辨?
巴空新15378246707 ______ 定义:定语用来限定、修饰名词或代词的,定语是对名词或代词起修饰、限定作用的... 补语与宾语的区别 ①补语、宾语与述语之间的语义关系不同. 补语与述语之间是补充...

强茂士1980所有格的意义是什么?所有格的意义分为主谓关系和动宾关系,怎样区分
巴空新15378246707 ______ 一、名词的格 格(Case)是名词或代词的形势及其变化,它表示名词或代词在句子中与其他词之间的结构和语义关系.英语的格分为主格宾格和所有格.主格在句中作主...

强茂士1980什么是主语,表语,宾语,定语,状语,补语? -
巴空新15378246707 ______ 组成句子的各个部分叫句子成分.英语句子成分有主语,谓语,表语,宾语,宾语补足语,定语,状语等. 顺序一般是主语,谓语,宾语,宾语补足语,而表语,定语,状语的位置要根据情况而定. 1、主语 主语表示句子主要说明的人或事物...

强茂士1980从语音、语义、语法三方面举例论述组合关系和聚合关系 -
巴空新15378246707 ______[答案] 本科的语言学学的这么快 才开学啊 学到句法了?这是英国伦敦学派的代表人物弗斯Firth受Saussure影响 提出的两种句法关系:横组合关系 句子是按照一定语义表达顺序和逻辑顺序构成的 并非无序性构成 以下三方面:/ai/ /...

强茂士1980英语中的:句法、语法、语义、逻辑关系、固定搭配都是怎么解释的 -
巴空新15378246707 ______ 句法是肯定句、否定句、一般疑问句、特殊疑问句、感叹句、从句等等;语法就是形容词可以修饰名词、名词可以动用、副词可以修饰形容词、动词ing可以作名词之类的规则;语义就是一句话所表达出的意思,根据语法划分成一个一个的义群,在组合成句子所表达出的整体意思;逻辑关系就是通过我们的常识和逻辑思维判断出的切合实际或联系上下文来看的真实意思的表达;固定搭配是语法之外的一些特定的用法.希望可以帮到你.

强茂士1980英语.什么是宾语从句,定语从句,状语从句,状语,定语?????
巴空新15378246707 ______ 在句子中起宾语作用的从句叫做宾语从句.宾语从句分为三类:动词的宾语从句,介词的宾语从句和形容词的宾语从句. 时态: 1.主句用一般现在时,从句可用任意时态. 2.主句用过去时,从句用过去某个时态. 3.主句用过去时,从句是真理时,...

强茂士1980英语双关语(pun)如何分类 -
巴空新15378246707 ______ “Pun与“双关”比较研究 沈志和 摘要:pun与“双关”分别是英汉语中两种不能完全等同的修辞格.从定义来看,“双关”即“一语双关”;而pun除了“一”语双关外还可以“二”语双关,甚至“多”关.从分类来看,pun包括paronomasia,...

强茂士1980英语语法培训教程笔记整理
巴空新15378246707 ______ 英语语法教程中的语法知识点,我们来看一些比较简单的.下面是我给大家整理的英语语法教程,供大家参阅!英语语法教程:名词的数 1.名词的数Her family are all music...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024