首页 >>  正文

对数坐标系详解

来源:baiyundou.net   日期:2024-09-20

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

向量数据库排行榜的头号交椅,再次易主——

来自零一万物最新研发的高性能向量数据库笛卡尔(Descartes),登顶权威测评榜单。

在此之前,榜单里六个数据集的榜首分属于两家厂商,而笛卡尔的包揽结束了这种“分庭抗礼”的局面,成为了大一统的“新王”。

在权威的ANN-Benchmark榜单中(GitHub 4.4k星),笛卡尔直接包揽了六个数据集的第一名。

而且新前两名的差距也被大幅拉开——相比比前SOTA,笛卡尔的成绩最高提升了286%。

那么,笛卡尔在测试中到底交出了怎样的答卷呢?

包揽权威榜单六项第一

笛卡尔登上的ANN-Benchmarks榜单,包含了六大测试数据集,可以展示不同算法在不同数据集下的表现。

而笛卡尔参与全部六个数据集评测,它们主要考察在不同召回下的查询性能。

结果,笛卡尔(图中右上红色曲线)在这六个数据集的评测中,都取得了最好成绩。

下图为对数坐标系,横坐标代表召回,纵坐标代表QPS(每秒处理的请求数),越往右上角意味着算法性能越好。

而“吞吐量QPS” 是衡量信息检索系统(例如搜索引擎或数据库)查询处理能力的重要指标。

在原榜单TOP1基础上,零一万物笛卡尔向量数据库实现了显著性能提升,部分数据集上的性能提升超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

那么,在笛卡尔优异表现的背后,采用了哪些技术呢?

采用全栈向量技术增强性能

在零一万物团队看来,增强向量检索能力,就是在解决两个问题,一是减少考察的候选集,二是降低单个向量计算的复杂度

针对其中第一个问题,零一万物又采用了两大策略来解决。

首先是采用全导航图技术,构建全局多层缩略图,实现图上坐标系导航,既能保证精度,又能裁剪大量无关向量,解决了哈希、KD-Tree、VP-Tree等传统方式导航效果不够精确、裁剪力度不够的问题。

另一方面,是零一万物自研的自适应邻居选择策略。

它突破了以往仅依赖真实top-k或固定边选择策略的局限,使每个节点可以根据自身及邻居的分布特征,动态地选取最佳邻居边。

这种方式可以更快收敛接近目标向量,从而让RAG向量检索性能提高15%-30%。

而针对第二个问题,零一万物采取的是两级量化方案,从而降低计算复杂度。

同时,利用列式存储充分利用SIMD的并发能力,进一步发挥硬件能力,相比传统PQ查表,性能还能大幅提升到2-3倍。

除此之外,零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

最终,笛卡尔的检索精度超过了99%,而千万级数据库响应时间仅为毫秒量级。

零一万物表示,笛卡尔向量数据库将用在近期即将正式亮相的AI产品中,未来也将结合工具提供给开发者。

大模型重要的基础设施

事实上,以笛卡尔为代表,向量数据库在整个大模型行业中,本就是一项热门技术。

它是检索增强生成(RAG)技术的核心,用来存储、管理、查询和检索向量化的非结构化数据

换言之,也就是大模型形成“长期记忆”的关键,因此也被称为“大模型的海马体”。

除了记忆能力,向量数据库还解决了大模型实时信息更新的问题,还能提高推理效率并降低幻觉,同时在隐私数据不能用于训练时担任信息传递载体……

作为大模型基础设施,无论是在大厂还是初创公司,向量数据库都是一个热门的研究方向。

Google、微软、Meta等传统互联网大厂,都相继在其云服务平台中推出了自己的相关产品。

初创公司方面,Zilliz、Pinecone、Weaviate、Qdrant等公司也是异军突起。

比如成立于上海的Zilliz,其所研发的向量数据库在笛卡尔出现之前就是ANN-Benchmark榜上的王者。

阿里云、腾讯云、微软Azure、亚马逊AWS等国内外知名云服务厂商,都部署了Zilliz的产品。

而除了产业界,向量数据库在投资人眼中同样具有重要地位。

比如前面提到的Zilliz,总计融资金额就已经超过了1.1亿美元。

OpenAI的向量数据库合作方Pinecone,成立至今一共完成四轮融资,总金额更是达到了1.38亿美元。

而像Weaviate、Qdrant等小一些的创业公司,融资金额也都达到了数千万美元。

总之,随着大模型发展进入白热化阶段,零一万物在这时加入这场竞争,向量数据库之后格局会如何变化?值得期待。

— 完 —

量子位 QbitAI · 头条号签约

","gnid":"91c8975ba4c405e44","img_data":[{"flag":2,"img":[{"desc":"","height":"572","title":"","url":"https://p0.ssl.img.360kuai.com/t017ac44bc4524f7584.jpg","width":"1034"},{"desc":"","height":1033,"title":"","url":"https://p0.ssl.img.360kuai.com/t016013264b9953e005.jpg","width":1080},{"desc":"","height":"572","title":"","url":"https://p0.ssl.img.360kuai.com/t019d669a9f65dd87d6.jpg","width":"1034"},{"desc":"","height":"608","title":"","url":"https://p0.ssl.img.360kuai.com/t0198bbac2a318162ad.jpg","width":"1080"},{"desc":"","height":"630","title":"","url":"https://p0.ssl.img.360kuai.com/t0100dd482083a7634d.jpg","width":"1080"},{"desc":"","height":"409","title":"","url":"https://p0.ssl.img.360kuai.com/t01c20bf05318280932.jpg","width":"1080"},{"desc":"","height":"373","title":"","url":"https://p0.ssl.img.360kuai.com/t018afadaa9a0f90d30.jpg","width":"1080"}]}],"original":0,"pat":"zzc,art_src_3,fts0,sts0","powerby":"pika","pub_time":1710141900000,"pure":"","rawurl":"http://zm.news.so.com/f4caac154b4a93ebc33339a42e3100dd","redirect":0,"rptid":"948471473aff5afa","rss_ext":[],"s":"t","src":"量子位","tag":[{"clk":"ktechnology_1:初创公司","k":"初创公司","u":""},{"clk":"ktechnology_1:笛卡尔","k":"笛卡尔","u":""}],"title":"零一万物向量数据库登顶权威榜单,比前SOTA领先最高286%

席削钥1520对数坐标体系怎样创建?单对数和双对数怎样表征?
丁审荔18961283869 ______ 插入图标后,分别对X轴和y轴进行设置,那里面可以选对数坐标,你想让2个坐标轴都用对数的,那就都选成对数的. 用散点图.

席削钥1520请问半对数坐标纸怎样使用?越详细越好.横坐标是半对数 纵坐标是均匀的 -
丁审荔18961283869 ______[答案] 算术座标系统:就是普通的笛卡儿坐标,横纵的刻度是等距的.(举例来说:如果每1cm的长度都代表2,则刻度按照顺序0,2,4,6,8,10,12,14.) 对数坐标系统:包括半对数坐标,双对数坐标.双对数坐标:横纵坐标轴是按照相等的指...

席削钥1520计算坐标与坐标位数区别 -
丁审荔18961283869 ______ 一、对数坐标与普通坐标 ◇普通坐标:坐标刻度之间的间隔距离与价格成正比.例如从10元到100元的距离是从1元到10元的距离的9倍. ◇对数坐标:坐标刻度之间的间隔距离与价格的对数成正比.例如从1元到10元的距离和从10元到100元的...

席削钥1520对数极坐标概念对数极坐标θ值被划分为8份,而r值被划分为3份,θ
丁审荔18961283869 ______ 先来介绍极坐标的概念.在平面内选择一个定点O作为“极点”,从该点引出一条射... 经常会见到将图像从笛卡尔直角坐标系转换到对数极坐标系中,进行图像旋转尺度和...

席削钥1520看K线图时,什么情况用普通坐标,什么情况用对数坐标,还有什么等比坐标之类 -
丁审荔18961283869 ______ 短期用普通,长期股价波动10倍以上用等比; 研究价格用普通,研究幅度用等比.

席削钥1520在做电测深剖面图时,小弟遇到困扰,对数坐标与算术坐标到底有什么区别
丁审荔18961283869 ______ 准确的说,电法方法使用的坐标系为对数坐标系,因为地层的沉积和变化是一个缓慢且连续的过程,和每天的股市涨跌不同,比如表示几亿年如果用数学坐标是一个不可能实现的东西,如果用对数坐标,则能表示在漫长的地质运动过程中的一个大趋势,明白了吗,所以电法成图理论上都是对数格式的

席削钥1520MATLAB举例说明对数坐标系或半对数坐标系的图形中的应用急 -
丁审荔18961283869 ______[答案] 1.loglog(Y) 表示 x、y坐标都是对数坐标系 2.semilogx() 表示 x坐标轴是对数坐标系 3.semilogy(…) 表示y坐标轴是对数坐标系 你可以用命令help + 函数名,查看帮助. 例题:(可以在命令窗口中直接输入,也可以创建m文件) 1.x=logspace(-1,2); ...

席削钥1520请问对数频率曲线中那个斜率怎么确定啊,就是那 - 40DB, - 20DB的,感谢您的解答,高手,感谢!
丁审荔18961283869 ______ 根据具体公式来的,对数频率坐标系的纵坐标是20log|G(jw)| 如果G(jw)=1/(1+jw),那么就是-20log|(1+jw)|,斜率是-20db 如果G(jw)=1/(1+jw*1)(1+jw*0.1),就是在w=1之前是0db,w在1到10之间是-20db,w在10之后是-40db

席削钥1520求加权平均数概念详解,最好附加解释例题,以及应用 -
丁审荔18961283869 ______ 加权平均数是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算, 若 n个数中, x1出现f1次,x2出现f2次,…,xk出现fk次,那么(x1f1 + x2f2+ ... xkfk)÷ (f1 + f2 + ... + fk) 叫做x1,x2,…,xk的加权平均数.例子:学校食堂吃...

席削钥1520对数函数的图像都经过的点的坐标是什么对数函数都经过的点的坐标是(1,0) -
丁审荔18961283869 ______[答案] 任何数(正实数)的0次幂都是1,所以对数函数必过(1,0)点

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024