首页 >>  正文

disparate

来源:baiyundou.net   日期:2024-08-22

常雷

本文由偶数科技创始人兼CEO常雷撰写并投递参与“数据猿年度金猿策划活动——2023大数据产业年度趋势人物榜单及奖项”评选。

当下,企业业务愈发复杂多元,对数据处理的要求越来越高,实时分析场景也日益繁多。同时,数据技术发展日新月异,新技术层出不穷,利用合适的数据技术打造企业的实时分析能力非常重要。

三大趋势概述


对于未来数据技术的发展,有三大趋势值得注意:

1、实时分析需求高涨,实时特性将成为区分下一代湖仓的重要标准。

2、湖仓融合逐渐成为数据平台迭代的主流方向。

3、AIGC兴起让数据使用更简单,但落地还有一段路要走。

实时特性将成为下一代湖仓的重要标准


1、实时湖仓需求的产生

越来越多的实时场景涌现,如实时大屏、实时报表、实时指标、实时推荐、实时风控、反欺诈、IoT场景等,我们平时在浏览电商时收到实时推荐,似乎已经司空见惯。从业务场景的需求来看,传统的 T+1 已经难以支撑,大家对实时的需求俨然很迫切了。

客户的IT能力越强,投入越大,越看重实时性,当然业务也会越有竞争力。一些传统企业技术投入较少,因此技术能力不足也会反过来限制业务需求的挖掘和创新,因此会产生一种错觉:好像不依靠新技术,现在业务也能被满足的挺好。但是,这实际上是数字化转型没有做好,业务提升空间还很大。

2、实时湖仓的定义

说回实时湖仓概念本身,根据我们在数据平台项目建设的长期探索和经验,我们总结出了实时湖仓一体的六大特征——ANCHOR,其中6个字母分别代表:

● All Disparate Data(多源异构数据)

● Native on Cloud(云原生)

● Consistency(数据一致性)

● High Concurrency(超高并发)

● One Data in Open Format(一份开放格式数据)

● Realtime(实时T+0)

ANCHOR的中文意思是“锚”,我们可以利用ANCHOR六大特性锚定实时湖仓一体,由此判断某一数据系统设计是否真正满足湖仓一体的本质要求。

3、关于“实时”的标准

那什么是实时呢?Gartner有个关于实时的定义梳理的很清楚。按照分析的时效可以分为战略决策、战术分析、业务运营和自动化处理,依次对时效要求和分析频率越来越高。

具体来看,战略决策比如企业收购、海外扩张,通常要做几个月到半年的分析;战术分析,比如细分市场的定价策略,通常要用几周到一个月的时间来分析;自动化处理,比如信用卡自动审批、股票的量化交易,通常是毫秒级,在一秒钟内完成;而业务运营夹在中间,从1秒钟到几天,跨度很大。所以在业务运营场景中,就需要对实时有更加明确的要求。

Gartner认为15分钟内的算是准实时范畴,根据我们的观察和实践,10秒钟以内才能算是强实时,10秒到15分钟的区间可以认为是准实时的。很多企业正在将传统的T+1报表升级为分钟级的准实时报表,接下来完全可以做成强实时的交互式分析。偶数做实时湖仓,是从离线到在线,从准实时到强实时,全部覆盖,我们提出叫做全实时,也是按需实时分析的理念,同时我们还自主设计了Omega技术架构(相对以往的Lambda和Kappa),用来支持全实时的湖仓一体。

4、如何构建实时湖仓

根据现状的不同,企业会采取不同的方式来构建,大致分为三类:

第一类,以前信息化做得较弱,例如没有实现分析场景技术构建,或者之前的技术方案太落后,只做了一个传统的ODS,新的大数据平台也没上,对于这种情况往往是采用新建模式。

第二类,以前的IT基础栈比较全,构建了数据仓库、数据库,以及数据集市。希望基于现有的IT建设向实时湖仓升级换代。在这种情况下,如果原有存储是HDFS,就可以利用原有存储,叠加OushuDB高性能计算层和实时存储能力实现向实时湖仓的转型,也就是从数据湖转型实时湖仓。

第三类,以前有传统的数仓,但没有Hadoop大数据平台,这种情况可以把数仓先升级成云原生存算分离的架构。其他新应用场景再引入新的组件,慢慢形成实时湖仓平台,即数仓转型实时湖仓。

总结下来就是三条路径,新建、从湖转型实时湖仓,或从数仓转型到实时湖仓。第一种情况比较常见,新建一个平台硬件可以复用,应用场景逐步迁移,并不是新建完之后一下全部迁移。对客户来说,新建相对比较简单,因为新建不会涉及重大历史包袱。如果此前有大量业务在跑,改造相对来说耗时较长,需要几个月或者半年的时间,我们尽量让企业在短期内看到价值,增加他的信心。

不仅是技术路线选择,其实建设方法论也同样重要,我们结合偶数在数据平台项目建设的长期探索和经验总结,提炼出了偶数湖仓一体建设方法论。这个方法论主要包括规划(Planning)、实施(Implementation)、运营(Operation)三个子过程,三者先后衔接并形成闭环;战略(Strategy)是一个或有子过程,一般适用新建湖仓数据平台场景,或者特殊建设背景下行业客户的特别要求。

偶数湖仓一体方法论逻辑视图

偶数湖仓一体建设方法论,期望既能兼容传统数据仓库的实施方法,又能规避过往数据湖落地过程中的一些弊端;既考虑众多企业已建数据平台多年的现实情况,又能抓住技术变化演进的前瞻趋势,助力企业的数字化转型发展愿景。

融合各有侧重,湖仓融合成主流


目前,在实时性方面有很多新技术和新概念,实时湖仓、HTAP数据库等,这些概念都有一些应用场景。以HTAP为例:在交易场景当中,有时候要做一些小的分析查询,同时,在分析场景里面有一点交易型场景,该类场景HTAP处理的就会比较好。但从主流的业务现状来看,交易场景和分析场景,比如在银行,是TP和AP分开构建的,背后负责的团队也是不同部门。

一般场景都是有侧重的,这个场景偏重于分析,那个场景偏重于交易,然后选用不同的产品,偶数科技的产品偏重于分析型场景,也支持一些交易。有些数据库是偏交易型的数据库,也支持一点分析。但企业真的要采购分析平台的时候,没有人去找交易库,同样,如果选型交易库,也不会有人去选一个分析库,我觉得在实际项目中区分得很清楚的。

但是湖仓的情况则不同,数据湖和数据仓库在使用场景上非常类似,因此湖和仓融合是必须的,是未来所有人都要做的,并不是锦上添花的一个东西。分析场景将来都会走向实时湖仓平台,现在企业都在想着降本增效,实时湖仓能带来很大的价值。

AIGC对数据库行业发展的影响


大语言模型的兴起对数据库行业影响很大。由于数据行业的特殊性和专业性,使用数据往往需要学习复杂的产品和SQL语言,导致原来没有专业基础的用户很难获得和使用数据。因为大语言模型降低了大家使用数据的门槛,让普通用户通过自然语言的方式使用和分析数据。

大模型使得数据栈变得更加简单易用了,比如可以自动生成SQL,将来设计模型、数据治理也可以用自然语言驱动。所以大模型对行业是一个重大利好,只不过现在这种垂直场景还没有非常好的落地。

AIGC现在属于一个比较前沿的探索阶段,基本上还是做一些比较通用的基础场景,针对一些垂直场景,还有一段路要走,任重道远。

·关于常雷:

常雷博士,偶数创始人兼CEO。

Apache HAWQ数据库顶级项目创始人和程序管理委员会主席、前EMC/Pivotal HAWQ产品负责人、组建Greenplum和HAWQ数据库研发团队、毕业于北京大学计算机系数据库专业、数篇论文发表在国际顶级学术期刊和会议(SIGMOD等)、美国商业杂志《快公司》“中国商业最具创意人物100”、中国计算机学会(CCF)数据库专委会专委、中国大数据产业生态联盟专家、中国人工智能百人专家。

","gnid":"976bdfd379c0ee0c7","img_data":[{"flag":2,"img":[{"desc":"","height":"459","title":"","url":"https://p0.ssl.img.360kuai.com/t01b5d48c9de80cf2a2.png","width":"1080"},{"desc":"","height":"660","title":"","url":"https://p0.ssl.img.360kuai.com/t019955e97139a94ff2.png","width":"918"}]}],"original":0,"pat":"art_src_0,fts0,sts0","powerby":"pika","pub_time":1703511760000,"pure":"","rawurl":"http://zm.news.so.com/4a431bc12a4057e1e3380e9caff1cde1","redirect":0,"rptid":"5cc242cdbcd1b2b1","rss_ext":[],"s":"t","src":"数据猿","tag":[{"clk":"ktechnology_1:gartner","k":"gartner","u":""}],"title":"偶数科技创始人兼CEO常雷:实时需求正当时,实时湖仓将开启数据库新时代

闾良泉3886英语发展史英文版
相待油18881829019 ______ The English language is spoken by 750 million people in the world as either the official language of a nation, a second language, or in a mixture with other languages .English is the official language in England, Canada, Australia and New Zealand, ...

闾良泉3886有关于<呼啸山庄>的悲剧分析,从有哪些因素造成悲剧方面分析,比如是人物性格还是历史背景,或者其他方面分析 -
相待油18881829019 ______ 爱与恨之绝唱 ——简评《呼啸山庄》 艾米莉•勃朗特的《呼啸山庄》出版后一直被人认为是英国文学...

闾良泉3886用英语介绍长城只要五句话急吖… -
相待油18881829019 ______ The Great Wall in Beijing is the place I want to visit the most because it has a long history and is important in Chinese culture. 北京的长城是我想去的地方是最严重的,因为它有很悠久的历史,在中国文化中是重要的. The Great Wall was first built ...

闾良泉3886不同于以前用英语怎么说???急!!!!! -
相待油18881829019 ______ not as the same as before 希望我的回答对你有帮助,祝好.

闾良泉3886急!高分!越狱英文简单介绍 -
相待油18881829019 ______ Prison Break is an Adelstein-Parouse Production in association with 20th Century Fox Television. As a television series hit in America since 2005, it has a great cast. The series is created, written and executive-produced by Paul Scheuring. Brett ...

闾良泉3886谁能给我一些关于特种纸的英文介绍? -
相待油18881829019 ______ Introduction on specialty paper.Specialty paper is for some particular uses with a small production.there are various kinds of specialty papers,and all kinds of papers for special purposes and art papers are collectively referred to as specialty paper. ...

闾良泉3886feel 什么意思 -
相待油18881829019 ______ feel /fi:l/ vt. 摸, 触, 试探, 感觉, 觉得, 触摸, 以为 vi. 有知觉, (人)有某种感觉, 摸索, 同情 n. 感觉, 觉得, 触摸 felt[fµlt] feel.ing, feels v.tr.(及物动词) (1)To perceive through the sense of touch: 感觉:通过接触而感知: feel the ...

闾良泉3886中国地理概况翻译 -
相待油18881829019 ______ Chinese geography survey classification: Geography Geographical position China located at Asia east, Pacific Ocean West bank, carries Lu Mianhai, the flood and field has both. China is...

(编辑:自媒体)
关于我们 | 客户服务 | 服务条款 | 联系我们 | 免责声明 | 网站地图 @ 白云都 2024