阿里自研数据库(阿里巴巴采用自己研发的分布式数据库系统叫什么,它有哪些特点)
大家好,关于阿里自研数据库很多朋友都还不太明白,不过没关系,因为今天小编就来为大家分享关于阿里巴巴采用自己研发的分布式数据库系统叫什么,它有哪些特点的知识点,相信应该可以解决大家的一些困惑和问题,如果碰巧可以解决您的问题,还望关注下本站哦,希望对各位有所帮助!
对话阿里云李飞飞:关于云原生数据库的五大预判
作者:王慧贤
数据存储、数据分析、数据安全......如今,围绕“数据”的话题越来越多,离人们的生活也越来越近。
从陌生到熟悉,数据不仅“出圈”,甚至已然站在了C位。去年,中央发布的《关于构建更加完善的要素市场化配置体制机制的意见》中明确表示,继土地、劳动力、资本、技术后,数据成为第五大生产要素。
步入信息化时代后,数据库、操作系统与中间件作为计算机最基础的三大软件,支撑着企业的正常运行。
当数据成为生产要素后,必然会迎来爆发式增长,企业的数据存储和处理需求将进一步释放。更重要的是,疫情加快了数字化转型的脚步,更加速了企业的上云速度。
从信息化到数字化,时代的变革,总会带来商业世界的变化。如何在云原生架构下使用数据库,成为企业的痛点和云厂商的机会,亚马逊AWS的CTO Werner Vogels曾多次强调:“数据库是云计算的终极之战。”
在数智化时代,云原生到底意味着什么?云原生数据库和传统数据库相比,核心优势是什么?是否把数据库搬上云就是云原生?基于这些问题,雷锋网与阿里巴巴集团副总裁、阿里云数据库产品事业部负责人李飞飞展开一场对话。
国产云原生数据库,摆脱「切肤之痛」
如今,数据库的商业世界,因为云的出现与发展,分成了两大派系。
一派是以Oracle为代表的传统商用数据库,一派是以国外AWS、国内阿里云为代表的云原生数据库,去“IOE革命”下的产物。
其实,早期较为火热的数据库种类有三种,层次式数据库、网络式数据库和关系型数据库。
在《浪潮之巅》一书中,作者吴军写下了这样的观点:“Oracle的兴起很大程度上靠的是它最早看到关系型数据库的市场前景,并且在商业模式上优于 IBM。”
因此,在云原生数据库“入世”之前,数据库的天下一直是Oracle的,国内大部分互联网公司都不得不采用Oracle+IBM小型机+EMC的模式来维持正常运营。
高昂的费用,使得对于数据库需求较大的互联网巨头“忍无可忍”。
2009年,阿里巴巴的Oracle RAC集群节点数达到了创记录的20个。可由于Oracle并没有弹性扩展的功能,只能按照峰值流量购买小型机和数据库,导致阿里将业务上涨带来的大部分利润,都支付给了Oracle。
第二年,阿里便开始走上了去“IOE”之路,根据开源MySQL搭建了AliSQL,并顺利经过了淘宝双11的考验,国产云原生数据库算是正式摆脱了“切肤之痛”,逐渐受到市场的真正认可。
另一边,国外的AWS在2015年公布了基于云计算的自研数据库Amazon Aurora。Aurora是一个关系型数据库,可以跨3个可用区域复制6份数据,其最大的特性就是高性能和高可用性。
云计算巨头的入局,让云原生数据库在国内外一步步成为主流。据Gartner预测,到了2021年,云数据库在整个数据库市场中的占比将首次达到50%,到2023年,75%的数据库都要跑在云平台之上。
关于云原生数据库,随着逐步的出圈,也让人们关心的焦点从“是啥?”转变为“还能解决哪些问题?”
但云原生数据库存在着数据孤岛的问题,无法打通多个数据系统的情况下,企业在数据加工和数据管理上就会“压力较大”,甚至在数据安全方面还存在隐患。
传统数据仓库一般基于T+1数据集成构建离线数仓,以支撑企业各项分析与服务。传统方案不但会影响线上业务稳定性,且难以支持企业的实时需求。
因此,在李飞飞看来,云原生数据库已经走到2.0阶段。这个阶段要解决的问题,就是上述存在的痛点。
9月26日,在阿里云数据库创新上云峰会上,阿里云发布了首个一站式敏捷数据仓库解决方案。该方案结合一站式数据管理平台DMS及云原生数据仓库AnalyticDB(简称:ADB),实现了库仓一体的技术架构,提供在线数据实时入仓、T+1周期性快照、按需建仓等能力,数据延时低至秒级,持续赋能业务在线化,使企业的在线数据可以释放出更大的价值。
相较于传统方案,阿里云一站式敏捷数据仓库解决方案有4大核心优势:
1、对业务侧影响小,不会因为数据汇聚集中和实时加工影响业务侧正常运行,CPU、内存占用低于5%;
2、事务顺序和数据准确性有保障,且处理链路短,支持在线数据实时处理落仓,效率更高。数据传输效率100m/s,数据延时在10秒内;
3、支持复杂实时数据加工、计算逻辑;
4、低代码操作,能够大大降低实时数仓的构建难度,提升构建效率的同时,支撑企业数字化转型过程中的各类实时场景。
除了实时统计分析场景外,企业为满足周期性数据分析需求,需建设周期性全量快照。
传统数仓的周期性全量集成方案会对生产业务造成稳定性影响、全量集成时效性差、且无法满足客户针对任意时间点进行数据回溯的业务诉求。
针对T+1周期性集成场景,一站式敏捷数据仓库解决方案支持基于拉链表的T+1全量数据快照,用户通过简单几个步骤,即可按需生成各种周期的全量或增量快照。
此外,业务还可按需进行任意时间点的数据回溯,以快速解决数据异常问题。
谈起未来数据库的发展趋势,李飞飞提到以下五点:
1、云原生+分布式一定是数据库的标配,分布式已经是必选项。分布式数据库由多个相互连接的数据库组合而成,面向用户则是以单个数据库的形态出现。云原生分布式数据库具备易用性、高扩展性、快速迭代、节约成本等特征,从资源池化到弹性扩展,再到智能运维,再到离在线一体化,解决企业用户的核心诉求。
2、AI for DB(database,指数据库)和 DB for AI将是主流趋势。用AI将数据库运维管控智能化,尤其在云原生+分布式这个前提下更重要,因为数据库不仅是内核的能力弹性高可用、可拓展性,更重要的是部署后应用和运维的复杂度要大大降低。在数据库里,面对越来越多非结构化的数据,分析能力十分重要。
3、数据的安全可信,在今天这个大环境下变得愈发重要,如何确保整个数据库系统,在处理数据全链路过程中提供加密能力、多方安全计算能力、隐私保护的能力,也是很重要的趋势。
4、多模数据处理能力将越来越重要。比如,新型数据库多模态的处理能力,在新能源汽车企业打标签、智能电池化预测等应用场景中,将发挥越来越重要的作用。
5、一份数据,多个数据处理引擎:实现仓库一体、仓库联动、仓库打通,数据之间无缝流转。
以上判断,也从侧面反映出阿里云数据库的走向,这点毋庸置疑。但除此之外,业界最关心的,还有开源。
近半年,国内很多厂商相继提出开源战略,背后缘由显而易见,为了打造生态。就在今年的阿里云峰会上,阿里云智能总裁、达摩院院长张建锋(花名行癫)将2021年阿里云的发展关键词归纳为:做好服务、做深基础、做厚中台、做强生态。
做好服务与生态,成为如今厂商们不约而同的目标,而开源,就是最好的选择。
当雷锋网问到:“未来,阿里云数据库会不会把所有能力都开源?”这一问题时,李飞飞给到的回答是:“不会。”
之所以有这样的回答,是因为对于开源,他有着一些判断和看法。
李飞飞表示,这些部分,本就是阿里云数据库的商业化版本。
事实上,业界大多数的数据库厂商都不会针对自身的核心能力开源,如TiDB的核心管控组件、TiFlash。
与像MongoDB,、Cassandra、CouchDB这些以开源起家的数据库厂商不同,开源只是阿里云数据库的战略,不是阿里云数据库的命脉。
前几年,有业内人士表示,在面向开源时,国产数据库首先需要解决信任以及开源知识产权等问题。“开源会让厂商更加认真思考版权还有专利的问题,事实上,选择开源后,对于数据库厂商提出了更高的要求。”
李飞飞认为,开源只是一种选择,数据库开源成功并不代表着商业化就能够成功,不开源也不能代表厂商不先进。
更准确的说,开源只是一种有效手段。
最终,阿里云数据库希望客户能够通过开源版本把阿里云数据库产品技术快速用起来,并能够参与到技术产品的迭代过程中,在一些高阶能力上,借鉴团队专业能力和阿里云的服务能力,成为良好的商业合作伙伴,这是李飞飞以及阿里云数据库对于开源的一些基本思考。雷锋网雷锋网雷锋网
阿里巴巴采用自己研发的分布式数据库系统叫什么,它有哪些特点
上层的是分布式数据库分表分库中间件,负责和上层应用打交道,对应用可表现为一个独立的数据库,而屏蔽底层复杂的系统细节。分布式数据库中间件除了基本的分表分库功能,还可以丰富一下,比如讲读写分离或者水平扩容功能集成在一起,或者比如读写分离本身也可以作为一个独立的中间件。(Cobar, MyCAT, TDDL, DRDS, DDB)
增量数据订阅和消费,用户对数据库操作,比如DML, DCL, DDL等,这些操作会产生增量数据,下层应用可以通过监测这些增量数据进行相应的处理。典型代表Canal,根据MySQL的binlog实现。也有针对Oracle(redolog)的增量数据订阅与消费的中间件。(Canal, Erosa)
数据库同步中间件涉及数据库之间的同步操作,可以实现跨(同)机房同步以及异地容灾备份、分流等功能。可以涉及多种数据库,处理之后的数据也可以以多种形式存储。(Otter, JingoBus, DRC)
数据库与数据库之间会有数据迁移(同步)的动作,同款数据同步原理比较简单,比如MySQL主备同步,只要在数据库层进行相应的配置既可,但是跨数据库同步就比较复杂了,比如Oracle->MySQL.数据迁移一般包括三个步骤:全量复制,将原数据库的数据全量迁移到新数据库,在这迁移的过程中也会有新的数据产生;增量同步,对新产生的数据进行同步,并持续一段时间以保证数据同步;原库停写,切换新库。将“跨数据库”这个含义扩大一下——“跨数据源”,比如HDFS, HBase, FTP等都可以相互同步。(yugong, DataX)
国产分布式数据库到底怎么样
海内外数据库在部分场景上的性能差距还比较大,难以做进核心业务系统。比如说在RAC(实时应用集群)这块,数据量大、并发量大、变化速度快,国内所有的数据库厂商做的都不如Oracle好,其他如果说兼容性、安全机制等方面国产数据库其实没什么问题,所以国产数据库应用在一些小的边缘业务系统上是没什么问题的,但核心业务系统上还是很难的。现在国家要求金融行业全替换,也是针对办公系统的数据库全替换,在业务系统层面更多的是在小业务系统上做做实验,现在去谈核心业务系统的数据库国产化还为时尚早。
国产数据库厂商要先争取拿到小业务系统的备份系统机会,不要急着喊“国产替代”。存在即合理,Oracle、IBM DB2现在能在金融等行业广泛使用,客户还要接着续购,一定是有原因的。但如果客户愿意在小业务系统上试用国产数据库,那国产数据库厂商可以从备选系统的国产化上先入手。也就是以前的业务系统和海外数据库继续作为主系统使用,在旁边用国产数据库搭一个备选系统来应用,两个系统同时跑看看有没有问题;如果跑一段时间没问题的话就把两个系统切换一下,用国产当主应用,海外当备应用继续跑;这样跑一段还没问题的话,再切回最初的样子,以后两个系统就一直跑下去了;未来一旦海外的主系统出现问题的时候,20s内会自动切换到国产备系统上运行。
做这样的工作并不是一刀切的“国产替代”,只是在海外产品旁边预备一个国产数据库,就足够让国产数据库成长起来。对于客户来说,一方面备选系统采购国产数据库满足了国家对国产化的考核要求,另一方面海外的产品还能维持不动继续使用,满足业务的安全性和稳定性,而且备系统用国产也比主备都用海外产品的开销更低,降低成本压力。
信创环境下国产数据库价格战激烈,厂商生存压力大。由于性能上确实和海外有较大差距,本身国产数据库厂商在信创投标时价格就会报低一点,Oracle的分析型数据库过去在央采里卖三四十万一套,而国产数据库在信创上报价就只报十几万一套,中标价折扣加上集成商一分到手也就五万块,客户采购数量一多再打个折就只能三四万块一套,后续还要去做三年的运维实施,成本压力很大。
国产数据库非良性的竞争下价格越来越低,最后每家公司当年挣的钱只能够支撑当年的运营,如果拿不到项目挣不了钱就难以继续运营,在这种情况下必须要保证当年有钱挣,不管项目是挣多还是挣少,只要有收入就干,有项目发标就去低价抢。这种过度的低价竞争下如果厂商单卖数据库一款产品目前很难实现盈利,也逼退了像华为这样的公司在信创数据库市场的发力,因为投入产出比达不到公司的预期。
另一方面就是跑马圈地现象严重。20年作为信创规模化采购的第一年,厂商都想先占坑抓住客户,所以就降价竞争,有些厂商甚至签的是五年的长期运维合同,这意味着未来五年都是一个低价运维的状态,但一个很核心的问题是后续的业务系统替换国产数据库厂商到底能不能搞定?如果搞定不了,那其实之后是不会有新的利润点出来的,现在占的坑也是白占。
国产信创数据库市场正处于发展早期。根据我们的产业调研,2020年党政信创电子公文系统的数据库市场几乎被人大金仓和达梦瓜分,我们估计二者合计约6个亿收入。目前信创数据库的市场机会在于党政信创电子公文系统的持续替换以及各大央企的OA办公系统的全替换,今年金融、能源、电信等重要行业在信创政策的驱动下已经开始在OA系统和小业务系统上进行国产信创数据库的测试。后续如果信创数据库的试用表现良好,国产数据库将在电子政务系统和重要行业的业务系统上迎来更大的市场发展机会。
过去有些行业客户直接使用开源数据库,之后可能转去采购商业发行版数据库,这也是国产数据库厂商的机遇。根据我们的产业调研,过去我国自然资源行业60%的地理信息系统公司都在使用PG开源数据库,他们自己养十几个人的IT团队去写、去维护自己的PG数据库,但随着国家监管政策的加强,继续使用自研的数据库是需要去进行一系列的测评并拿到相应的证书,客户进行数据库投入的成本会越来越大,而且随着技术的迭代,跟上开源进步的节奏难度也在加大,在第三方专业的数据库厂商发展壮大之后,客户会更愿意去采购商业发行版数据库,这样也能降低自己的成本,让自己更专注于地理信息系统的研发,像超图软件、航天宏图这样的上市公司已经开始与第三方数据库厂商进行兼容性测试,对于走PG技术路线的数据库厂商来说可以无缝兼容,这块未来会成为一个重要的业务拓展场景。
综上所述,当前信创政策的启动为国产信创数据库带来了难得的市场机会,国家投入了大量的人力和财力去推动信创环境的适配工作,客户也给了国产数据库厂商去做到业务系统中的机会,都是希望国产数据库能够逐步发展壮大。但由于数据库技术壁垒高,且直接关系到客户业务系统运行的稳定性,目前国产数据库性能相比海外还有较大差距,还很难做进核心业务系统中,这是产业发展的正常现象。
国产数据库厂商应该抓住政策机遇和客户的信任,多跑客户做案例落地试用,少去论坛空谈技术前景;从小系统的备份先做起,不要急于在核心系统上做一刀切的“替换”,在小系统上经过长时间的验证后再去考虑切入核心场景;加强产业自律与合作,避免过度的价格战对产业长期发展带来伤害,将战略重心放在产品性能和竞争力的提升上。数据库行业没有弯道超车,只有脚踏实地的发展,数据库的国产化会是一个漫长的过程,我们认为在政策和庞大国内市场的培育下,未来十年有望成长出一批具备国际竞争力的优秀国产数据库厂商。
关于阿里自研数据库的内容到此结束,希望对大家有所帮助。