nosql什么時(shí)候公測,什么時(shí)候用nosql
大數(shù)據(jù)時(shí)代發(fā)展歷程是什么?
大數(shù)據(jù)技術(shù)發(fā)展史:大數(shù)據(jù)的前世今生
成都創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價(jià)比阿克陶網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式阿克陶網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋阿克陶地區(qū)。費(fèi)用合理售后完善,10多年實(shí)體公司更值得信賴。
今天我們常說的大數(shù)據(jù)技術(shù),其實(shí)起源于Google在2004年前后發(fā)表的三篇論文,也就是我們經(jīng)常聽到的“三駕馬車”,分別是分布式文件系統(tǒng)GFS、大數(shù)據(jù)分布式計(jì)算框架MapReduce和NoSQL數(shù)據(jù)庫系統(tǒng)BigTable。
你知道,搜索引擎主要就做兩件事情,一個(gè)是網(wǎng)頁抓取,一個(gè)是索引構(gòu)建,而在這個(gè)過程中,有大量的數(shù)據(jù)需要存儲(chǔ)和計(jì)算。這“三駕馬車”其實(shí)就是用來解決這個(gè)問題的,你從介紹中也能看出來,一個(gè)文件系統(tǒng)、一個(gè)計(jì)算框架、一個(gè)數(shù)據(jù)庫系統(tǒng)。
現(xiàn)在你聽到分布式、大數(shù)據(jù)之類的詞,肯定一點(diǎn)兒也不陌生。但你要知道,在2004年那會(huì)兒,整個(gè)互聯(lián)網(wǎng)還處于懵懂時(shí)代,Google發(fā)布的論文實(shí)在是讓業(yè)界為之一振,大家恍然大悟,原來還可以這么玩。
因?yàn)槟莻€(gè)時(shí)間段,大多數(shù)公司的關(guān)注點(diǎn)其實(shí)還是聚焦在單機(jī)上,在思考如何提升單機(jī)的性能,尋找更貴更好的服務(wù)器。而Google的思路是部署一個(gè)大規(guī)模的服務(wù)器集群,通過分布式的方式將海量數(shù)據(jù)存儲(chǔ)在這個(gè)集群上,然后利用集群上的所有機(jī)器進(jìn)行數(shù)據(jù)計(jì)算。 這樣,Google其實(shí)不需要買很多很貴的服務(wù)器,它只要把這些普通的機(jī)器組織到一起,就非常厲害了。
當(dāng)時(shí)的天才程序員,也是Lucene開源項(xiàng)目的創(chuàng)始人Doug Cutting正在開發(fā)開源搜索引擎Nutch,閱讀了Google的論文后,他非常興奮,緊接著就根據(jù)論文原理初步實(shí)現(xiàn)了類似GFS和MapReduce的功能。
兩年后的2006年,Doug Cutting將這些大數(shù)據(jù)相關(guān)的功能從Nutch中分離了出來,然后啟動(dòng)了一個(gè)獨(dú)立的項(xiàng)目專門開發(fā)維護(hù)大數(shù)據(jù)技術(shù),這就是后來赫赫有名的Hadoop,主要包括Hadoop分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計(jì)算引擎MapReduce。
當(dāng)我們回顧軟件開發(fā)的歷史,包括我們自己開發(fā)的軟件,你會(huì)發(fā)現(xiàn),有的軟件在開發(fā)出來以后無人問津或者寥寥數(shù)人使用,這樣的軟件其實(shí)在所有開發(fā)出來的軟件中占大多數(shù)。而有的軟件則可能會(huì)開創(chuàng)一個(gè)行業(yè),每年創(chuàng)造數(shù)百億美元的價(jià)值,創(chuàng)造百萬計(jì)的就業(yè)崗位,這些軟件曾經(jīng)是Windows、Linux、Java,而現(xiàn)在這個(gè)名單要加上Hadoop的名字。
如果有時(shí)間,你可以簡單瀏覽下Hadoop的代碼,這個(gè)純用Java編寫的軟件其實(shí)并沒有什么高深的技術(shù)難點(diǎn),使用的也都是一些最基礎(chǔ)的編程技巧,也沒有什么出奇之處,但是它卻給社會(huì)帶來巨大的影響,甚至帶動(dòng)一場深刻的科技革命,推動(dòng)了人工智能的發(fā)展與進(jìn)步。
我覺得,我們在做軟件開發(fā)的時(shí)候,也可以多思考一下,我們所開發(fā)軟件的價(jià)值點(diǎn)在哪里?真正需要使用軟件實(shí)現(xiàn)價(jià)值的地方在哪里?你應(yīng)該關(guān)注業(yè)務(wù)、理解業(yè)務(wù),有價(jià)值導(dǎo)向,用自己的技術(shù)為公司創(chuàng)造真正的價(jià)值,進(jìn)而實(shí)現(xiàn)自己的人生價(jià)值。而不是整天埋頭在需求說明文檔里,做一個(gè)沒有思考的代碼機(jī)器人。
Hadoop發(fā)布之后,Yahoo很快就用了起來。大概又過了一年到了2007年,百度和阿里巴巴也開始使用Hadoop進(jìn)行大數(shù)據(jù)存儲(chǔ)與計(jì)算。
2008年,Hadoop正式成為Apache的頂級(jí)項(xiàng)目,后來Doug Cutting本人也成為了Apache基金會(huì)的主席。自此,Hadoop作為軟件開發(fā)領(lǐng)域的一顆明星冉冉升起。
同年,專門運(yùn)營Hadoop的商業(yè)公司Cloudera成立,Hadoop得到進(jìn)一步的商業(yè)支持。
這個(gè)時(shí)候,Yahoo的一些人覺得用MapReduce進(jìn)行大數(shù)據(jù)編程太麻煩了,于是便開發(fā)了Pig。Pig是一種腳本語言,使用類SQL的語法,開發(fā)者可以用Pig腳本描述要對(duì)大數(shù)據(jù)集上進(jìn)行的操作,Pig經(jīng)過編譯后會(huì)生成MapReduce程序,然后在Hadoop上運(yùn)行。
編寫Pig腳本雖然比直接MapReduce編程容易,但是依然需要學(xué)習(xí)新的腳本語法。于是Facebook又發(fā)布了Hive。Hive支持使用SQL語法來進(jìn)行大數(shù)據(jù)計(jì)算,比如說你可以寫個(gè)Select語句進(jìn)行數(shù)據(jù)查詢,然后Hive會(huì)把SQL語句轉(zhuǎn)化成MapReduce的計(jì)算程序。
這樣,熟悉數(shù)據(jù)庫的數(shù)據(jù)分析師和工程師便可以無門檻地使用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和處理了。Hive出現(xiàn)后極大程度地降低了Hadoop的使用難度,迅速得到開發(fā)者和企業(yè)的追捧。據(jù)說,2011年的時(shí)候,F(xiàn)acebook大數(shù)據(jù)平臺(tái)上運(yùn)行的作業(yè)90%都來源于Hive。
隨后,眾多Hadoop周邊產(chǎn)品開始出現(xiàn),大數(shù)據(jù)生態(tài)體系逐漸形成,其中包括:專門將關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入導(dǎo)出到Hadoop平臺(tái)的Sqoop;針對(duì)大規(guī)模日志進(jìn)行分布式收集、聚合和傳輸?shù)腇lume;MapReduce工作流調(diào)度引擎Oozie等。
在Hadoop早期,MapReduce既是一個(gè)執(zhí)行引擎,又是一個(gè)資源調(diào)度框架,服務(wù)器集群的資源調(diào)度管理由MapReduce自己完成。但是這樣不利于資源復(fù)用,也使得MapReduce非常臃腫。于是一個(gè)新項(xiàng)目啟動(dòng)了,將MapReduce執(zhí)行引擎和資源調(diào)度分離開來,這就是Yarn。2012年,Yarn成為一個(gè)獨(dú)立的項(xiàng)目開始運(yùn)營,隨后被各類大數(shù)據(jù)產(chǎn)品支持,成為大數(shù)據(jù)平臺(tái)上最主流的資源調(diào)度系統(tǒng)。
同樣是在2012年,UC伯克利AMP實(shí)驗(yàn)室(Algorithms、Machine和People的縮寫)開發(fā)的Spark開始嶄露頭角。當(dāng)時(shí)AMP實(shí)驗(yàn)室的馬鐵博士發(fā)現(xiàn)使用MapReduce進(jìn)行機(jī)器學(xué)習(xí)計(jì)算的時(shí)候性能非常差,因?yàn)闄C(jī)器學(xué)習(xí)算法通常需要進(jìn)行很多次的迭代計(jì)算,而MapReduce每執(zhí)行一次Map和Reduce計(jì)算都需要重新啟動(dòng)一次作業(yè),帶來大量的無謂消耗。還有一點(diǎn)就是MapReduce主要使用磁盤作為存儲(chǔ)介質(zhì),而2012年的時(shí)候,內(nèi)存已經(jīng)突破容量和成本限制,成為數(shù)據(jù)運(yùn)行過程中主要的存儲(chǔ)介質(zhì)。Spark一經(jīng)推出,立即受到業(yè)界的追捧,并逐步替代MapReduce在企業(yè)應(yīng)用中的地位。
一般說來,像MapReduce、Spark這類計(jì)算框架處理的業(yè)務(wù)場景都被稱作批處理計(jì)算,因?yàn)樗鼈兺ǔa槍?duì)以“天”為單位產(chǎn)生的數(shù)據(jù)進(jìn)行一次計(jì)算,然后得到需要的結(jié)果,這中間計(jì)算需要花費(fèi)的時(shí)間大概是幾十分鐘甚至更長的時(shí)間。因?yàn)橛?jì)算的數(shù)據(jù)是非在線得到的實(shí)時(shí)數(shù)據(jù),而是歷史數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)離線計(jì)算。
而在大數(shù)據(jù)領(lǐng)域,還有另外一類應(yīng)用場景,它們需要對(duì)實(shí)時(shí)產(chǎn)生的大量數(shù)據(jù)進(jìn)行即時(shí)計(jì)算,比如對(duì)于遍布城市的監(jiān)控?cái)z像頭進(jìn)行人臉識(shí)別和嫌犯追蹤。這類計(jì)算稱為大數(shù)據(jù)流計(jì)算,相應(yīng)地,有Storm、Flink、Spark Streaming等流計(jì)算框架來滿足此類大數(shù)據(jù)應(yīng)用的場景。 流式計(jì)算要處理的數(shù)據(jù)是實(shí)時(shí)在線產(chǎn)生的數(shù)據(jù),所以這類計(jì)算也被稱為大數(shù)據(jù)實(shí)時(shí)計(jì)算。
在典型的大數(shù)據(jù)的業(yè)務(wù)場景下,數(shù)據(jù)業(yè)務(wù)最通用的做法是,采用批處理的技術(shù)處理歷史全量數(shù)據(jù),采用流式計(jì)算處理實(shí)時(shí)新增數(shù)據(jù)。而像Flink這樣的計(jì)算引擎,可以同時(shí)支持流式計(jì)算和批處理計(jì)算。
除了大數(shù)據(jù)批處理和流處理,NoSQL系統(tǒng)處理的主要也是大規(guī)模海量數(shù)據(jù)的存儲(chǔ)與訪問,所以也被歸為大數(shù)據(jù)技術(shù)。 NoSQL曾經(jīng)在2011年左右非常火爆,涌現(xiàn)出HBase、Cassandra等許多優(yōu)秀的產(chǎn)品,其中HBase是從Hadoop中分離出來的、基于HDFS的NoSQL系統(tǒng)。
我們回顧軟件發(fā)展的歷史會(huì)發(fā)現(xiàn),差不多類似功能的軟件,它們出現(xiàn)的時(shí)間都非常接近,比如Linux和Windows都是在90年代初出現(xiàn),Java開發(fā)中的各類MVC框架也基本都是同期出現(xiàn),Android和iOS也是前腳后腳問世。2011年前后,各種NoSQL數(shù)據(jù)庫也是層出不群,我也是在那個(gè)時(shí)候參與開發(fā)了阿里巴巴自己的NoSQL系統(tǒng)。
事物發(fā)展有自己的潮流和規(guī)律,當(dāng)你身處潮流之中的時(shí)候,要緊緊抓住潮流的機(jī)會(huì),想辦法脫穎而出,即使沒有成功,也會(huì)更加洞悉時(shí)代的脈搏,收獲珍貴的知識(shí)和經(jīng)驗(yàn)。而如果潮流已經(jīng)退去,這個(gè)時(shí)候再去往這個(gè)方向上努力,只會(huì)收獲迷茫與壓抑,對(duì)時(shí)代、對(duì)自己都沒有什么幫助。
但是時(shí)代的浪潮猶如海灘上的浪花,總是一浪接著一浪,只要你站在海邊,身處這個(gè)行業(yè)之中,下一個(gè)浪潮很快又會(huì)到來。你需要敏感而又深刻地去觀察,略去那些浮躁的泡沫,抓住真正潮流的機(jī)會(huì),奮力一搏,不管成敗,都不會(huì)遺憾。
正所謂在歷史前進(jìn)的邏輯中前進(jìn),在時(shí)代發(fā)展的潮流中發(fā)展。通俗的說,就是要在風(fēng)口中飛翔。
上面我講的這些基本上都可以歸類為大數(shù)據(jù)引擎或者大數(shù)據(jù)框架。而大數(shù)據(jù)處理的主要應(yīng)用場景包括數(shù)據(jù)分析、數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。數(shù)據(jù)分析主要使用Hive、Spark SQL等SQL引擎完成;數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)則有專門的機(jī)器學(xué)習(xí)框架TensorFlow、Mahout以及MLlib等,內(nèi)置了主要的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法。
此外,大數(shù)據(jù)要存入分布式文件系統(tǒng)(HDFS),要有序調(diào)度MapReduce和Spark作業(yè)執(zhí)行,并能把執(zhí)行結(jié)果寫入到各個(gè)應(yīng)用系統(tǒng)的數(shù)據(jù)庫中,還需要有一個(gè)大數(shù)據(jù)平臺(tái)整合所有這些大數(shù)據(jù)組件和企業(yè)應(yīng)用系統(tǒng)。
圖中的所有這些框架、平臺(tái)以及相關(guān)的算法共同構(gòu)成了大數(shù)據(jù)的技術(shù)體系,我將會(huì)在專欄后面逐個(gè)分析,幫你能夠?qū)Υ髷?shù)據(jù)技術(shù)原理和應(yīng)用算法構(gòu)建起完整的知識(shí)體系,進(jìn)可以專職從事大數(shù)據(jù)開發(fā),退可以在自己的應(yīng)用開發(fā)中更好地和大數(shù)據(jù)集成,掌控自己的項(xiàng)目。
希望對(duì)您有所幫助!~
2019數(shù)據(jù)架構(gòu)選型必讀:1月數(shù)據(jù)庫產(chǎn)品技術(shù)解析
本期目錄
DB-Engines數(shù)據(jù)庫排行榜
新聞快訊
一、RDBMS家族
二、NoSQL家族
三、NewSQL家族
四、時(shí)間序列
五、大數(shù)據(jù)生態(tài)圈
六、國產(chǎn)數(shù)據(jù)庫概覽
七、云數(shù)據(jù)庫
八、推出dbaplus Newsletter的想法
九、感謝名單
為方便閱讀、重點(diǎn)呈現(xiàn),本期Newsletter(2019年1月)將對(duì)各個(gè)板塊的內(nèi)容進(jìn)行精簡。需要閱讀全文的同學(xué)可點(diǎn)擊文末 【閱讀原文】 或登錄
進(jìn)行下載。
DB-Engines數(shù)據(jù)庫排行榜
以下取自2019年1月的數(shù)據(jù),具體信息可以參考,數(shù)據(jù)僅供參考。
DB-Engines排名的數(shù)據(jù)依據(jù)5個(gè)不同的因素:
新聞快訊
1、2018年9月24日,微軟公布了SQL Server2019預(yù)覽版,SQL Server 2019將結(jié)合Spark創(chuàng)建統(tǒng)一數(shù)據(jù)平臺(tái)。
2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。
3、亞馬遜放棄甲骨文數(shù)據(jù)庫軟件,導(dǎo)致最大倉庫之一在黃金時(shí)段宕機(jī)。受此消息影響,亞馬遜盤前股價(jià)小幅跳水,跌超2%。
4、2018年10月31日,Percona發(fā)布了Percona Server 8.0 RC版本,發(fā)布對(duì)MongoDB 4.0的支持,發(fā)布對(duì)XtraBackup測試第二個(gè)版本。
5、2018年10月31日,Gartner陸續(xù)發(fā)布了2018年的數(shù)據(jù)庫系列報(bào)告,包括《數(shù)據(jù)庫魔力象限》、《數(shù)據(jù)庫核心能力》以及《數(shù)據(jù)庫推薦報(bào)告》。
今年的總上榜數(shù)據(jù)庫產(chǎn)品達(dá)到了5家,分別來自:阿里云,華為,巨杉數(shù)據(jù)庫,騰訊云,星環(huán) 科技 。其中阿里云和巨杉數(shù)據(jù)庫已經(jīng)連續(xù)兩年入選。
6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業(yè)版徹底閉源:
7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價(jià)格收購了Apache Flink商業(yè)公司DataArtisans。
8、2019年1月11日早間消息,亞馬遜宣布推出云數(shù)據(jù)庫軟件,亞馬遜和MongoDB將會(huì)直接競爭。
RDBMS家族
Oracle 發(fā)布18.3版本
2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為采用之前發(fā)布模式的Oracle Database 12c第2版的第一個(gè)補(bǔ)丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle數(shù)據(jù)庫,而是每年都可以期待新數(shù)據(jù)庫特性和增強(qiáng)。Database 19c將于2019年Q1率先在Oracle cloud上發(fā)布云版本。
Oracle Database 18c及19c部分關(guān)鍵功能:
1、性能
2、多租戶,大量功能增強(qiáng)及改進(jìn),大幅節(jié)省成本和提高敏捷性
3、高可用
4、數(shù)據(jù)倉庫和大數(shù)據(jù)
MySQL發(fā)布8.0.13版本
1、賬戶管理
經(jīng)過配置,修改密碼時(shí),必須帶上原密碼。在之前的版本,用戶登錄之后,就可以修改自己的密碼。這種方式存在一定安全風(fēng)險(xiǎn)。比如用戶登錄上數(shù)據(jù)庫后,中途離開一段時(shí)間,那么非法用戶可能會(huì)修改密碼。由參數(shù)password_require_current控制。
2、配置
Innodb表必須有主鍵。在用戶沒有指定主鍵時(shí),系統(tǒng)會(huì)生成一個(gè)默認(rèn)的主鍵。但是在主從復(fù)制的場景下,默認(rèn)的主鍵,會(huì)對(duì)叢庫應(yīng)用速度帶來致命的影響。如果設(shè)置sql_require_primary_key,那么數(shù)據(jù)庫會(huì)強(qiáng)制用戶在創(chuàng)建表、修改表時(shí),加上主鍵。
3、字段默認(rèn)值
BLOB、TEXT、GEOMETRY和JSON字段可以指定默認(rèn)值了。
4、優(yōu)化器
1)Skip Scan
非前綴索引也可以用了。
之前的版本,任何沒有帶上f1字段的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的字段,讓這個(gè)查詢使用到索引。其實(shí)現(xiàn)原理就是把(f1 = 1 AND f2 40) 和(f1 = 2 AND f2 40)的查詢結(jié)果合并。
2)函數(shù)索引
之前版本只能基于某個(gè)列或者多個(gè)列加索引,但是不允許在上面做計(jì)算,如今這個(gè)限制消除了。
5、SQL語法
GROUP BY ASC和GROUP BY DESC語法已經(jīng)被廢棄,要想達(dá)到類似的效果,請(qǐng)使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能變化
1)設(shè)置用戶變量,請(qǐng)使用SET語句
如下類型語句將要被廢棄SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
該變量是控制文件刷新到磁盤的速率,防止磁盤在短時(shí)間內(nèi)飽和。
3)新增會(huì)話級(jí)臨時(shí)表空間
在以往的版本中,當(dāng)執(zhí)行SQL時(shí),產(chǎn)生的臨時(shí)表都在全局表空間ibtmp1中,及時(shí)執(zhí)行結(jié)束,臨時(shí)表被釋放,空間不會(huì)被回收。新版本中,會(huì)為session從臨時(shí)表空間池中分配一個(gè)臨時(shí)表空間,當(dāng)連接斷開時(shí),臨時(shí)表空間的磁盤空間被回收。
4)在線切換Group Replication的狀態(tài)
5)新增了group_replication_member_expel_timeout
之前,如果某個(gè)節(jié)點(diǎn)被懷疑有問題,在5秒檢測期結(jié)束之后,那么就直接被驅(qū)逐出這個(gè)集群。即使該節(jié)點(diǎn)恢復(fù)正常時(shí),也不會(huì)再被加入集群。那么,瞬時(shí)的故障,會(huì)把某些節(jié)點(diǎn)驅(qū)逐出集群。
group_replication_member_expel_timeout讓管理員能更好的依據(jù)自身的場景,做出最合適的配置(建議配置時(shí)間小于一個(gè)小時(shí))。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update連表更新,limit語句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接報(bào)錯(cuò)
MariaDB 10.3更新成功
2)update連表更新,ORDER BY and LIMIT語句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接報(bào)錯(cuò)
MariaDB 10.3更新成功
參考:
2、MariaDB10.3增補(bǔ)AliSQL補(bǔ)丁——安全執(zhí)行Online DDL
Online DDL從名字上看很容易誤導(dǎo)新手,以為不論什么情況,修改表結(jié)構(gòu)都不會(huì)鎖表,理想很豐滿,現(xiàn)實(shí)很骨感,注意這個(gè)坑!
有以下兩種情況執(zhí)行DDL操作會(huì)鎖表的,Waiting for table metadata lock(元數(shù)據(jù)表鎖):
針對(duì)第二種情況,MariaDB10.3增補(bǔ)AliSQL補(bǔ)丁-DDL FAST FAIL,讓其DDL操作快速失敗。
例:
如果線上有某個(gè)慢SQL對(duì)該表進(jìn)行操作,可以使用WAIT n(以秒為單位設(shè)置等待)或NOWAIT在語句中顯式設(shè)置鎖等待超時(shí),在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當(dāng)于NOWAIT。
參考:
3、MariaDB Window Functions窗口函數(shù)分組取TOP N記錄
窗口函數(shù)在MariaDB10.2版本里實(shí)現(xiàn),其簡化了復(fù)雜SQL的撰寫,提高了可讀性。
參考:
Percona Server發(fā)布8.0 GA版本
2018年12月21日,Percona發(fā)布了Percona Server 8.0 GA版本。
在支持MySQL8.0社區(qū)的基礎(chǔ)版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:
1、安全性和合規(guī)性
2、性能和可擴(kuò)展性
3、可觀察性和可用性
Percona Server for MySQL 8.0中將要被廢用功能:
Percona Server for MySQL 8.0中刪除的功能:
RocksDB發(fā)布V5.17.2版本
2018年10月24日,RocksDB發(fā)布V5.17.2版本。
RocksDB是Facebook在LevelDB基礎(chǔ)上用C++寫的高效內(nèi)嵌式K/V存儲(chǔ)引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲(chǔ)都是基于RocksDB來構(gòu)建。
PostgreSQL發(fā)布11版本
2018年10月18日,PostgreSQL 11發(fā)布。
1、PostgreSQL 11的重大增強(qiáng)
2、PostgreSQL 插件動(dòng)態(tài)
1)分布式插件citus發(fā)布 8.1
citus是PostgreSQL的一款sharding插件,目前國內(nèi)蘇寧、鐵總、探探有較大量使用案例。
2)地理信息插件postgis發(fā)布2.5.1
PostGIS是專業(yè)的時(shí)空數(shù)據(jù)庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時(shí)空專業(yè)領(lǐng)域應(yīng)用廣泛。同時(shí)在互聯(lián)網(wǎng)行業(yè)也得到了對(duì)GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。
3)時(shí)序插件timescale發(fā)布1.1.1
timescale是PostgreSQL的一款時(shí)序數(shù)據(jù)庫插件,在IoT行業(yè)中有非常好的應(yīng)用。github star數(shù)目前有5000多,是一個(gè)非常火爆的插件。
4)流計(jì)算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流計(jì)算插件,使用這個(gè)創(chuàng)建可以對(duì)高速寫入的數(shù)據(jù)進(jìn)行實(shí)時(shí)根據(jù)定義的聚合規(guī)則進(jìn)行聚合(支持概率計(jì)算),實(shí)時(shí)根據(jù)定義的規(guī)則觸發(fā)事件(支持事件處理函數(shù)的自定義)。可用于IoT,監(jiān)控,F(xiàn)EED實(shí)時(shí)計(jì)算等場景。
3、PostgreSQL衍生開源產(chǎn)品動(dòng)態(tài)
1)agensgraph發(fā)布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的專業(yè)圖數(shù)據(jù)庫,適合圖式關(guān)系的管理。
2)gpdb發(fā)布5.15
gpdb是兼容PostgreSQL的mpp數(shù)據(jù)庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區(qū)版本,預(yù)計(jì)很快會(huì)追上10的PostgreSQL,在TP方面的性能也會(huì)得到顯著提升。
3)antdb發(fā)布3.2
antdb是以Postgres-XC為基礎(chǔ)開發(fā)的一款PostgreSQL sharding數(shù)據(jù)庫,亞信主導(dǎo)開發(fā),開源,目前主要服務(wù)于亞信自有客戶。
4)遷移工具M(jìn)TK發(fā)布52版本
MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase數(shù)據(jù)庫遷移到PostgreSQL, PPAS的產(chǎn)品,遷移速度可以達(dá)到100萬行/s以上。
DB2發(fā)布 11.1.4.4版本
DB2最新發(fā)布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動(dòng)及增強(qiáng):
1、性能
2、高可用
3、管理視圖
4、應(yīng)用開發(fā)方面
5、聯(lián)邦功能
6、pureScale
NoSQL家族
Redis發(fā)布5.0.3版本
MongoDB升級(jí)更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升級(jí)更新MongoDB Mobile和MongoDB Stitch,助力開發(fā)人員提升工作效率。
MongoDB 公司日前發(fā)布了多項(xiàng)新產(chǎn)品功能,旨在更好地幫助開發(fā)人員在世界各地管理數(shù)據(jù)。通過利用存儲(chǔ)在移動(dòng)設(shè)備和后臺(tái)數(shù)據(jù)庫的數(shù)據(jù)之間的實(shí)時(shí)、自動(dòng)的同步特性,MongoDB Mobile通用版本助力開發(fā)人員構(gòu)建更快捷、反應(yīng)更迅速的應(yīng)用程序。此前,這只能通過在移動(dòng)應(yīng)用內(nèi)部安裝一個(gè)可供選擇或限定功能的數(shù)據(jù)庫來實(shí)現(xiàn)。
MongoDB Mobile在為客戶提供隨處運(yùn)行的自由度方面更進(jìn)了一步。用戶在iOS和安卓終端設(shè)備上可擁有MongoDB所有功能,將網(wǎng)絡(luò)邊界擴(kuò)展到其物聯(lián)網(wǎng)資產(chǎn)范疇。應(yīng)用系統(tǒng)還可以使用MongoDB Stitch的軟件開發(fā)包訪問移動(dòng)客戶端或后臺(tái)數(shù)據(jù),幫助開發(fā)人員通過他們希望的任意方式查詢移動(dòng)終端數(shù)據(jù)和物聯(lián)網(wǎng)數(shù)據(jù),包括本地讀寫、本地JSON存儲(chǔ)、索引和聚合。通過Stitch移動(dòng)同步功能(現(xiàn)可提供beta版),用戶可以自動(dòng)對(duì)保存在本地的數(shù)據(jù)以及后臺(tái)數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行同步。
本期新秀:Cassandra發(fā)布3.11.3版本
2018年8月11日,Cassandra發(fā)布正式版3.11.3。
Apache Cassandra是一款開源分布式NoSQL數(shù)據(jù)庫系統(tǒng),使用了基于Google BigTable的數(shù)據(jù)模型,與面向行(row)的傳統(tǒng)關(guān)系型數(shù)據(jù)庫或鍵值存儲(chǔ)key-value數(shù)據(jù)庫不同,Cassandra使用的是寬列存儲(chǔ)模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數(shù)據(jù)并不存儲(chǔ)在分布式文件系統(tǒng)如GFS或HDFS中,而是直接存于本地。
Cassandra的系統(tǒng)架構(gòu)與Amazon DynamoDB類似,是基于一致性哈希的完全P2P架構(gòu),每行數(shù)據(jù)通過哈希來決定應(yīng)該存在哪個(gè)或哪些節(jié)點(diǎn)中。集群沒有master的概念,所有節(jié)點(diǎn)都是同樣的角色,徹底避免了整個(gè)系統(tǒng)的單點(diǎn)問題導(dǎo)致的不穩(wěn)定性,集群間的狀態(tài)同步通過Gossip協(xié)議來進(jìn)行P2P的通信。
3.11.3版本的一些bug fix和改進(jìn):
NewSQL家族
TiDB 發(fā)布2.1.2版本
2018 年 12 月 22 日,TiDB 發(fā)布 2.1.2 版,TiDB-Ansible 相應(yīng)發(fā)布 2.1.2 版本。該版本在 2.1.1 版的基礎(chǔ)上,對(duì)系統(tǒng)兼容性、穩(wěn)定性做出了改進(jìn)。
TiDB 是一款定位于在線事務(wù)處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型數(shù)據(jù)庫產(chǎn)品。除了底層的 RocksDB 存儲(chǔ)引擎之外,分布式SQL層、分布式KV存儲(chǔ)引擎(TiKV)完全自主設(shè)計(jì)和研發(fā)。
TiDB 完全開源,兼容MySQL協(xié)議和語法,可以簡單理解為一個(gè)可以無限水平擴(kuò)展的MySQL,并且提供分布式事務(wù)、跨節(jié)點(diǎn) JOIN、吞吐和存儲(chǔ)容量水平擴(kuò)展、故障自恢復(fù)、高可用等優(yōu)異的特性;對(duì)業(yè)務(wù)沒有任何侵入性,簡化開發(fā),利于維護(hù)和平滑遷移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB發(fā)布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式發(fā)布。
作為企業(yè)級(jí)產(chǎn)品,EsgynDB 2.5向前邁進(jìn)了一大步,它擁有以下功能和改進(jìn):
CockroachDB發(fā)布2.1版本
2018年10月30日,CockroachDB正式發(fā)布2.1版本,其新增特性如下:
新增企業(yè)級(jí)特性:
新增SQL特性:
新增內(nèi)核特性:
Admin UI增強(qiáng):
時(shí)間序列
本期新秀:TimescaleDB發(fā)布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用于生產(chǎn)環(huán)境,支持完整SQL和擴(kuò)展。
TimescaleDB是基于PostgreSQL數(shù)據(jù)庫開發(fā)的一款時(shí)序數(shù)據(jù)庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級(jí)而升級(jí),不會(huì)因?yàn)榱砹⒎种砺闊?/p>
TimescaleDB架構(gòu):
數(shù)據(jù)自動(dòng)按時(shí)間和空間分片(chunk)
更新亮點(diǎn):
大數(shù)據(jù)生態(tài)圈
Hadoop發(fā)布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上發(fā)布了新的2.9.2版本,該版本進(jìn)行了204個(gè)大大小小的變更,主要變更如下:
Greenplum 發(fā)布5.15版本
Greenplum最新的5.15版本中發(fā)布了流式數(shù)據(jù)加載工具。
該版本中的Greenplum Streem Server組件已經(jīng)集成了Kafka流式加載功能,并通過了Confluent官方的集成認(rèn)證,其支持的主要功能如下:
國產(chǎn)數(shù)據(jù)庫概覽
K-DB發(fā)布數(shù)據(jù)庫一體機(jī)版
2018年11月7日,K-DB發(fā)布了數(shù)據(jù)庫一體機(jī)版。該版本更新情況如下:
OceanBase遷移服務(wù)發(fā)布1.0版本
1月4日,OceanBase 正式發(fā)布OMS遷移服務(wù)1.0版本。
以下內(nèi)容包含 OceanBase 遷移服務(wù)的重要特性和功能:
SequoiaDB發(fā)布3.0.1新版本
1、架構(gòu)
1)完整計(jì)算存儲(chǔ)分離架構(gòu),兼容MySQL協(xié)議、語法
計(jì)算存儲(chǔ)分離體系以松耦合的方式將計(jì)算與存儲(chǔ)層分別部署,通過標(biāo)準(zhǔn)接口或插件對(duì)各個(gè)模塊和組件進(jìn)行無縫替換,在計(jì)算層與存儲(chǔ)層均可實(shí)現(xiàn)自由的彈性伸縮。
SequoiaDB巨杉數(shù)據(jù)庫“計(jì)算-存儲(chǔ)分離”架構(gòu)詳細(xì)示意
用戶可以根據(jù)自身業(yè)務(wù)特征選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統(tǒng)計(jì)分析的執(zhí)行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優(yōu)化與執(zhí)行方式,數(shù)據(jù)庫的訪問性能可能會(huì)存在上千上萬倍的差距。計(jì)算存儲(chǔ)分離的核心思想便是在數(shù)據(jù)存儲(chǔ)層面進(jìn)行一體化存儲(chǔ),在計(jì)算層面則利用每種執(zhí)行引擎的特點(diǎn)針對(duì)不同業(yè)務(wù)場景進(jìn)行選擇和優(yōu)化,用戶可以在存儲(chǔ)層進(jìn)行邏輯與物理的隔離,將面向高頻交易的前端業(yè)務(wù)與面向高吞吐量的統(tǒng)計(jì)分析使用不同的硬件進(jìn)行存儲(chǔ),確保在多類型數(shù)據(jù)訪問時(shí)互不干擾,以真正達(dá)到生產(chǎn)環(huán)境可用的多租戶與HTAP能力。
2、其他更新信息
1)接口變更:
2)主要特性:
云數(shù)據(jù)庫
本期新秀:騰訊發(fā)布數(shù)據(jù)庫CynosDB,開啟公測
1、News
1)騰訊云數(shù)據(jù)庫MySQL2018年重大更新:
2)騰訊云數(shù)據(jù)庫MongoDB2018年重大更新:
3)騰訊云數(shù)據(jù)庫Redis/CKV+2018年重大更新:
4)騰訊云數(shù)據(jù)庫CTSDB2018年重大更新:
2、Redis 4.0集群版商業(yè)化上線
2018年10月,騰訊云數(shù)據(jù)庫Redis 4.0集群版完成邀測、公測、商業(yè)化三個(gè)迭代,在廣州、上海、北京正式全量商業(yè)化上線。
產(chǎn)品特性:
使用場景:
官網(wǎng)文檔:
3、騰訊自研數(shù)據(jù)庫CynosDB發(fā)布,開啟公測
2018年11月22日,騰訊云召開新一代自研數(shù)據(jù)庫CynosDB發(fā)布會(huì),業(yè)界第一款全面兼容市面上兩大最主流的開源數(shù)據(jù)庫MySQL和PostgreSQL的高性能企業(yè)級(jí)分布式云數(shù)據(jù)庫。
本期新秀:京東云DRDS發(fā)布1.0版本
12月24日,京東云分布式關(guān)系型數(shù)據(jù)庫DRDS正式發(fā)布1.0版本。
DRDS是京東云精心自研的數(shù)據(jù)庫中間件產(chǎn)品,獲得了2018年 ”可信云技術(shù)創(chuàng)新獎(jiǎng)”。DRDS可實(shí)現(xiàn)海量數(shù)據(jù)下的自動(dòng)分庫分表,具有高性能,分布式,彈性升級(jí),兼容MySQL等優(yōu)點(diǎn),適用于高并發(fā)、大規(guī)模數(shù)據(jù)的在線交易, 歷史 數(shù)據(jù)查詢,自動(dòng)數(shù)據(jù)分片等業(yè)務(wù)場景,歷經(jīng)多次618,雙十一的考驗(yàn),已經(jīng)在京東集團(tuán)內(nèi)大規(guī)模使用。
京東云DRDS產(chǎn)品有以下主要特性
1)自動(dòng)分庫分表
通過簡單的定義即可自動(dòng)實(shí)現(xiàn)分庫分表,將數(shù)據(jù)實(shí)際存放在多個(gè)MySQL實(shí)例的數(shù)據(jù)庫中,但呈現(xiàn)給應(yīng)用程序的依舊是一張表,對(duì)業(yè)務(wù)透明,應(yīng)用程序幾乎無需改動(dòng),實(shí)現(xiàn)了對(duì)數(shù)據(jù)庫存儲(chǔ)和處理能力的水平擴(kuò)展。
2)分布式架構(gòu)
基于分布式架構(gòu)的集群方案,多個(gè)對(duì)等節(jié)點(diǎn)同時(shí)對(duì)外提供服務(wù),不但可有效規(guī)避服務(wù)的單點(diǎn)故障,而且更加容易擴(kuò)展。
3)超強(qiáng)性能
具有極高的處理能力,雙節(jié)點(diǎn)即可支持?jǐn)?shù)萬QPS,滿足用戶超大規(guī)模處理能力的需求。
4)兼容MySQL
兼容絕大部分MySQL語法,包括MySQL語法、數(shù)據(jù)類型、索引、常用函數(shù)、排序、關(guān)聯(lián)等DDL,DML語句,使用成本低。
參考鏈接:
RadonDB發(fā)布1.0.3版本
2018年12月26日,MyNewSQL領(lǐng)域的RadonDB云數(shù)據(jù)庫發(fā)布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向廣大技術(shù)愛好者提供數(shù)據(jù)庫行業(yè)的最新技術(shù)發(fā)展趨勢,為社區(qū)的技術(shù)發(fā)展提供一個(gè)統(tǒng)一的發(fā)聲平臺(tái)。為此,我們策劃了RDBMS、NoSQL、NewSQL、時(shí)間序列、大數(shù)據(jù)生態(tài)圈、國產(chǎn)數(shù)據(jù)庫、云數(shù)據(jù)庫等幾個(gè)版塊。
我們不以商業(yè)宣傳為目的,不接受任何商業(yè)廣告宣傳,嚴(yán)格審查信息源的可信度和準(zhǔn)確性,力爭為大家提供一個(gè)純凈的技術(shù)學(xué)習(xí)環(huán)境,歡迎大家監(jiān)督指正。
至于Newsletter發(fā)布的周期,目前計(jì)劃是每三個(gè)月左右會(huì)做一次跟進(jìn), 下期計(jì)劃時(shí)間是2019年4月14日~4月25日, 如果有相關(guān)的信息提供請(qǐng)發(fā)送至郵箱:newsletter@dbaplus.cn
感謝名單
最后要感謝那些提供寶貴信息和建議的專家朋友,排名不分先后。
往期回顧:
↓↓別忘了點(diǎn)這里下載 2019年1月 完整版Newsletter 哦~
云數(shù)據(jù)庫哪家好?
快云推出了云數(shù)據(jù)庫Mysql版。您無需再為那些復(fù)雜的運(yùn)維問題而發(fā)愁,即便是沒有任何運(yùn)維經(jīng)驗(yàn)的管理者,也可以通過云數(shù)據(jù)庫輕松完成這些任務(wù)。?目前快云數(shù)據(jù)庫Mysql版正在公測,用戶只需簡單的幾步操作就能享受快云數(shù)據(jù)庫來的“SQL標(biāo)準(zhǔn)和NoSQL高度兼容”、“強(qiáng)大的處理復(fù)雜查詢能力”、以及豐富的插件支持等特性,同時(shí)還能大幅節(jié)省運(yùn)維成本和硬件投入,并且由專家級(jí)的DBA保證您數(shù)據(jù)庫的穩(wěn)定性,讓您更專注于業(yè)務(wù)開發(fā),無后顧之憂。
阿里云分布式數(shù)據(jù)庫服務(wù)DRDS?誰使用過 簡單講講!
淘寶開源的TDDL和cobar的結(jié)合,放到了阿里云上就是DRDS,是商品,服務(wù),可以購買使用的。可以在阿里云官網(wǎng)上注冊免費(fèi)試用。
=====================================================
隨著互聯(lián)網(wǎng)時(shí)代的到來,計(jì)算機(jī)要管理的數(shù)據(jù)量呈指數(shù)級(jí)別地飛速上漲,而我們卻完全無法對(duì)用戶數(shù)做出準(zhǔn)確預(yù)估。我們的系統(tǒng)所需要支持的用戶數(shù),很可能在短短的一個(gè)月內(nèi)突然爆發(fā)式地增長幾千倍,數(shù)據(jù)也很可能快速地從原來的幾百GB飛速上漲到了幾百個(gè)TB。如果在這爆發(fā)的關(guān)鍵時(shí)刻,系統(tǒng)不穩(wěn)定或無法訪問,那么對(duì)于業(yè)務(wù)將會(huì)是毀滅性的打擊。
伴隨著這種對(duì)于系統(tǒng)性能、成本以及擴(kuò)展性的新需要,以HBase、MongoDB為代表的NoSQL數(shù)據(jù)庫和以阿里DRDS、VoltDB、ScaleBase為代表的分布式NewSQL數(shù)據(jù)庫如雨后春筍般不斷涌現(xiàn)出來。
本文將會(huì)介紹阿里DRDS的技術(shù)理念、發(fā)展歷程、技術(shù)特性等內(nèi)容。
DRDS設(shè)計(jì)理念
從20世紀(jì)70年代關(guān)系數(shù)據(jù)庫創(chuàng)立開始,其實(shí)大家在數(shù)據(jù)庫上的追求就從未發(fā)生過變化:更快的存取數(shù)據(jù),可以按需擴(kuò)縮以承載更大的訪問量和更大的數(shù)據(jù)量,開發(fā)容易,硬件成本低,我們可以把這叫做數(shù)據(jù)庫領(lǐng)域的圣杯。
為了支撐更大的訪問量和數(shù)據(jù)量,我們必然需要分布式數(shù)據(jù)庫系統(tǒng),然而分布式系統(tǒng)又必然會(huì)面對(duì)強(qiáng)一致性所帶來的延遲提高的問題,因?yàn)榫W(wǎng)絡(luò)通信本身比單機(jī)內(nèi)通信代價(jià)高很多,這種通信的代價(jià)就會(huì)直接增加系統(tǒng)單次提交的延遲。延遲提高會(huì)導(dǎo)致數(shù)據(jù)庫鎖持有時(shí)間變長,使得高沖突條件下分布式事務(wù)的性能不升反降(這個(gè)具體可以了解一下Amdahl定律),甚至性能距離單機(jī)數(shù)據(jù)庫都還有明顯的差距。
從上面的說明,我們可以發(fā)現(xiàn),問題的關(guān)鍵并不是分布式事務(wù)做不出來,而是做出來了卻因?yàn)樾阅芴疃鴽]有什么卵用。數(shù)據(jù)庫領(lǐng)域的高手們努力了40年,但至今仍然沒有人能夠很好地解決這個(gè)問題,Google Spanner的開發(fā)負(fù)責(zé)人就經(jīng)常在他的Blog上談?wù)撗舆t的問題,相信也是飽受這個(gè)問題的困擾。
面對(duì)這個(gè)難題,傳統(tǒng)的關(guān)系數(shù)據(jù)庫選擇了放棄分布式的方案,因?yàn)樵?0世紀(jì)70~80年代,我們的數(shù)據(jù)庫主要被用來處理企業(yè)內(nèi)的各類數(shù)據(jù),面對(duì)的用戶不過幾千人,而數(shù)據(jù)量最多也就是TB級(jí)別。用單臺(tái)機(jī)器來處理事務(wù),用個(gè)磁盤陣列處理一下磁盤容量不夠的問題,基本上就能解決一切問題了。
然而,信息化和互聯(lián)網(wǎng)的浪潮改變了這一切,我們突然發(fā)現(xiàn),我們服務(wù)的對(duì)象發(fā)生了根本性變化,從原來的幾千人,變成了現(xiàn)在的幾億人,數(shù)據(jù)量也從TB級(jí)別到了PB級(jí)別甚至更多。存在單點(diǎn)的單機(jī)系統(tǒng)無論如何努力,都會(huì)面對(duì)系統(tǒng)處理能力的天花板。原來的這條路,看起來是走不下去了,我們必須想辦法換一條路來走。
可是,分布式數(shù)據(jù)庫所面對(duì)的強(qiáng)一致性難題卻像一座高山,人們努力了無數(shù)個(gè)日日夜夜,但能翻越這座山的日子看來仍然遙遙無期。
于是,有一群人認(rèn)為,強(qiáng)一致性這件事看來不怎么靠譜,那徹底繞開這個(gè)問題是不是個(gè)更好的選擇?他們發(fā)現(xiàn)確實(shí)有那么一些場景是不需要強(qiáng)一致事務(wù)的,甚至連SQL都可以不要,最典型的就是日志流水的記錄與分析這類場景。而去掉了事務(wù)和SQL,接口簡單了,性能就更容易得到提升,擴(kuò)展性也更容易實(shí)現(xiàn),這就是NoSQL系統(tǒng)的起源。
雖然NoSQL解決了性能和擴(kuò)展性問題,但這種繞開問題的方法給用戶帶來了很多困擾,系統(tǒng)的開發(fā)成本也大大提升。這時(shí)候就有另外一群人,他們覺得用戶需要SQL,覺得用戶也需要事務(wù),問題的關(guān)鍵在于我們要努力地往圣杯的方向不斷前進(jìn)。在保持系統(tǒng)的擴(kuò)展性和性能的前提下,付出盡可能小的代價(jià)來滿足業(yè)務(wù)對(duì)數(shù)據(jù)庫的需要。這就是NewSQL這個(gè)理念的由來。
DRDS也是一個(gè)NewSQL的系統(tǒng),它與ScaleBase、VoltDB等系統(tǒng)類似,都希望能夠找到一條既能保持系統(tǒng)的高擴(kuò)展性和高性能,又能盡可能保持傳統(tǒng)數(shù)據(jù)庫的ACID事務(wù)和SQL特性的分布式數(shù)據(jù)庫系統(tǒng)。
DRDS發(fā)展歷程
在一開始,TDDL的主要功能就是做數(shù)據(jù)庫切分,一個(gè)或一組SQL請(qǐng)求提交到TDDL,TDDL進(jìn)行規(guī)則運(yùn)算后得知SQL應(yīng)該被分發(fā)到哪個(gè)機(jī)器,直接將SQL轉(zhuǎn)發(fā)到對(duì)應(yīng)機(jī)器即可(如圖1)。
圖1 TDDL數(shù)據(jù)庫切分
開始的時(shí)候,這種簡單的路由策略能夠滿足用戶的需要,我們開始的那些應(yīng)用,就是通過這樣非常簡單的方式完成了他所有的應(yīng)用請(qǐng)求。我們也認(rèn)為,這種方案簡單可靠,已經(jīng)足夠好用了。
然而,當(dāng)我們服務(wù)的應(yīng)用從十幾個(gè)增長到幾百個(gè)的時(shí)候,大量的中小應(yīng)用加入,大家紛紛表示,原來的方案限制太大,很多應(yīng)用其實(shí)只是希望做個(gè)讀寫分離,希望能有更好的SQL兼容性。
于是,我們做了第一次重大升級(jí),在這次升級(jí)里,我們提出了一個(gè)重要的概念就是三層架構(gòu),Matrix對(duì)應(yīng)數(shù)據(jù)庫切分場景,對(duì)SQL有一定限制,Group對(duì)應(yīng)讀寫分離和高可用場景,對(duì)SQL幾乎沒有限制。如圖2所示。
圖2 數(shù)據(jù)庫升級(jí)為三層架構(gòu)
這種做法立刻得到了大家的認(rèn)可,TDDL所提供的讀寫分離、分庫分表等核心功能,也成為了阿里集團(tuán)內(nèi)數(shù)據(jù)庫領(lǐng)域的標(biāo)配組件,在阿里的幾乎所有應(yīng)用上都有應(yīng)用。最為難得的是,這些功能從上線后,到現(xiàn)在已經(jīng)經(jīng)歷了多年雙11的嚴(yán)酷考驗(yàn),從未出現(xiàn)過嚴(yán)重故障(p0、p1級(jí)別故障屬于嚴(yán)重故障)。數(shù)據(jù)庫體系作為整個(gè)應(yīng)用系統(tǒng)的重中之重,能做到這件事,真是非常不容易。
隨著核心功能的穩(wěn)定,自2010年開始,我們集中全部精力開始關(guān)注TDDL后端運(yùn)維系統(tǒng)的完善與改進(jìn)性工作。在DBA團(tuán)隊(duì)的給力配合下,圍繞著TDDL,我們成功做到了在線數(shù)據(jù)動(dòng)態(tài)擴(kuò)縮、異步索引等關(guān)鍵特征,同時(shí)也比較成功地構(gòu)建了一整套分布式數(shù)據(jù)庫服務(wù)管控體系,用戶基本上可以完全自助地完成整套數(shù)據(jù)庫環(huán)境的搭建與初始化工作。
大概是2012年,我們在阿里云團(tuán)隊(duì)的支持下,開始嘗試將TDDL這套體系輸出到阿里云上,也有了個(gè)新的名字:阿里分布式數(shù)據(jù)庫服務(wù)(DRDS),希望能夠用我們的技術(shù)服務(wù)好更多的人。
不過當(dāng)我們滿懷自信地把自己的軟件拿到云上的時(shí)候,卻發(fā)現(xiàn)我們的軟件距離用戶的要求差距很大。在內(nèi)部因?yàn)橛蠨BA的同學(xué)們幫助進(jìn)行SQL review,所以SQL的復(fù)雜度都是可控的。然而到了云上,看了各種渠道提過來的兼容性需求,我們經(jīng)常是不自覺地發(fā)出這樣的感嘆:“啊?原來這種語法MySQL也是可以支持的?”
于是,我們又進(jìn)行了架構(gòu)升級(jí),這次是以兼容性為核心目標(biāo)的系統(tǒng)升級(jí)工作,希望能夠在分布式場景下支持各類復(fù)雜的SQL,同時(shí)也將阿里這么多年來在分布式事務(wù)上的積累都帶到了DRDS里面。
這次架構(gòu)升級(jí),我們的投入史無前例,用了三年多才將整個(gè)系統(tǒng)落地完成。我們先在內(nèi)部以我們自己的業(yè)務(wù)作為首批用戶上線,經(jīng)過了內(nèi)部幾百個(gè)應(yīng)用的嚴(yán)酷考驗(yàn)以后,我們才敢拿到云上,給到我們的最終用戶使用。
目前,我們正在將TDDL中更多的積累輸出到云上,同時(shí)也努力優(yōu)化我們的用戶界面。PS:其實(shí)用戶界面優(yōu)化對(duì)我們這種專注于高性能后端技術(shù)的團(tuán)隊(duì)來說,才是最大的技術(shù)挑戰(zhàn),連我也去學(xué)了AngularJS,參與了用戶UI編。
DRDS主要功能介紹
發(fā)展歷史看完了,下面就由我來介紹一下目前我們已經(jīng)輸出到云上的主要功能。
【分布式SQL執(zhí)行引擎】
分布式SQL引擎主要的目的,就是實(shí)現(xiàn)與單機(jī)數(shù)據(jù)庫SQL引擎的完全兼容。目前我們的SQL引擎能夠做到與MySQL的SQL引擎全兼容,包括各類join和各類復(fù)雜函數(shù)等。他主要包含SQL解析、優(yōu)化、執(zhí)行和合并四個(gè)流程,如圖3中綠色部分。
圖3 SQL引擎實(shí)現(xiàn)的主要流程
雖然SQL是兼容的,但是分布式SQL執(zhí)行算法與單機(jī)SQL的執(zhí)行算法卻完全不同,原因也很簡單,網(wǎng)絡(luò)通信的延遲比單機(jī)內(nèi)通信的延遲大得多。舉個(gè)例子說明一下,我們有份文件要從一張紙A上謄寫到另外一張紙B上,單機(jī)系統(tǒng)就好比兩張紙都在同一個(gè)辦公室里,而分布式數(shù)據(jù)庫則就像是一張紙?jiān)诒本粡埣堅(jiān)诤贾荨?/p>
自然地,如果兩張紙?jiān)谕粋€(gè)辦公室,因?yàn)閭鬏斁嚯x近,逐行謄寫的效率是可以接受的。而如果距離是北京到杭州,用逐行謄寫的方式,就立刻顯得代價(jià)太高了,我們總不能看一行,就打個(gè)“飛的”去杭州寫下來吧。在這種情況下,還是把紙A上的信息拍個(gè)照片,【一整批的】帶到杭州去處理,明顯更簡單一些。這就是分布式數(shù)據(jù)庫特別強(qiáng)調(diào)吞吐調(diào)優(yōu)的原因,只要是涉及到跨機(jī)的所有查詢,都必須盡可能的積攢一批后一起發(fā)送,以減少系統(tǒng)延遲提高帶來的不良影響。
【按需數(shù)據(jù)庫集群平滑擴(kuò)縮】
DRDS允許應(yīng)用按需將新的單機(jī)存儲(chǔ)加入或移出集群,DRDS則能夠保證應(yīng)用在遷移流程中實(shí)現(xiàn)不停機(jī)擴(kuò)容縮容。
圖4 DRDS按需進(jìn)行平滑擴(kuò)縮
在內(nèi)部的數(shù)據(jù)庫使用實(shí)踐中,這個(gè)功能的一個(gè)最重要應(yīng)用場景就是雙11了。在雙11之前,我們會(huì)將大批的機(jī)器加入到我們的數(shù)據(jù)庫集群中,抗過了雙11,這批機(jī)器就會(huì)下線。
當(dāng)DRDS來到云上,我們發(fā)現(xiàn)雙11其實(shí)不僅僅只影響阿里內(nèi)部的系統(tǒng)。在下游的各類電商輔助性系統(tǒng)其實(shí)也面對(duì)巨大壓力。在雙11前5天,網(wǎng)聚寶的熊總就找到我說,擔(dān)心撐不過雙11的流量,怕系統(tǒng)掛。于是我們就給他介紹了這個(gè)自動(dòng)擴(kuò)容的功能怎么用,他買了一個(gè)月的數(shù)據(jù)庫,掛接在DRDS上。數(shù)據(jù)庫能力立刻翻倍,輕松抗過了雙11,也算是我印象比較深刻的一個(gè)案例了。
因?yàn)槲覀兺耆珶o法預(yù)測在什么時(shí)間點(diǎn)系統(tǒng)會(huì)有爆發(fā)性的增長,而如果在這時(shí)候系統(tǒng)因?yàn)榧夹g(shù)原因不能使用,就會(huì)給整個(gè)業(yè)務(wù)帶來毀滅性的影響,風(fēng)口一旦錯(cuò)過,就追悔莫及了。我想這就是云計(jì)算特別強(qiáng)調(diào)可擴(kuò)展能力的原因吧。
【小表廣播】
小表廣播也是我們在分布式數(shù)據(jù)庫領(lǐng)域內(nèi)最常用的工具之一,他的核心目的其實(shí)都是一個(gè)——盡可能讓查詢只發(fā)生在單機(jī)。
讓我們用一個(gè)例子來說明,小表廣播的一般使用場景。
圖5 小表廣播場景
圖5中,如果我想知道買家id等于0的用戶在商城里面買了哪些商品,我們一般會(huì)先將這兩個(gè)表join起來,然后再用where平臺(tái)名=”商城” and buyerID = 0找到符合要求的數(shù)據(jù)。然而這種join的方式,會(huì)導(dǎo)致大量的針對(duì)左表的網(wǎng)絡(luò)I/O。如果要取出的數(shù)據(jù)量比較大,系統(tǒng)延遲會(huì)明顯上升。
這時(shí)候,為了提升性能,我們就必須要減少跨機(jī)join的網(wǎng)絡(luò)代價(jià)。我們比較推薦應(yīng)用做如下處理,將左表復(fù)制到右表的每一個(gè)庫上。這樣,join操作就由分布式j(luò)oin一下變回到本地join,系統(tǒng)的性能就有很大的提升了,如圖6所示。
圖6
【分布式事務(wù)套件】
在阿里巴巴的業(yè)務(wù)體系中存在非常多需要事務(wù)類的場景,下單減庫存,賬務(wù),都是事務(wù)場景最集中的部分。
而我們處理事務(wù)的方法卻和傳統(tǒng)應(yīng)用處理事務(wù)的方案不大一樣,我們非常強(qiáng)調(diào)事務(wù)的最終一致性和異步化。利用這種方式,能夠極大地降低分布式系統(tǒng)中鎖持有的時(shí)間,從而極大地提升系統(tǒng)性能。
圖7 DRDS分布式事務(wù)解決套件
這種處理機(jī)制,是我們分布式事務(wù)能夠以極低成本大量運(yùn)行的最核心法門。在DRDS平臺(tái)內(nèi),我們將這些方案產(chǎn)品化,為了DRDS的分布式事務(wù)解決套件。
利用他們,能夠讓你以比較低的成本,實(shí)現(xiàn)低延遲,高吞吐的分布式事務(wù)場景。
DRDS的未來
阿里分布式數(shù)據(jù)庫服務(wù)DRDS上線至今,大家對(duì)這款產(chǎn)品的熱情超出了我們的預(yù)期,短短半年內(nèi)已經(jīng)有幾千個(gè)申請(qǐng)。
盡管還在公測期,但是大家就已經(jīng)把關(guān)系到身家性命的寶貴在線數(shù)據(jù)業(yè)務(wù)放到了DRDS上,我能夠感受到這份沉甸甸的信賴,也不想辜負(fù)這份信賴。
經(jīng)過阿里內(nèi)部幾千個(gè)應(yīng)用的不斷歷練,DRDS已經(jīng)積累出一套強(qiáng)大的分布式SQL執(zhí)行引擎和和一整套分布式事務(wù)套件。
我也相信,這些積累能夠讓用戶在基本保持單機(jī)數(shù)據(jù)庫的使用習(xí)慣的前提下,享受到分布式數(shù)據(jù)庫高性能可擴(kuò)展的好處。
在平時(shí)的DRDS支持過程中,我面對(duì)最多的問題就是,DRDS能不能夠在不改變?nèi)魏卧袠I(yè)務(wù)邏輯和代碼的前提下,實(shí)現(xiàn)可自由伸縮和擴(kuò)展呢?十分可惜的是,關(guān)系數(shù)據(jù)庫發(fā)展至今,還沒有找到既能保留傳統(tǒng)數(shù)據(jù)庫一切特性,又能實(shí)現(xiàn)高性能可擴(kuò)展數(shù)據(jù)庫的方法。
然而,雖不能至,吾心向往之!我們會(huì)以“可擴(kuò)展,高性能”為產(chǎn)品核心,堅(jiān)定地走在追尋圣杯的路上,并堅(jiān)信最終我們一定能夠找尋到它神圣的所在。
作者簡介:王晶昱,花名沈詢,阿里巴巴資深技術(shù)專家。目前主要負(fù)責(zé)阿里的分布式數(shù)據(jù)庫DRDS(TDDL)和阿里的分布式消息服務(wù)ONS(RocketMQ/Notify)兩個(gè)系統(tǒng)。
本文題目:nosql什么時(shí)候公測,什么時(shí)候用nosql
分享路徑:http://www.xueling.net.cn/article/dssgjpj.html