重慶分公司,新征程啟航
為企業(yè)提供網(wǎng)站建設(shè)、域名注冊、服務(wù)器等服務(wù)
為企業(yè)提供網(wǎng)站建設(shè)、域名注冊、服務(wù)器等服務(wù)
在hbase中,讀業(yè)務(wù)是非常頻繁的。很多操作都是客戶端根據(jù)meta表定位到具體的regionserver然后再查詢region中的具體的數(shù)據(jù)。
但是現(xiàn)在問題來了,一個region由一個memstore以及多個filestore組成,memstore類似緩存在服務(wù)器內(nèi)存中,可以提高插入的效率,當(dāng)memstore達(dá)到一定大小(由hbase.hregion.memstore.flush.size設(shè)置)或者說用戶手動flush之后,就會固化存儲在hdfs之類的磁盤系統(tǒng)上。也就是說一個region可以對應(yīng)很多有著有效數(shù)據(jù)的文件,雖然文件內(nèi)的數(shù)據(jù)是按照rowkey進(jìn)行排序的,但是文件之間的rowkey并沒有任何順序(除非經(jīng)過一次major_compact合并為一個文件)。
如果用戶現(xiàn)在提出的請求是查看一個rowkey(row1)的隨意某個列(cf1:col1)
即使用 get 'tab','row1','cf1:col1'這樣命令
很有可能的一種現(xiàn)象是,row1在每個文件的startkey以及endkey之間,因此regionserver需要掃描每個文件的相關(guān)數(shù)據(jù)塊,進(jìn)行多次物理IO。可是并不能確保每個文件中一定有row1這樣的行健,很多物理IO都是無效的,這樣以來對性能就有很大的影響。于是乎就有了布隆過濾器,在一定程度上判別文件中是否有指定的行健。
布隆過濾器分為row以及rowcol兩種,原理差不多,以rowcol類型為例:
在memstore寫入到hdfs形成文件時,文件內(nèi)有一個部分叫做meta,在寫入的過程中遵循如下算法:
1.首先會初始化一個比較長的bit數(shù)組不妨叫做bit arr[n]={0};
2.利用k個hash函數(shù)(k 3.假設(shè)某個hash函數(shù)的運(yùn)算結(jié)果為r,則設(shè)置arr[r]=1,這樣每個(row:cf:col)差不多都可以有k個結(jié)果,并將arr數(shù)據(jù)相應(yīng)位置設(shè)置為1; 4.如此反復(fù)知道所有的數(shù)據(jù)都被寫入文件,然后將arr寫入文件中的meta部分 由于位圖索引本身的結(jié)構(gòu)特點(diǎn),可以保證arr[n]不會很大;所以即使被緩存到內(nèi)存中(不是memstore)也不會占用太大空間,雖然在關(guān)系型數(shù)據(jù)庫中,尤其是oltp系統(tǒng),位圖索引會造成大量鎖現(xiàn)象,但是在hbase中,已經(jīng)寫入的文件除非compact否則幾乎不會修改。 現(xiàn)在再來看 get 'tab','row1','cf1:col1',在判斷某個文件是否含有(row1:cf1:col1)時,只需要將row1:cf1:col1進(jìn)行k個hash運(yùn)算,并判斷是否每個結(jié)果對應(yīng)的arr數(shù)組值是不是1,如果有一個不是,則可以表明文件中不存在這一列數(shù)據(jù)(當(dāng)然即使全部都是1也不一定代表就有),這樣可以避免讀不必要的文件,提高查詢效率。 從上可見布隆過濾器可以在一定程度上避免讀不必要的文件,可是由于是基于hash函數(shù)的,所以也不能說是完全準(zhǔn)確的,而且對于大規(guī)模的scan這樣的操作,完全沒有必要使用布隆過濾器。 2017.1.15 另外有需要云服務(wù)器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內(nèi)外云服務(wù)器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務(wù)器、裸金屬服務(wù)器、高防服務(wù)器、香港服務(wù)器、美國服務(wù)器、虛擬主機(jī)、免備案服務(wù)器”等云主機(jī)租用服務(wù)以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務(wù)可用性高、性價比高”等特點(diǎn)與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應(yīng)用場景需求。
分享文章:hbase中的位圖索引--布隆過濾器-創(chuàng)新互聯(lián)
當(dāng)前路徑:http://www.xueling.net.cn/article/ijppi.html