重慶分公司,新征程啟航
為企業提供網站建設、域名注冊、服務器等服務
為企業提供網站建設、域名注冊、服務器等服務
什么是NoSQL數據庫?從名稱“非SQL”或“非關系型”衍生而來,這些數據庫不使用類似SQL的查詢語言,通常稱為結構化存儲。這些數據庫自1960年就已經存在,但是直到現在一些大公司(例如Google和Facebook)開始使用它們時,這些數據庫才流行起來。該數據庫最明顯的優勢是擺脫了一組固定的列、連接和類似SQL的查詢語言的限制。有時,NoSQL這個名稱也可能表示“不僅僅SQL”,來確保它們可能支持SQL。 NoSQL數據庫使用諸如鍵值、寬列、圖形或文檔之類的數據結構,并且可以如JSON之類的不同格式存儲。
成都創新互聯專業為企業提供薩迦網站建設、薩迦做網站、薩迦網站設計、薩迦網站制作等企業網站建設、網頁設計與制作、薩迦企業網站模板建站服務,十多年薩迦做網站經驗,不只是建網站,更提供有價值的思路和整體網絡服務。
NoSQL,指的是非關系型的數據庫。隨著互聯網web2.0網站的興起,傳統的關系數據庫在應付web2.0網站,特別是超大規模和高并發的
SNS類型的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,而非關系型的數據庫則由于其本身的特點得到了非常迅速的發展。
NoSQL(NoSQL
= Not Only SQL
),意即“不僅僅是SQL”,是一項全新的數據庫革命性運動,早期就有人提出,發展至2009年趨勢越發高漲。NoSQL的擁護者們提倡運用非關系型的數
據存儲,相對于鋪天蓋地的關系型數據庫運用,這一概念無疑是一種全新的思維的注入。
從這一新興技術中選擇一款正確的NoSQL數據庫是非常具有挑戰性的。比一下網建議在選擇時考慮以下因素:
并發控制
并
發控制指的是當多個用戶同時更新運行時,用于保護數據庫完整性的各種技術。并發機制不正確可能導致臟讀、幻讀和不可重復讀等此類問題。并發控制的目的是保
證一個用戶的工作不會對另一個用戶的工作產生不合理的影響。在某些情況下,這些措施保證了當用戶和其他用戶一起操作時,所得的結果和她單獨操作時的結果是
一樣的。在另一些情況下,這表示用戶的工作按預定的方式受其他用戶的影響。
封鎖
就是事務T在對某個數據對象(例如表、記錄等)操作之前,先向系統發出請求,對其加鎖。加鎖后事務T就對該數據對象有了一定的控制,在事務T釋放它的鎖之前,其它的事務不能更新此數據對象。
封鎖是一次只允許一個用戶讀取或修改的一種機制,是實現并發控制的一個非常重要的技術。
MVCC
Multi-Version Concurrency Control多版本并發控制,維持一個數據的多個版本使讀寫操作沒有沖突。MVCC優化了數據庫并發系統,使系統在有大量并發用戶時得到最高的性能,并且可以不用關閉服務器就直接進行熱備份。
ACID
指
數據庫事務正確執行的四個基本要素的縮寫。包含:原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久
性(Durability)。一個支持事務(Transaction)的數據庫系統,必需要具有這四種特性,否則在事務過程(Transaction
processing)當中無法保證數據的正確性,交易過程極可能達不到交易方的要求。
None
一些系統不提供原子性。
鏡像
數據庫鏡像是DBMS根據DBA的要求,自動把整個數據庫或其中的關鍵數據復制到另一個磁盤上,每當主數據庫更新時,DBMS會自動把更新后的數據復制過去,即DBMS自動保證鏡像數據與主數據的一致性。
鏡像分為同步和異步。
數據存儲
指的是數據的物理特性怎樣被存儲在數據庫中。
磁盤 數據被存儲在硬盤驅動器里;
GFS或谷歌文件系統是一個由谷歌開發的專有的分布式文件系統;
Hadoop是Apache軟件框架,免費許可下支持數據密集型分布式應用程序;
RAM隨機存儲器;
插件 可以添加外部插件;
Amazon S3通過Web服務接口提供存儲;
BDB:BDB
全稱是 “Berkeley DB”,它是MySQL具有事務能力的表類型,由Sleepycat
Software開發。BDB表類型提供了MySQL用戶長久期盼的功能,即事務控制能力。在任何RDBMS中,事務控制能力都是一種極其重要和寶貴的功
能。事務控制能力使得我們能夠確保一組命令確實已經全部執行成功,或者確保當任何一個命令出現錯誤時所有命令的執行結果均被退回。
實現語言
實現語言會影響數據庫的發展速度。典型的NoSQL數據庫是用低級語言如C / C + +編寫的。另一方面,那些更高層次的語言如Java,使自定義更容易。
實現語言有:C, C++, Erlang, Java, Python
特性
考慮下列哪一個特點對你的數據庫是最重要的:
持久性
可用性
一致性
分區容忍性
證書類型
下面這些許可證是一個不同的開放源碼許可的形式:
GPL:通用公共許可證
BSD:伯克利軟件分發
MPL:Mozilla公共許可證
EPL:Eclipse公共許可證
IDPL:最初的開發者的公共許可證
LGPL:較寬松通用公共許可證
存儲類型
存儲類型是NoSQL數據庫最大的不同,是決定使用哪款數據庫的一個首要指標。
關鍵字:支持get、put和刪除操作
按列存儲:相對于傳統的按行存儲,數據集成容易多了
面向文件系統:存儲像是JSON或XML這樣的結構化文件,很容易就能從面向對象軟件中獲取數據。
nosql是not only sql的意思。是近今年新發展起來的存儲系統。當前使用最多的是key-value模型,用于處理超大規模的數據。
以下是摘自百度百科中的一部分
NoSQL 是非關系型數據存儲的廣義定義。它打破了長久以來關系型數據庫與ACID理論大一統的局面。NoSQL 數據存儲不需要固定的表結構,通常也不存在連接操作。在大數據存取上具備關系型數據庫無法比擬的性能優勢。該術語在 2009 年初得到了廣泛認同。
當今的應用體系結構需要數據存儲在橫向伸縮性上能夠滿足需求。而 NoSQL 存儲就是為了實現這個需求。Google 的BigTable與Amazon的Dynamo是非常成功的商業 NoSQL 實現。一些開源的 NoSQL 體系,如Facebook 的Cassandra, Apache 的HBase,也得到了廣泛認同。從這些NoSQL項目的名字上看不出什么相同之處:Hadoop、Voldemort、Dynomite,還有其它很多。
NoSQL與關系型數據庫設計理念比較
關系型數據庫中的表都是存儲一些格式化的數據結構,每個元組字段的組成都一樣,即使不是每個元組都需要所有的字段,但數據庫會為每個元組分配所有的字段,這樣的結構可以便于表與表之間進行連接等操作,但從另一個角度來說它也是關系型數據庫性能瓶頸的一個因素。而非關系型數據庫以鍵值對存儲,它的結構不固定,每一個元組可以有不一樣的字段,每個元組可以根據需要增加一些自己的鍵值對,這樣就不會局限于固定的結構,可以減少一些時間和空間的開銷。
大數據項目需考量的四個因素
Hadoop系統和NoSQL數據庫已經成為管理大數據環境的重要工具。不過,在很多情況下,企業利用他們現有的數據倉庫設施,或是一個新老混合的技術來對大數據流入他們的系統進行管理。
無論一個公司部署什么類型的大數據技術棧,有一些共通的因素必須加以考量,以保證為大數據分析工作提供一個有效的框架。在開始一個大數據項目之前,去審視項目所要承擔的新數據需求的更大圖景顯得尤為關鍵。下面來讓我們檢視四個需要加以考量的因素。 數據準確性 數據質量問題對于BI和數據管理專業人士來說一定不陌生。很多BI和分析團隊努力保證數據的有效性并說服業務使用人員去信任信息資產的準確性和可靠性。作為個性化分析庫而得以廣泛使用的電子表格或電子報表軟件可以對數據中信任缺乏的問題加以彌補:在Excel中存儲和操作分析數據的功能為支持自助分析能力創造了環境,但可能不會激發其他用戶對結果的自信心。數據倉庫與數據集成和數據質量工具一起,能夠通過為管理BI和分析數據提供標準化流程來幫助樹立信心。但是,由于不斷增加的數據容量和更廣泛多樣的數據類型,特別是當涉及結構化和非結構化數據混合時,就會對一個大數據的實施增加難度系數。建立評估數據質量標準以及對它們進行升級以處理那些更大、更多樣數據集,對于大數據實施的成功和分析框架的使用是至關重要的。 存儲適用 數據倉儲的一個核心要求是處理和存儲大數據集的能力。但并不是所有數據倉庫在這方面都滿足要求。一些是針對復雜查詢處理進行優化,而其他的則并非如此。并且在許多大數據應用程序中,相較于事務系統,由于添加了非結構化數據還有數據的創建和收集增速迅猛,用Hadoop和NoSQL技術增強數據倉庫就成為必要。對于一個希望獲取并分析大數據的組織來說,光有存儲容量是不夠的;而重要的部分在于將數據置于何處才是最佳的,這樣數據就可以轉化為有用信息并為數據科學家和其他用戶所利用。 查詢性能 大數據分析依賴于及時處理和查詢復雜數據的能力。一個很好地例子就是:一家公司開發了一個數據倉庫用來維護從能源使用計收集到的數據。在產品評估過程中,某供應商的系統有能力在15分鐘內處理七百萬條記錄,而另一家則在相同時間內可以處理最高三十萬條記錄。能否識別正確的基礎設施來支持快速的數據可用性和高性能查詢就意味著成功還是失敗。 穩定性 隨著許多組織中數據量和數據種類的增長,大數據平臺的建立需要有對未來的考量。必須提前考慮和求證正在進行評估的大數據技術是否能夠進行擴展,以達到不斷向前發展的需求所要求的級別。這便超出了存儲容量的范疇,將性能也包含了進來,對那些從社交網絡,傳感器,系統日志文件以及其他非事務源獲取數據作為其業務數據擴展的公司來說尤為如此。
2. 什么是NoSQL?
2.1 NoSQL 概述
NoSQL(NoSQL = Not Only SQL ),意即“不僅僅是SQL”,
泛指非關系型的數據庫。隨著互聯網web2.0網站的興起,傳統的關系數據庫在應付web2.0網站,特別是超大規模和高并發的SNS類型的web2.0純動態網站已經顯得力不從心,暴露了很多難以克服的問題,而非關系型的數據庫則由于其本身的特點得到了非常迅速的發展。NoSQL數據庫的產生就是為了解決大規模數據集合多重數據種類帶來的挑戰,尤其是大數據應用難題,包括超大規模數據的存儲。
(例如谷歌或Facebook每天為他們的用戶收集萬億比特的數據)。這些類型的數據存儲不需要固定的模式,無需多余操作就可以橫向擴展。
2.2 NoSQL代表
MongDB、 Redis、Memcache
3. 關系型數據庫與NoSQL的區別?
3.1 RDBMS
高度組織化結構化數據
結構化查詢語言(SQL)
數據和關系都存儲在單獨的表中。
數據操縱語言,數據定義語言
嚴格的一致性
基礎事務
ACID
關系型數據庫遵循ACID規則
事務在英文中是transaction,和現實世界中的交易很類似,它有如下四個特性:
A (Atomicity) 原子性
原子性很容易理解,也就是說事務里的所有操作要么全部做完,要么都不做,事務成功的條件是事務里的所有操作都成功,只要有一個操作失敗,整個事務就失敗,需要回滾。比如銀行轉賬,從A賬戶轉100元至B賬戶,分為兩個步驟:1)從A賬戶取100元;2)存入100元至B賬戶。這兩步要么一起完成,要么一起不完成,如果只完成第一步,第二步失敗,錢會莫名其妙少了100元。
C (Consistency) 一致性
一致性也比較容易理解,也就是說數據庫要一直處于一致的狀態,事務的運行不會改變數據庫原本的一致性約束。
I (Isolation) 獨立性
所謂的獨立性是指并發的事務之間不會互相影響,如果一個事務要訪問的數據正在被另外一個事務修改,只要另外一個事務未提交,它所訪問的數據就不受未提交事務的影響。比如現有有個交易是從A賬戶轉100元至B賬戶,在這個交易還未完成的情況下,如果此時B查詢自己的賬戶,是看不到新增加的100元的
D (Durability) 持久性
持久性是指一旦事務提交后,它所做的修改將會永久的保存在數據庫上,即使出現宕機也不會丟失。
3.2 NoSQL
代表著不僅僅是SQL
沒有聲明性查詢語言
沒有預定義的模式
鍵 - 值對存儲,列存儲,文檔存儲,圖形數據庫
最終一致性,而非ACID屬性
非結構化和不可預知的數據
CAP定理
高性能,高可用性和可伸縮性
分布式數據庫中的CAP原理(了解)
CAP定理:
Consistency(一致性), 數據一致更新,所有數據變動都是同步的
Availability(可用性), 好的響應性能
Partition tolerance(分區容錯性) 可靠性
P: 系統中任意信息的丟失或失敗不會影響系統的繼續運作。
定理:任何分布式系統只可同時滿足二點,沒法三者兼顧。
CAP理論的核心是:一個分布式系統不可能同時很好的滿足一致性,可用性和分區容錯性這三個需求,
因此,根據 CAP 原理將 NoSQL 數據庫分成了滿足 CA 原則、滿足 CP 原則和滿足 AP 原則三 大類:
CA - 單點集群,滿足一致性,可用性的系統,通常在可擴展性上不太強大。
CP - 滿足一致性,分區容忍性的系統,通常性能不是特別高。
AP - 滿足可用性,分區容忍性的系統,通常可能對一致性要求低一些。
CAP理論就是說在分布式存儲系統中,最多只能實現上面的兩點。
而由于當前的網絡硬件肯定會出現延遲丟包等問題,所以分區容忍性是我們必須需要實現的。
所以我們只能在一致性和可用性之間進行權衡,沒有NoSQL系統能同時保證這三點。
說明:C:強一致性 A:高可用性 P:分布式容忍性
舉例:
CA:傳統Oracle數據庫
AP:大多數網站架構的選擇
CP:Redis、Mongodb
注意:分布式架構的時候必須做出取舍。
一致性和可用性之間取一個平衡。多余大多數web應用,其實并不需要強一致性。
因此犧牲C換取P,這是目前分布式數據庫產品的方向。
4. 當下NoSQL的經典應用
當下的應用是 SQL 與 NoSQL 一起使用的。
代表項目:阿里巴巴商品信息的存放。
去 IOE 化。
ps:I 是指 IBM 的小型機,很貴的,好像好幾萬一臺;O 是指 Oracle 數據庫,也很貴的,好幾萬呢;M 是指 EMC 的存儲設備,也很貴的。
難點:
數據類型多樣性。
數據源多樣性和變化重構。
數據源改造而服務平臺不需要大面積重構。