重慶分公司,新征程啟航
為企業提供網站建設、域名注冊、服務器等服務
為企業提供網站建設、域名注冊、服務器等服務
隨著Internet技術的不斷發展和人們對地理信息系統(GIS)需求的日益增長,利用Internet在Web上發布空間數據,為用戶提供空間數據瀏覽、查詢和分析的功能,已成為地理信息系統(GIS)發展的必然趨勢。于是,基于Internet技術的地理信息系統———WEBGIS就應運而生。
專注于為中小企業提供成都網站建設、成都網站設計服務,電腦端+手機端+微信端的三站合一,更高效的管理,為中小企業高港免費做網站提供優質的服務。我們立足成都,凝聚了一批互聯網行業人才,有力地推動了上千多家企業的穩健成長,幫助中小企業通過網站建設實現規模擴充和轉變。
WEBGIS是一個將地理信息處理和地理信息分布于Web計算平臺進行的網絡化GIS系統,它是面向對象軟件構件技術、信息互操作技術、網絡技術發展的產物。系統采用ARCGISServer作為WEBGIS支撐平臺實現基礎地理空間數據和地質空間數據的網絡發布。
1.柵格WEBGIS技術
“柵格WEBGIS”(Grid WEBGIS)這一概念和產品是對傳統Web地圖服務方式的一種革命。啟用這個名稱,可謂是一語雙關:就是提供地理底圖的方式來講,再也不是傳統的方式———服務器端將矢量地圖臨時生成柵格圖發給客戶端,而是事先生成好柵格圖,用戶請求時不必做任何處理就可以即時發給客戶端;就客戶端的顯示方式來講,摒棄了傳統的一張地圖的顯示方式,客戶端采用多幅小圖拼接的方式顯示,總體看起來像是小圖片填充一個大的柵格的效果。
預先制作好所要發布的地理底圖、遙感影像不同縮放比例下的靜態圖像存放于服務器端,待實際發布時根據縮放比例在不同級別圖像之間進行切換。這種技術大大提高了地圖的Web瀏覽速度。
2.Web服務器端技術
Web服務器端主要由兩部分組成,即IIS(Internet Information Server)和WEBGIS服務器(包括ArcIMS組件、InternetGIS站點設計向導程序Wizard及面向城市地質Web應用的擴展組件)。
其中,IIS主要負責接收普通的用戶請求,當其需要空間數據時則向WEBGIS服務器發出請求,WEBGIS服務器接收到瀏覽器端的請求后,利用ArcIMS組件和城市地質Web應用擴展組件的功能,進行處理、分析、計算等;如果需要數據服務器的數據,則由WEBGIS服務器向數據服務器發出請求。
3.Web客戶端相關技術
包括IITML、客戶端腳本語言、VML(矢量可標記語言)、XML、DOM(文檔對象模型)、CSS(層疊樣式表)及Ajax(Asynchronous JavaScript and XML的縮寫),這些技術的綜合運用大大擴展了系統功能,大幅提高了系統響應速度。
1,從概念產生背景及解決的問題來看,云GIS的產生背景是大約在09年末產生的,首先是Esri的ArcGIS 10支持直接安裝到亞馬遜平臺上,通過亞馬遜的云平臺來實現GIS服務的彈性使用,這種方式的根本目的是GIS資源的集中存儲來達到有效利用,必須要有IAAS平臺和PAAS平臺的支撐。而網格GIS大約提出在2001年左右,主要是GIS技術和網格技術的結合,它是無縫連接不同硬件,軟件上應用資源的一種方式,把本來異構的環境搞成一個同構的環境,目的是通過訪問網格上的任意的應用節點就能達到所有節點應用。資源是分布在各個節點上的。而非一定是集中式的。
2,從技術上說,云GIS一定會依賴于IAAS平臺,是構建其上的服務平臺,本質是虛擬化技術,GIS資源和服務集中式管理和發布,要使GIS服務具有按需使用或高彈性等特點。一般要有服務管理運營平臺。而網格GIS是依賴于網格技術,技術難點在于異構數據的互操作問題。
3,本質上說二者都是為了解決數據,信息,服務的共享問題,很顯然,云GIS不論在理念上還是在解決問題的技術本質上都強于網格GIS,慢慢的網格GIS這種形式的共享最終會推出,而云GIS會勝出。
引言
地理信息系統(Geographic Information System,簡稱GIS)是計算機科學、地理學、測量學、地圖學等多門學科綜合的技術[1]。GIS的基本技術是空間數據庫、地圖可視化及空間分析,而空間數據庫是GIS的關鍵。空間數據挖掘技術作為當前數據庫技術最活躍的分支與知識獲取手段,在GIS中的應用推動著GIS朝智能化和集成化的方向發展。
1 空間數據庫與空間數據挖掘技術的特點
隨著數據庫技術的不斷發展和數據庫管理系統的廣泛應用,數據庫中存儲的數據量也在急劇增大,在這些海量數據的背后隱藏了很多具有決策意義的信息。但是,現今數據庫的大多數應用仍然停留在查詢、檢索階段,數據庫中隱藏的豐富的知識遠遠沒有得到充分的發掘和利用,數據庫中數據的急劇增長和人們對數據庫處理和理解的困難形成了強烈的反差,導致“人們被數據淹沒,但卻饑餓于知識”的現象。
空間數據庫(數據倉庫)中的空間數據除了其顯式信息外,還具有豐富的隱含信息,如數字高程模型〔DEM或TIN〕,除了載荷高程信息外,還隱含了地質巖性與構造方面的信息;植物的種類是顯式信息,但其中還隱含了氣候的水平地帶性和垂直地帶性的信息,等等。這些隱含的信息只有通過數據挖掘才能顯示出來。空間數據挖掘(Spatial Data Mining,簡稱SDM),或者稱為從空間數據庫中發現知識,是為了解決空間數據海量特性而擴展的一個新的數據挖掘的研究分支,是指從空間數據庫中提取隱含的、用戶感興趣的空間或非空間的模式和普遍特征的過程[2]。由于SDM的對象主要是空間數據庫,而空間數據庫中不僅存儲了空間事物或對象的幾何數據、屬性數據,而且存儲了空間事物或對象之間的圖形空間關系,因此其處理方法有別于一般的數據挖掘方法。SDM與傳統的地學數據分析方法的本質區別在于SDM是在沒有明確假設的前提下去挖掘信息、發現知識,挖掘出的知識應具有事先未知、有效和可實用3個特征。
空間數據挖掘技術需要綜合數據挖掘技術與空間數據庫技術,它可用于對空間數據的理解,對空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等。
2 空間數據挖掘技術的主要方法及特點
常用的空間數據挖掘技術包括:序列分析、分類分析、預測、聚類分析、關聯規則分析、時間序列分析、粗集方法及云理論等。本文從挖掘任務和挖掘方法的角度,著重介紹了分類分析、聚類分析和關聯規則分析三種常用的重要的方法。
2.1、分類分析
分類在數據挖掘中是一項非常重要的任務,目前在商業上應用最多。分類的目的是學會一個分類函數或分類模型(也常常稱作分類器),該模型能把數據庫中的數據項映射到給定類別中的某一個。分類和我們熟知的回歸方法都可用于預測,兩者的目的都是從歷史數據紀錄中自動推導出對給定數據的推廣描述,從而能對未來數據進行預測。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出則是連續的數值。二者常表現為一棵決策樹,根據數據值從樹根開始搜索,沿著數據滿足的分支往上走,走到樹葉就能確定類別。空間分類的規則實質是對給定數據對象集的抽象和概括,可用宏元組表示。
要構造分類器,需要有一個訓練樣本數據集作為輸入。訓練集由一組數據庫記錄或元組構成,每個元組是一個由特征(又稱屬性)值組成的特征向量,此外,訓練樣本還有一個類別標記。一個具體樣本的形式可為:( v1, v2, ..., vn; c );其中vi表示字段值,c表示類別。
分類器的構造方法有統計方法、機器學習方法、神經網絡方法等等。統計方法包括貝葉斯法和非參數法(近鄰學習或基于事例的學習),對應的知識表示是判別函數和原型事例。機器學習方法包括決策樹法和規則歸納法,前者對應的表示為決策樹或判別樹,后者則一般為產生式規則。神經網絡方法主要是反向傳播(Back-Propagation,簡稱BP)算法,它的模型表示是前向反饋神經網絡模型(由代表神經元的節點和代表聯接權值的邊組成的一種體系結構),BP算法本質上是一種非線性判別函數[3]。另外,最近又興起了一種新的方法:粗糙集(rough set),其知識表示是產生式規則。
不同的分類器有不同的特點。有三種分類器評價或比較尺度:1) 預測準確度;2) 計算復雜度;3) 模型描述的簡潔度。預測準確度是用得最多的一種比較尺度,特別是對于預測型分類任務,目前公認的方法是10番分層交叉驗證法。計算復雜度依賴于具體的實現細節和硬件環境,在數據挖掘中,由于操作對象是海量的數據庫,因此空間和時間的復雜度問題將是非常重要的一個環節。對于描述型的分類任務,模型描述越簡潔越受歡迎。例如,采用規則歸納法表示的分類器構造法就很有用,而神經網絡方法產生的結果就難以理解。
另外要注意的是,分類的效果一般和數據的特點有關。有的數據噪聲大,有的有缺值, 有的分布稀疏,有的字段或屬性間相關性強,有的屬性是離散的而有的是連續值或混合式的。目前普遍認為不存在某種方法能適合于各種特點的數據。
分類技術在實際應用非常重要,比如:可以根據房屋的地理位置決定房屋的檔次等。
2. 2 聚類分析
聚類是指根據“物以類聚”的原理,將本身沒有類別的樣本聚集成不同的組,并且對每一個這樣的組進行描述的過程。它的目的是使得屬于同一個組的樣本之間應該彼此相似,而不同組的樣本應足夠不相似。與分類分析不同,進行聚類前并不知道將要劃分成幾個組和什么樣的組,也不知道根據哪些空間區分規則來定義組。其目的旨在發現空間實體的屬性間的函數關系,挖掘的知識用以屬性名為變量的數學方程來表示。聚類方法包括統計方法、機器學習方法、神經網絡方法和面向數據庫的方法。基于聚類分析方法的空間數據挖掘算法包括均值近似算法[4]、CLARANS、BIRCH、DBSCAN等算法。目前,對空間數據聚類分析方法的研究是一個熱點。
對于空間數據,利用聚類分析方法,可以根據地理位置以及障礙物的存在情況自動地進行區域劃分。例如,根據分布在不同地理位置的ATM機的情況將居民進行區域劃分,根據這一信息,可以有效地進行ATM機的設置規劃,避免浪費,同時也避免失掉每一個商機。
2.3 關聯規則分析
關聯規則分析主要用于發現不同事件之間的關聯性,即一事物發生時,另一事物也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。其主要依據是:事件發生的概率和條件概率應該符合一定的統計意義。空間關聯規則的形式是X->Y[S%,C%],其中X、Y是空間或非空間謂詞的集合,S%表示規則的支持度,C%表示規則的置信度。空間謂詞的形式有3種:表示拓撲結構的謂詞、表示空間方向的謂詞和表示距離的謂詞[5]。各種各樣的空間謂詞可以構成空間關聯規則。如,距離信息(如Close_to(臨近)、Far_away(遠離))、拓撲關系(Intersect(交)、Overlap(重疊)、Disjoin(分離))和空間方位(如Right_of(右邊)、West_of(西邊))。實際上大多數算法都是利用空間數據的關聯特性改進其分類算法,使得它適合于挖掘空間數據中的相關性,從而可以根據一個空間實體而確定另一個空間實體的地理位置,有利于進行空間位置查詢和重建空間實體等。大致算法可描述如下:(1)根據查詢要求查找相關的空間數據;(2)利用臨近等原則描述空間屬性和特定屬性;(3)根據最小支持度原則過濾不重要的數據;(4)運用其它手段對數據進一步提純(如OVERLAY);(5)生成關聯規則。
關聯規則通常可分為兩種:布爾型的關聯規則和多值關聯規則。多值關聯規則比較復雜,一種自然的想法是將它轉換為布爾型關聯規則,由于空間關聯規則的挖掘需要在大量的空間對象中計算多種空間關系,因此其代價是很高的。—種逐步求精的挖掘優化方法可用于空間關聯的分析,該方法首先用一種快速的算法粗略地對一個較大的數據集進行一次挖掘,然后在裁減過的數據集上用代價較高的算法進一步改進挖掘的質量。因為其代價非常高,所以空間的關聯方法需要進一步的優化。
對于空間數據,利用關聯規則分析,可以發現地理位置的關聯性。例如,85%的靠近高速公路的大城鎮與水相鄰,或者發現通常與高爾夫球場相鄰的對象是停車場等。
3 空間數據挖掘技術的研究方向
3.1 處理不同類型的數據
絕大多數數據庫是關系型的,因此在關系數據庫上有效地執行數據挖掘是至關重要的。但是在不同應用領域中存在各種數據和數據庫,而且經常包含復雜的數據類型,例如結構數據、復雜對象、事務數據、歷史數據等。由于數據類型的多樣性和不同的數據挖掘目標,一個數據挖掘系統不可能處理各種數據。因此針對特定的數據類型,需要建立特定的數據挖掘系統。
3.2 數據挖掘算法的有效性和可測性
海量數據庫通常有上百個屬性和表及數百萬個元組。GB數量級數據庫已不鮮見,TB數量級數據庫已經出現,高維大型數據庫不僅增大了搜索空間,也增加了發現錯誤模式的可能性。因此必須利用領域知識降低維數,除去無關數據,從而提高算法效率。從一個大型空間數據庫中抽取知識的算法必須高效、可測量,即數據挖掘算法的運行時間必須可預測,且可接受,指數和多項式復雜性的算法不具有實用價值。但當算法用有限數據為特定模型尋找適當參數時,有時也會導致物超所值,降低效率。
3.3 交互性用戶界面
數據挖掘的結果應準確地描述數據挖掘的要求,并易于表達。從不同的角度考察發現的知識,并以不同形式表示,用高層次語言和圖形界面表示數據挖掘要求和結果。目前許多知識發現系統和工具缺乏與用戶的交互,難以有效利用領域知識。對此可以利用貝葉斯方法和演譯數據庫本身的演譯能力發現知識。
3.4 在多抽象層上交互式挖掘知識
很難預測從數據庫中會挖掘出什么樣的知識,因此一個高層次的數據挖掘查詢應作為進一步探詢的線索。交互式挖掘使用戶能交互地定義一個數據挖掘要求,深化數據挖掘過程,從不同角度靈活看待多抽象層上的數據挖掘結果。
3.5 從不同數據源挖掘信息
局域網、廣域網以及Internet網將多個數據源聯成一個大型分布、異構的數據庫,從包含不同語義的格式化和非格式化數據中挖掘知識是對數據挖掘的一個挑戰。數據挖掘可揭示大型異構數據庫中存在的普通查詢不能發現的知識。數據庫的巨大規模、廣泛分布及數據挖掘方法的計算復雜性,要求建立并行分布的數據挖掘。
3.6 私有性和安全性
數據挖掘能從不同角度、不同抽象層上看待數據,這將影響到數據挖掘的私有性和安全性。通過研究數據挖掘導致的數據非法侵入,可改進數據庫安全方法,以避免信息泄漏。
3.7 和其它系統的集成
方法、功能單一的發現系統的適用范圍必然受到一定的限制。要想在更廣泛的領域發現知識,空間數據挖掘系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等技術的集成。
4 有待研究的問題
我們雖然在空間數據挖掘技術的研究和應用中取得了很大的成績,但在一些理論及應用方面仍存在急需解決的問題。
4.1 數據訪問的效率和可伸縮性
空間數據的復雜性和數據的大量性,TB數量級的數據庫的出現,必然增大發現算法的搜索空間,增加了搜索的盲目性。如何有效的去除與任務無關的數據,降低問題的維數,設計出更加高效的挖掘算法對空間數據挖掘提出了巨大的挑戰。
4.2 對當前一些GIS軟件缺乏時間屬性和靜態存儲的改進
由于數據挖掘的應用在很大的程度上涉及到時序關系,因此靜態的數據存儲嚴重妨礙了數據挖掘的應用。基于圖層的計算模式、不同尺度空間數據之間的完全割裂也對空間數據挖掘設置了重重障礙。空間實體與屬性數據之間的聯系僅僅依賴于標識碼,這種一維的連接方式無疑將丟失大量的連接信息,不能有效的表示多維和隱含的內在連接關系,這些都增加了數據挖掘計算的復雜度,極大地增加了數據準備階段的工作量和人工干預的程度。
4.3 發現模式的精煉
當發現空間很大時會獲得大量的結果,盡管有些是無關或沒有意義的模式,這時可利用領域的知識進一步精煉發現的模式,從而得到有意義的知識。
在空間數據挖掘技術方面,重要的研究和應用的方向還包括:網絡環境上的數據挖掘、柵格矢量一體化的挖掘、不確定性情況下的數據挖掘、分布式環境下的數據挖掘、數據挖掘查詢語言和新的高效的挖掘算法等。
5 小結
隨著GIS與數據挖掘及相關領域科學研究的不斷發展,空間數據挖掘技術在廣度和深度上的不斷深入,在不久的將來,一個集成了挖掘技術的GIS、GPS、RS集成系統必將朝著智能化、網絡化、全球化與大眾化的方向發展。
當今,信息領域正發生著廣泛而深刻的技術變革,新概念和新技術不完善和發展,如地球信息科學的發展,數字地球概念的提出,GIS技術和數據庫技術走向集成,信息高速公路和Internet網的發展。Internet網和信息高速公路的飛速發展與廣泛應用,帶來了分布式應用研究以及共享信息和知識需求的不斷增長,必然帶來網絡GIS的發展。而現在第3代網絡技術——網格技術的提出和發展對GIS的發展更帶來了長遠的影響。特別是1998年1月31日美國前副總統戈爾提出的“數字地球”戰略,需要對大量的地理信息進行并行計算處理,此時WebGIS的不足顯現出來了,因為它主要通過超鏈接形成超文本,包括實現并行計算功能,而這一點對數字地球、數字城市需要的快速計算、信息共享是致命的。網格計算的提出和發展使得GIS必將朝著網絡化、標準化、大眾化方向發展。GridGIS也必將成為“數字地球”的核心平臺。
“數字地球”的概念,實際上是網格技術在地球信息科學領域的一種體現形式。一切與位置有關的信息在網絡環境下,用數字形式進行描述并存儲成為豐富的資源,通過信息共享技術,實現“按需索取”的服務,這種空間信息基礎設施成為空間信息網格(SIG)。
空間信息網格是空間信息獲取、互操作的基本發展框架。空間信息網格提供了一體化的空間信息獲取、處理與應用的基本技術框架,以及智能化的空間信息處理平臺和基本應用環境。建立分布式、智能化空間計算環境的基礎是建立基于分布式數據庫管理的空間網格計算環境,也就是實現支持局域、廣域網絡環境下空間信息處理和跨平臺計算,實現支持多用戶數據同步處理,實現支持空間數據的RPC,實現異構系統的互操作,實現支持網絡環境下的多級分布式協同工作。
空間信息網格是要利用現有的網絡基礎設施、協議規范、Web和數據庫技術,為用戶提供一體化的智能空間信息平臺,其目標是創建一種架構在OS和Web Service之上的基于Interent的新一代信息平臺和軟件基礎設施。在這個平臺上,信息的處理是分布式、協作和智能化的,用戶可以通過單一入口訪問所有信息。信息網格追求的最終目標是能夠做到服務點播(Service On Demand)和一步到位的服務。
在GIS領域,基于網格計算理念,研究者提出基于服務網格的空間信息網格及Grid GIS;國際標準化組織積極推進Grid GIS相關標準的制訂。一些協議及標準得到商業化GIS軟件公司,如ESRI,M apInfo的支持并且取得成效。GIS領域采納互聯網標準和協議,如XML,可以將松散結合的GIS網絡和地理信息處理服務結合在一起,形成空間信息服務。ESRI積極支持分布式GIS及GIS服務概念的發展,Gnet戰略在很多層面都會涉及。在最大的層面是World Wide Web,在最小的層面,是企業化的World Wide Web。通過網格協議的支持,多個部門將可以提供多種的和綜合性的服務,同時共享這些服務。可以支持企業化的開發,提供了不同分布式體系環境下構建GISWeb Services的開發組件,可以滿足GridGIS的建立,但是不同商業化公司所倡導的開發技術并不相同,呈現出不斷發展的態勢。
GridGIS是空間信息計算環境和空間信息服務技術體系,其是實現空間信息網格的技術支撐系統,其通過空間信息的標準化,實現空間信息的共享;通過空間分析語義的標準化,實現GIS功能的互操作:通過網格技術體系的支持,實現異構環境下GIS功能的共享。
GridGIS要利用現有的OpenGIS的GML標準,Web地圖服務標準以及網格相關技術標準,為用戶提供開放的空間信息計算環境技術體系,實現用戶分布式、跨平臺的空間信息計算集成。空間信息計算環境的研究可以包括空間信息深度計算和空間信息主動計算兩個層次。首先,通過時空屬性融合下的空間作用規律,建立空間深度計算體系,以獲得空間數據分布與模擬;其次,在此基礎上提出以空間智能體為核心的空間智能計算策略,實現空間主動計算體系。
目前,我國已將網格GIS作為信息領域的重點方向進行了深入的研究及成果的推廣及廣泛的應用,形成了網格GIS體系結構、標準規范、關鍵技術、軟件平臺、應用示范等一系列成果,并在多個領域進行了應用。
2008年1月,結合國內外網格計算技術的前沿研究成果,科技部設立了“863”計劃項目“網格地理信息系統軟件及重大應用”,該項目制定了網格環境下異構GIS軟件互操作技術,研究了空間信息網格計算技術,突破了網格GIS關鍵技術,開發出高性能、高可用性的網格GIS應用服務軟件和集成應用系統,形成了具有自主知識產權的網格GIS軟件平臺,實現了網格環境下異構GIS互操作和在線共享服務。
網格GIS相關標準在“中國地質調查信息網格平臺”和“天地圖”等工程中得到較好的應用;網格GIS平臺在地質調查信息網格、數字城市、地理信息公共服務平臺、數字流域、數字油田等平臺中進行了應用:網格GIS空間分析與處理技術已應用于林業信息化建設、煤礦安全系統、地震應急指揮系統建設中。
可以認為,網格GIS是GIS與網格技術的有機結合,是GIS在網格環境下的一種應用,網格GIS的網格環境必須能夠在新近的硬件和軟件技術平臺上操作,最終實現GIS網格化。GIS通過網格技術使功能得到了延伸和拓展,真正成為大眾使用的信息工具,從網格上的任意一個結點,可以訪問網格上的各種分布式的、具有超媒體特性的地理空間數據及屬性數據,進行地理空間分析、查詢,并對復雜空間問題進行并行計算,以輔助和支持決策。