在這種方法中,企業(yè)將具有存儲和處理大數(shù)據(jù)的計算機。這里的數(shù)據(jù)將存儲在RDBMS如Oracle數(shù)據(jù)庫,MS SQL Server或DB2和復(fù)雜的軟件可以寫入與數(shù)據(jù)庫交互,處理所需的數(shù)據(jù),并將其呈現(xiàn)給用戶進行分析。
這種方法在我們的標準數(shù)據(jù)庫服務(wù)器可以容納的數(shù)據(jù)量較少,或者正在處理數(shù)據(jù)的處理器的限制時運行良好。但是,當涉及到處理大量的數(shù)據(jù)時,通過傳統(tǒng)的數(shù)據(jù)庫服務(wù)器處理這樣的數(shù)據(jù)真是一個單調(diào)乏味的任務(wù)。
Google使用稱為MapReduce的算法解決了這個問題。該算法將任務(wù)分成小部分,并將這些部分分配給通過網(wǎng)絡(luò)連接的許多計算機,并收集結(jié)果以形成最終結(jié)果數(shù)據(jù)集。
上圖顯示了各種商品硬件,可能是單CPU機或具有更高容量的服務(wù)器。
Doug Cutting,Mike Cafarella和團隊采用了Google提供的解決方案,并于2005年開始了一個名為HADOOP的開源項目,Doug在他兒子的玩具大象之后命名了它。現(xiàn)在Apache Hadoop是Apache Software Foundation的注冊商標。
Hadoop使用MapReduce算法運行應(yīng)用程序,其中數(shù)據(jù)在不同的CPU節(jié)點上并行處理。總之,Hadoop框架足以開發(fā)能夠在計算機集群上運行的應(yīng)用程序,并且他們可以對大量數(shù)據(jù)執(zhí)行完整的統(tǒng)計分析。
更多建議: