隨著大數(shù)據(jù)工具和服務(wù)的發(fā)展,2015年,IT行業(yè)將逐漸緩解發(fā)展瓶頸的局面,許多商業(yè)用戶和數(shù)據(jù)科學(xué)家將會借助相關(guān)工具和服務(wù)訪問大量數(shù)據(jù)。自助服務(wù)大數(shù)據(jù)將成為IT行業(yè)的一種趨勢,它允許商業(yè)用戶可以通過自助服務(wù)接觸大數(shù)據(jù)。自助服務(wù)還可以幫助開發(fā)者、數(shù)據(jù)科學(xué)家和數(shù)據(jù)分析師直接進行數(shù)據(jù)探索和處理工作。當(dāng)我們了解大數(shù)據(jù)的時候,業(yè)務(wù)的價值和IT的成本是我們主要衡量未來IT的標(biāo)準(zhǔn),業(yè)務(wù)價值驅(qū)動大數(shù)據(jù)創(chuàng)新。Hadoop 不再成為我們討論的大數(shù)據(jù)主題。我們需要了解更多的是業(yè)務(wù)創(chuàng)新,數(shù)據(jù)變現(xiàn)和業(yè)務(wù)場景的探索。
下一代的大數(shù)據(jù)體系——數(shù)據(jù)湖:
每個數(shù)據(jù)項都應(yīng)有清楚的追蹤,可追溯其源系統(tǒng)以及該數(shù)據(jù)項產(chǎn)生的時間等信息。2010年 JamesDixon以此理念,創(chuàng)造了數(shù)據(jù)湖(data Lake)這個術(shù)語,當(dāng)時他打算將數(shù)據(jù)湖泊作為單一數(shù)據(jù)源來使用,而多數(shù)據(jù)源將形成“水景園”。盡管還是最初的構(gòu)想,如今最普遍的應(yīng)用是將數(shù)據(jù)湖泊當(dāng)做許多數(shù)據(jù)源的結(jié)合。現(xiàn)有數(shù)據(jù)倉庫在分析能力的缺失,業(yè)務(wù)對數(shù)據(jù)獲取能力的提升,高級分析方法的創(chuàng)新是一種必然。
數(shù)據(jù)湖泊是近十年出現(xiàn)的術(shù)語,用來描述數(shù)據(jù)世界中,數(shù)據(jù)分析管道的重要組成部分。作為一個信息系統(tǒng),數(shù)據(jù)湖泊是大型的基于對象的存儲庫,數(shù)據(jù)以其原始格式存儲。通過全面的監(jiān)控和分析,通過數(shù)據(jù)的分析模型的建立,學(xué)習(xí),模擬,行動,最終實現(xiàn)內(nèi)容認(rèn)知的智能。 有并行體系以及無需移動數(shù)據(jù)即可對數(shù)據(jù)進行計算操作的明顯特點。
特點 1 :數(shù)據(jù)湖泊是一個并行體系,能夠存儲大數(shù)據(jù)
數(shù)據(jù)湖泊的每個數(shù)據(jù)元素都有獨特的標(biāo)識符,并有一組擴展的元數(shù)據(jù)標(biāo)簽。
數(shù)據(jù)湖泊以數(shù)據(jù)源提供數(shù)據(jù)時的原格式(不論原格式是什么)存儲原始數(shù)據(jù)。沒有預(yù)設(shè)的數(shù)據(jù)模式,每個數(shù)據(jù)源都可以使用任何模式。由消費者根據(jù)自己的目的來理解數(shù)據(jù)。
特點 2:數(shù)據(jù)湖體系無需移動數(shù)據(jù)即可對數(shù)據(jù)進行計算操作
總結(jié):
大數(shù)據(jù)技術(shù)自身在快速的發(fā)展,從1.0到大數(shù)據(jù)3.0的數(shù)據(jù)湖時代,我們要理性的看待大數(shù)據(jù),在關(guān)注數(shù)據(jù)量的同時,應(yīng)該更加重視數(shù)據(jù)分析的能力和方法。實用分析工具與先進分析理念,真正釋放數(shù)字化分析的力量,由人類軌跡產(chǎn)生的數(shù)據(jù),與機器自動產(chǎn)生的數(shù)據(jù)得出洞見,從管理決策推導(dǎo)運營方案,最終實現(xiàn)數(shù)據(jù)價值提升。