近期,,美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,,擬投資兩億美元,,增強從大量復雜數(shù)據(jù)集合中萃取信息的能力�,!按髷�(shù)據(jù)”概念受到廣泛關注。麥肯錫公司研究表明,,人們對于海量數(shù)據(jù)的運用,,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
我國一些專家認為,,“大數(shù)據(jù)”是指對海量數(shù)據(jù)進行智慧化處理和決策,,這不僅是技術層面的問題,還涉及管理層面,、互信機制等問題,。建議在專門機構領導下,尋找“大數(shù)據(jù)”研究切入點,,應對信息時代挑戰(zhàn),。
具有戰(zhàn)略性的智慧化數(shù)據(jù)處理和決策
據(jù)有關專家介紹,“大數(shù)據(jù)”是一個戰(zhàn)略層面的概念,,因此,,下一個準確定義比較難,,認識“大數(shù)據(jù)”需要從它的特征入手�,!按髷�(shù)據(jù)”具備四個基本特征:數(shù)據(jù)體量大,,從TB(萬億字節(jié))級別,躍升到PB(千萬億字節(jié))級別,;數(shù)據(jù)類型繁多,,包括網(wǎng)絡日志、視頻,、圖片,、地理位置信息等等;價值密度低,,以視頻為例,,連續(xù)不間斷監(jiān)控過程中,有用的數(shù)據(jù)可能僅僅一兩秒,;處理速度快,。
我國某“大數(shù)據(jù)”研究團隊的專家研究認為,相較于其他數(shù)據(jù)分析,、處理和研究,,“大數(shù)據(jù)”具有戰(zhàn)略導向性,具有更高的應用價值,。
第一,,“大數(shù)據(jù)”不是指數(shù)據(jù)量大或不大,而是處理數(shù)據(jù)的能力與所能獲得數(shù)據(jù)量之間的差距,。汪斌強這樣闡釋:“假如我一天可以處理兩三個PB,,產(chǎn)生的數(shù)據(jù)量只有幾十兆,那么數(shù)據(jù)量再大也不算‘大數(shù)據(jù)’,,因為盡在掌握之中,。”
“大數(shù)據(jù)”技術手段相對以往的數(shù)據(jù)處理有根本性突破,。以往通常是設置關鍵詞,,在數(shù)據(jù)庫中海量搜索,然后請智囊團分析,,通過人腦進行判斷和預測,。這種方法存在的問題在于,用來分析的數(shù)據(jù)來自關鍵詞搜索,,難以達到完備性,。而“大數(shù)據(jù)”采取反向思路,先剔除掉數(shù)據(jù)庫中的無用信息,這是“大數(shù)據(jù)”處理跟目前大海撈針式數(shù)據(jù)處理的本質(zhì)不同,。
第二,,“大數(shù)據(jù)”意味著數(shù)據(jù)處理從智能走向智慧。該研究團隊的專家介紹說,,以前的海量數(shù)據(jù)處理,,僅僅是信息資料收集過程,最終的決策和判斷由另外的系統(tǒng)負責,;而“大數(shù)據(jù)”的數(shù)值搜索和處理是一體化,,邊搜索邊即時處理,,需要數(shù)據(jù)可隨對再找,。
同時,“大數(shù)據(jù)”技術將促成數(shù)據(jù)智慧化的決策和判斷,。以烏魯木齊“7.5”事件為例,,如果該地區(qū)原先發(fā)郵件的只有幾十個人,某個時間段突然數(shù)量激增,,說明有異常情況,,“大數(shù)據(jù)”智慧化的即時計算技術能夠做到預警。
如果說云計算為數(shù)據(jù)資產(chǎn)提供了保管,、訪問的場所和渠道,,那么如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理,、企業(yè)決策乃至個人生活服務,,則是“大數(shù)據(jù)”的核心議題,也是云計算的升級方向,。
“大數(shù)據(jù)”產(chǎn)業(yè)鏈各環(huán)節(jié)面臨發(fā)展機遇
該“大數(shù)據(jù)”研究團隊認為,,“大數(shù)據(jù)”的重要影響是,對數(shù)據(jù)采集從源頭上進行控制,,擋住一些不具戰(zhàn)略意義,、沒有價值的數(shù)據(jù)。當前的數(shù)據(jù)收集工作沒有數(shù)據(jù)分析系統(tǒng),,基本是不經(jīng)分析過濾全扔進數(shù)據(jù)庫,,一來數(shù)據(jù)庫容量有限,二來信息蕪雜,,有效樣本信息獲得難度較高,。
“大數(shù)據(jù)”產(chǎn)業(yè)鏈有很多環(huán)節(jié),未來都可能面臨較大發(fā)展機遇,。如信息數(shù)據(jù)的產(chǎn)生環(huán)節(jié),,公眾每天使用的互聯(lián)網(wǎng)和無線通信,即時通信、微博,、手機電話,、短信、彩信甚至是每一個互聯(lián)網(wǎng)點擊,,都是數(shù)據(jù)的產(chǎn)生,,企業(yè)依靠這些數(shù)據(jù),可以進行自我分析提升效率,,也可以出售數(shù)據(jù)給專業(yè)分析機構,。同樣,信息數(shù)據(jù)的存儲和采集整理環(huán)節(jié)也不容忽視,。而信息數(shù)據(jù)的分析產(chǎn)出作為整個“大數(shù)據(jù)”產(chǎn)業(yè)鏈的最末端,,可能將成為具有技術含量和產(chǎn)業(yè)附加值的子行業(yè)。
“大數(shù)據(jù)”一問世,,便迅速成為計算機行業(yè)的熱門概念,,也引起金融界高度關注。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,,數(shù)據(jù)本身即是資產(chǎn),,這一點在業(yè)界已經(jīng)形成共識。最早提出“大數(shù)據(jù)”時代已經(jīng)到來的全球咨詢機構麥肯錫公司認為,,數(shù)據(jù)已經(jīng)滲透到每個行業(yè)和業(yè)務職能領域,,逐漸成為重、要的生產(chǎn)因素,;而人們對于海量數(shù)據(jù)的運用,,預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。
全球多家互聯(lián)網(wǎng)巨頭都意識到“大數(shù)據(jù)”時代來臨的重要意義,�,;萜铡BM,、微軟等紛紛通過收購“大數(shù)據(jù)”相關廠商來實現(xiàn)技術整合,。美國政府更是發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》,把“大數(shù)據(jù)”研究上升為國家意志,。
既是技術問題也是管理問題
目前在中國,,“大數(shù)據(jù)”尚未直接以專有名詞被政府提出。不過,,工業(yè)和信息化部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,,把信息處理技術作為四項關鍵技術創(chuàng)新工程之一提出來,其中包括海量數(shù)據(jù)存儲,、數(shù)據(jù)挖掘,、圖像視頻智能分析,,這都是“大數(shù)據(jù)”的重要組成部分。
國內(nèi)一家大學的“大數(shù)據(jù)”研究團隊建議,,中國發(fā)展“大數(shù)據(jù)”需重視以下幾個問題:
一是“大數(shù)據(jù)”的研究和發(fā)展工作可由國家層面的部門主導,,成立一支核心研究團隊,提供合適的研究環(huán)境,。目前我國純商業(yè)的數(shù)據(jù)處理尚未形成行業(yè),。
二是積極應對“大數(shù)據(jù)”挑戰(zhàn)。研究“大數(shù)據(jù)”不單是技術層面的問題,,管理層面,、互信機制的建立都要跟上,要在頂層設計指導下分重點解決,。
三是找準切入點,。這家大學的研究團隊認為,在信息時代,,如何給龐大的數(shù)據(jù)消腫,,把價值密度低的數(shù)據(jù)庫瀝掉水分,,是研究關鍵,。
數(shù)據(jù)安全和保密,也是專家關注的問題,。在一些專家看來,,美國通過星球大戰(zhàn)使蘇聯(lián)解體,2005年又拋出“控域”概念,,號召發(fā)展物聯(lián)網(wǎng),。但是,美國的信息智能化存儲容量和采集水平是我國的兩倍,,在如此繁雜的數(shù)據(jù)中搜索出有用數(shù)據(jù)非常困難,。有關專家特別強調(diào)說,“美國自己碰到問題了,,就拋出來讓全球幫它解決,,我們必須重視‘大數(shù)據(jù)’研究過程中的安全性”。