大數(shù)據(jù)時(shí)代已經(jīng)到來,。這句話已經(jīng)被重復(fù)過無數(shù)次,。先別忙著進(jìn)行樂觀的展望,我們現(xiàn)在所談到大數(shù)據(jù),其實(shí)幅度和深度都相當(dāng)有限,,大量信息被封鎖在信息孤島上。各級(jí)地方政府和各部委,,自上世紀(jì)90年代起上馬了各自的電子政務(wù)工程,,發(fā)展到現(xiàn)在,已實(shí)現(xiàn)基本的數(shù)據(jù)積累,,各項(xiàng)業(yè)務(wù)辦理和機(jī)關(guān)運(yùn)轉(zhuǎn)也切換到電子平臺(tái)上,。但各項(xiàng)電子政務(wù)工程并未實(shí)現(xiàn)真正意義上的信息共享,跨部門調(diào)閱數(shù)據(jù)很多情況下需要部門或地方領(lǐng)導(dǎo)出面,,就更談不上這些數(shù)據(jù)無障礙開放給社會(huì)和企業(yè)了,。
電子商務(wù)、金融,、電信等行業(yè)的龍頭企業(yè),,深耕大數(shù)據(jù)也很有成效,沉淀了大量的有效數(shù)據(jù)以及對(duì)于該企業(yè)價(jià)值不大,,卻有著較高社會(huì)應(yīng)用價(jià)值的數(shù)據(jù),。這些信息和數(shù)據(jù)被認(rèn)為是企業(yè)的核心資產(chǎn),企業(yè)在加大信息采集,、數(shù)據(jù)挖掘分析的成本投入同時(shí),,拒絕與其他企業(yè)、公共組織共享,。
一些政府部門已經(jīng)意識(shí)到大數(shù)據(jù)的應(yīng)用價(jià)值以及政府信息開放的必要性,,卻沒有予以響應(yīng),而是通過授權(quán)或直接建立數(shù)據(jù)企業(yè)的方式,,將自己掌握的公共數(shù)據(jù)打包轉(zhuǎn)讓給這樣的企業(yè)經(jīng)營(yíng),。社會(huì)組織,、企業(yè)、公民要想使用公共數(shù)據(jù),,就得為之付費(fèi),。
孤島化的大數(shù)據(jù),帶來的最突出問題是數(shù)據(jù)采集分析的重復(fù)化,,造成大量社會(huì)成本無謂消耗,,也使得數(shù)據(jù)挖掘分析的水平長(zhǎng)期難以提高。根據(jù)有限數(shù)據(jù)所作的實(shí)時(shí)判斷和前瞻分析,,很難避免細(xì)節(jié)甚至方向錯(cuò)誤,。對(duì)于創(chuàng)業(yè)者和初創(chuàng)企業(yè)來說,信息和數(shù)據(jù)采集的成本之高,,常常超出他們的負(fù)擔(dān)能力,,因而信息孤島造成的結(jié)果是抑制創(chuàng)新創(chuàng)業(yè),現(xiàn)有的創(chuàng)業(yè)者和企業(yè)也將盡可能避免在信息和數(shù)據(jù)采集上投入過多成本,,將更主要的精力放在營(yíng)銷噱頭上,。以大數(shù)據(jù)、云計(jì)算,、智能設(shè)備為代表的新興科技產(chǎn)業(yè),,美國(guó)的發(fā)展水平要超過我國(guó),這顯然不僅跟美國(guó)的產(chǎn)業(yè)起步較早有關(guān),,也源自美國(guó)的經(jīng)濟(jì)和社會(huì)數(shù)據(jù)開放水平更為領(lǐng)先,。
可以說,中國(guó)大數(shù)據(jù)發(fā)展已經(jīng)走到了一個(gè)重要關(guān)口,,如果繼續(xù)延續(xù)現(xiàn)有的信息孤島局面,,政府、企業(yè),、社會(huì)組織,、科研機(jī)構(gòu)各自為政,數(shù)據(jù)挖掘分析的水平還是會(huì)繼續(xù)提升,,經(jīng)濟(jì)和社會(huì)應(yīng)用價(jià)值也會(huì)體現(xiàn),,但必然因此滯后于美國(guó)等國(guó)家,且差距將也越來越大,。與之相應(yīng)的另一種選擇就是,積極推進(jìn)信息開放,、數(shù)據(jù)共享,,實(shí)現(xiàn)數(shù)據(jù)資源的融合集聚,跟上大數(shù)據(jù)的發(fā)展潮流,。
中信出版社最近出版了大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室的智慧成果《塊數(shù)據(jù)》,。這本書針對(duì)條塊分割“條數(shù)據(jù)”,,提煉出一個(gè)對(duì)應(yīng)的概念“塊數(shù)據(jù)”,即以開放,、共享,、連接為特征的數(shù)據(jù)融合集聚機(jī)制,不但匯集了現(xiàn)有分隔化的大數(shù)據(jù)實(shí)體的數(shù)據(jù)資源,,而且還借助智能設(shè)備,、社交網(wǎng)絡(luò)擴(kuò)張數(shù)據(jù)來源。塊數(shù)據(jù)圍繞人及其活動(dòng)而產(chǎn)生,,不但要收集人的靜態(tài)數(shù)據(jù),,還要記錄人的行為活動(dòng)數(shù)據(jù),還將記錄思想,、意識(shí)和意愿數(shù)據(jù),。
書中第三章探討了塊數(shù)據(jù)的重要價(jià)值。首先,,這將帶來新一輪商業(yè)革命,。傳統(tǒng)產(chǎn)業(yè)將因此獲得轉(zhuǎn)型提升的最佳機(jī)會(huì),創(chuàng)業(yè)者和初創(chuàng)企業(yè)的信息獲取成本被顯著降低,,現(xiàn)有的大數(shù)據(jù)企業(yè)也將通過更為全面,、實(shí)時(shí)水平更高的數(shù)據(jù)提高數(shù)據(jù)挖掘分析特別是前瞻預(yù)測(cè)的水平。其次,,塊數(shù)據(jù)將改善社會(huì)領(lǐng)域的社會(huì)服務(wù),、社會(huì)議題管理、社會(huì)組織運(yùn)行水平,,使這個(gè)領(lǐng)域內(nèi)的組織和個(gè)人擺脫目前受限于信息劣勢(shì)的困境,。第三,將推動(dòng)政府管治提升,,書中提出,,政府自身的“思考方式、行為方式和與民眾的互動(dòng)方式”都將因此升級(jí)換代,。第四,,形成崇尚誠(chéng)信、分享,、開放的文化,。
但要真正走出目前的“條數(shù)據(jù)”,走向塊數(shù)據(jù),,仍面臨著諸多現(xiàn)實(shí)障礙,。一是要改變數(shù)據(jù)生態(tài)系統(tǒng)和規(guī)則。無論在企業(yè)還是公共部門,,數(shù)據(jù)文化都以保密為導(dǎo)向,,開放是例外,,要重塑數(shù)據(jù)文化的DNA,難度可想而知,。而建立具體的數(shù)據(jù)分享規(guī)則和新的利益分配方式,,也相當(dāng)困難,比如,,如何確保在數(shù)據(jù)挖掘分析上投入巨資的大企業(yè)在開放數(shù)據(jù)后,,能夠獲得合理回報(bào),又同時(shí)兼顧中小企業(yè)的利益,,等等,。二是數(shù)據(jù)結(jié)構(gòu)化挑戰(zhàn)壓力較大。海量數(shù)據(jù)多以非結(jié)構(gòu)化形式體現(xiàn),,要予以利用需要更為先進(jìn)的數(shù)據(jù)分析技術(shù)和更科學(xué)的算法,,這恰恰是中國(guó)企業(yè)的短板。三是塊數(shù)據(jù)的數(shù)據(jù)安全問題和隱私安全問題,,重要性緊迫性也在凸顯,。書中第六章提到的數(shù)據(jù)脫敏(數(shù)據(jù)保密、數(shù)據(jù)匿名化)可以有效解決數(shù)據(jù)安全和隱私安全問題,,但究竟哪些,、什么樣的數(shù)據(jù)/隱私細(xì)節(jié)需要進(jìn)行脫敏處理,這方面的理念和規(guī)則還沒有統(tǒng)一,。