●得大數(shù)據(jù)者得天下,,是一些推崇大數(shù)據(jù)時代的變革者堅信不疑的判斷,。很多專家認(rèn)為,,在大數(shù)據(jù)時代,,誰能有效地壟斷數(shù)據(jù),,誰就有可能成為世界霸主,。
●2009年爆發(fā)甲型H1N1流感病毒時,,谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,,在流感爆發(fā)幾周前,,就判斷出流感是從哪里傳播出來的,。
●大數(shù)據(jù)及其分析,將會在未來10年改變幾乎每一個行業(yè)的業(yè)務(wù)功能。根據(jù)麥肯錫預(yù)測,,如果具備相關(guān)的IT設(shè)施,、數(shù)據(jù)庫投資和分析能力等條件,大數(shù)據(jù)將在未來10年,,使美國醫(yī)療市場獲得每年3000億美元的新價值,。
2012年3月,美國奧巴馬政府發(fā)起了《大數(shù)據(jù)研究和發(fā)展倡議》,,將大數(shù)據(jù)定義為“未來的新石油”,,稱將斥資2億美元用于大數(shù)據(jù)研究,以應(yīng)對大數(shù)據(jù)革命正在帶來的大機(jī)遇,。據(jù)美國咨詢機(jī)構(gòu)Gartner預(yù)測,,從現(xiàn)在起到2015年,大數(shù)據(jù)將會在世界范圍內(nèi)創(chuàng)造440萬個工作崗位,。
“大數(shù)據(jù)”,,這一新興概念,正在被賦予極其豐富的內(nèi)涵,,并被寄予特別巨大的希望……大數(shù)據(jù)時代,,我們該如何尋找對策,迎接挑戰(zhàn),?
人類正在邁入大數(shù)據(jù)時代
關(guān)于“大數(shù)據(jù)(Big Data)”,,麥肯錫全球研究所在報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿》中定義:大數(shù)據(jù),,是指大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取,、存儲、管理和分析能力的數(shù)據(jù)群,。也有專家認(rèn)為,,大數(shù)據(jù)的“大”是指大型數(shù)據(jù)集,即數(shù)據(jù)量一般在10TB規(guī)模左右,;多個用戶把多個數(shù)據(jù)集放在一起,,形成PB級的數(shù)據(jù)量;同時,,這些數(shù)據(jù)又來自多種數(shù)據(jù)源,,并以實時、迭代的方式來實現(xiàn),,即“大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)”,。
我們正處在一個數(shù)據(jù)爆發(fā)增長的時代。移動互聯(lián)網(wǎng),、移動終端和數(shù)據(jù)感應(yīng)器的出現(xiàn),,使數(shù)據(jù)以超出人們想象的速度在快速增長,。據(jù)國際數(shù)據(jù)資訊公司(Global Pulse)估測,數(shù)據(jù)數(shù)量一直在快速增加,,每年增長50%,,這個速度不僅是指數(shù)據(jù)流的增長,而且還包括全新的數(shù)據(jù)種類的增多,。據(jù)統(tǒng)計,,全球企業(yè)2010年在硬盤上存儲了超過7EB的新數(shù)據(jù),消費(fèi)者在PC和筆記本電腦等設(shè)備上存儲了超過6EB新數(shù)據(jù),,而1EB數(shù)據(jù)就相當(dāng)于美國國會圖書館中存儲數(shù)據(jù)的4000多倍,。目前數(shù)據(jù)容量增長的速度,已經(jīng)大大超過了硬件技術(shù)的發(fā)展速度,,并正在引發(fā)數(shù)據(jù)存儲和處理的危機(jī),。
有研究統(tǒng)計,從人類文明開始到2003年,,人類共創(chuàng)造了5TB(兆億字節(jié))的信息,。而現(xiàn)在,這樣的數(shù)據(jù)量卻僅需兩天就能夠被創(chuàng)造出來,,且速度仍在加快,。數(shù)據(jù)顯示,2011年全球創(chuàng)建和復(fù)制的數(shù)據(jù)總量,,就達(dá)到了1.8ZB(1ZB等于10的21次方比特),,相當(dāng)于全球每人產(chǎn)生300GB以上的數(shù)據(jù)。目前這個數(shù)字仍在快速增長,,預(yù)計2020年,,全球產(chǎn)生的數(shù)據(jù)量更將超過80ZB。由此可見,,我們的確已經(jīng)邁入了大數(shù)據(jù)時代,。
世界各國加緊大數(shù)據(jù)布局
世界上許多國家都已經(jīng)認(rèn)識到了大數(shù)據(jù)所蘊(yùn)含的重要戰(zhàn)略意義,紛紛開始在國家層面進(jìn)行戰(zhàn)略部署,,以迎接大數(shù)據(jù)技術(shù)革命,,正在帶來的新機(jī)遇和新挑戰(zhàn)。
美國在《大數(shù)據(jù)研究和發(fā)展倡議》中,,提出將通過收集龐大而復(fù)雜的數(shù)字資料,,從中獲得知識和洞見,以提升能力,。并協(xié)助加速在科學(xué),、工程上發(fā)現(xiàn)的步伐,強(qiáng)化美國國土安全,,轉(zhuǎn)變教育和學(xué)習(xí)模式,。根據(jù)這一計劃,美國希望利用大數(shù)據(jù)技術(shù)實現(xiàn)在多個領(lǐng)域的突破,,包括科研教學(xué),、環(huán)境保護(hù)、工程技術(shù),、國土安全,、生物醫(yī)藥等。其中具體的研發(fā)計劃涉及了美國國家科學(xué)基金會,、國家衛(wèi)生研究院,、國防部、能源部,、國防部高級研究局,、地質(zhì)勘探局等6個聯(lián)邦部門和機(jī)構(gòu)。
英國政府2012年計劃在未來兩年內(nèi),,在大數(shù)據(jù)和節(jié)能計算研究上投資1.89億英鎊,,以帶動企業(yè)在該領(lǐng)域的投資。大數(shù)據(jù)被英國看作是自己的優(yōu)勢所在,,且英國認(rèn)為已在政府層面,,為大數(shù)據(jù)做好了準(zhǔn)備。
法國政府宣布將在2013年投入1150萬歐元,,用于7個大數(shù)據(jù)市場研發(fā)項目,。目的在于“通過發(fā)展創(chuàng)新性解決方案,并將其用于實踐,,來促進(jìn)法國在大數(shù)據(jù)領(lǐng)域的發(fā)展,。”法國政府在《數(shù)字化路線圖》中列出了五項將大力支持的戰(zhàn)略性高新技術(shù),,“大數(shù)據(jù)”就是其中一項,。
日本在2012新一輪IT振興計劃中,將發(fā)展大數(shù)據(jù)作為國家戰(zhàn)略層面提出,,重點關(guān)注大數(shù)據(jù)應(yīng)用技術(shù),,如社會化媒體等智能技術(shù)的開發(fā)、新醫(yī)療技術(shù)的開發(fā),、以及交通擁堵治理等公共領(lǐng)域的應(yīng)用,。
此外,加拿大,、新西蘭,、德國和印度等國也在大數(shù)據(jù)領(lǐng)域進(jìn)行了研究部署,還紛紛推出本國的公共數(shù)據(jù)開放網(wǎng)站,,以使更多的人可以使用大數(shù)據(jù)資源,,并從中獲得利益,。目前,全球已經(jīng)擁有大大小小的數(shù)據(jù)開放網(wǎng)站50余個,。
大數(shù)據(jù)將給世界帶來巨大沖擊
“大數(shù)據(jù)資源”成為重要戰(zhàn)略資源
互聯(lián)網(wǎng)時代,,“資源”的含義正在發(fā)生極大的變化,它已不再僅僅只是指煤,、石油,、礦產(chǎn)等一些看得見、摸得著的實體,,“大數(shù)據(jù)”,,也正在演變成不可或缺的戰(zhàn)略資源�,;ヂ�(lián)網(wǎng),、物聯(lián)網(wǎng)每天都在產(chǎn)生大量的數(shù)據(jù),這些龐大的數(shù)據(jù)資源,,為人們依據(jù)數(shù)據(jù)了解世界,、了解市場、了解人們的生活提供了可能,。大數(shù)據(jù)已經(jīng)被視為一種資產(chǎn),、一種財富、一種可以被衡量和計算的價值,。得大數(shù)據(jù)者得天下,,是一些推崇大數(shù)據(jù)時代的變革者所堅信不疑的判斷。
很多專家認(rèn)為,,在大數(shù)據(jù)時代,,誰能有效的壟斷數(shù)據(jù),誰就有可能成為世界的霸主,。2006年,,微軟以1.1億美元的價格,購買了大數(shù)據(jù)公司Farecast,。2008年,,谷歌則以7億美元的價格,購買了為Farecast提供數(shù)據(jù)的ITA Software公司,。
“大數(shù)據(jù)安全”上升為國家安全
傳統(tǒng)意義上的國家安全,,是指軍隊對國家領(lǐng)土安全的保護(hù),是國家之間軍事實力的較量,。但在互聯(lián)網(wǎng)高度發(fā)達(dá)的大數(shù)據(jù)時代,,網(wǎng)絡(luò)變成了幾乎是透明的虛擬世界,也因此使國家安全的環(huán)境和內(nèi)涵發(fā)生了極大的變化,對大數(shù)據(jù)的安全保存,、防丟失和防破壞等問題,,成為我們必須要面對的安全難題。大數(shù)據(jù)安全,,已經(jīng)上升成為國家安全的重要組成部分,。
在大數(shù)據(jù)時代,,數(shù)據(jù)安全的威脅隨時都有可能發(fā)生。各種國家信息基礎(chǔ)設(shè)施和重要機(jī)構(gòu)所承載著的龐大數(shù)據(jù)信息,,如由信息網(wǎng)絡(luò)系統(tǒng)所控制的石油和天然氣管道,、水、電力,、交通,、銀行、金融,、商業(yè)和軍事等,,都有可能成為被攻擊的目標(biāo)。
此外,,大數(shù)據(jù)也為網(wǎng)絡(luò)恐怖分子提供了新的資源支持,,有可能使恐怖分子通過網(wǎng)絡(luò)侵入到人們工作生活的方方面面,并通過威脅,、攻擊,、破壞,癱瘓民用或軍事基礎(chǔ)設(shè)施等手段,,達(dá)到其制造心理恐慌和財產(chǎn)損失,,威脅國家安全和社會安全的目的。
“大數(shù)據(jù)決策”成為一種新決策方式
依據(jù)大數(shù)據(jù)進(jìn)行決策,,從數(shù)據(jù)中獲取價值,,讓數(shù)據(jù)主導(dǎo)決策,是一種前所未有的決策方式,,并正在推動著人類信息管理準(zhǔn)則的重新定位,。隨著大數(shù)據(jù)分析和預(yù)測性分析對管理決策影響力的逐漸加大,依靠直覺做決定的狀況將會被徹底改變,。
2009年爆發(fā)的甲型H1N1流感病毒,,谷歌公司就是通過觀察人們在網(wǎng)上搜索的大量記錄,在流感爆發(fā)的幾周前,,就判斷出流感是從哪里傳播出來的,,從而使公共衛(wèi)生機(jī)構(gòu)的官員獲得了極有價值的數(shù)據(jù)信息,并做出有針對性的行動決策,,而這比疾控中心的判斷,,提前了一兩周,。美國的Farecast系統(tǒng),它的一個功能就是飛機(jī)票價預(yù)測,,它通過從旅游網(wǎng)站獲得的大量數(shù)據(jù),,分析41天之內(nèi)的12000個價格樣本,分析所有特定航線機(jī)票的銷售價格,,并預(yù)測出當(dāng)前機(jī)票價格在未來一段時間內(nèi)的漲降走勢,,從而幫助虛擬乘客選擇最佳的購票時機(jī),并降低可觀的購票成本,。
“大數(shù)據(jù)應(yīng)用”促進(jìn)信息技術(shù)與各行業(yè)深度融合
有專家指出,,大數(shù)據(jù)及其分析,將會在未來10年改變幾乎每一個行業(yè)的業(yè)務(wù)功能,。從科學(xué)研究到醫(yī)療保險,,從銀行業(yè)到互聯(lián)網(wǎng),各個不同的領(lǐng)域都在遭遇爆發(fā)式增長的數(shù)據(jù)量,。在美國的17個行業(yè)中,,已經(jīng)有15個行業(yè)大公司擁有大量的數(shù)據(jù),其平均擁有的數(shù)據(jù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過了美國國會圖書館所擁有的數(shù)據(jù)量,。
在醫(yī)療與健康行業(yè),,根據(jù)麥肯錫預(yù)測,如果具備相關(guān)的IT設(shè)施,、數(shù)據(jù)庫投資和分析能力等條件,,大數(shù)據(jù)將在未來10年,使美國醫(yī)療市場獲得每年3000億美元的新價值,,并削減2/3的全國醫(yī)療開支,。
在制造業(yè)領(lǐng)域,制造企業(yè)為管理產(chǎn)品生命周期將采用IT系統(tǒng),,包括電腦輔助設(shè)計,、工程、制造,、產(chǎn)品開發(fā)管理工具和數(shù)字制造,,制造商可以建立一個產(chǎn)品生命周期管理平臺PLM(Product Lifecycle Management),從而將多種系統(tǒng)的數(shù)據(jù)集整合在一起,,共同創(chuàng)造出新的產(chǎn)品,。
此外,在交通,、能源,、材料、商業(yè)和服務(wù)等行業(yè)領(lǐng)域,甚至在新聞傳媒領(lǐng)域,,也都在以大數(shù)據(jù)為發(fā)展契機(jī),,加速這些行業(yè)與信息技術(shù)的深度融合。
“大數(shù)據(jù)開發(fā)”推動新技術(shù)和新應(yīng)用不斷涌現(xiàn)
大數(shù)據(jù)的應(yīng)用需求,,是大數(shù)據(jù)新技術(shù)開發(fā)的源泉,。在不久的將來,也許很多原來單純依靠人類自身判斷力的領(lǐng)域應(yīng)用,,最終都將被計算機(jī)系統(tǒng)的數(shù)據(jù)分析和數(shù)據(jù)挖掘功能,,所普遍改變甚至取代。一小片合適的信息,,也許會促使創(chuàng)新邁進(jìn)一大步,;一組數(shù)據(jù),也可能會得到數(shù)據(jù)收集人難以想象的應(yīng)用,,甚至可能在另一個看起來毫不相關(guān)的領(lǐng)域得到應(yīng)用。借助這些創(chuàng)新型的大數(shù)據(jù)應(yīng)用,,數(shù)據(jù)的能量將會層層被放大,。
“語義網(wǎng)(Semantic Web)”,也稱為下一代互聯(lián)網(wǎng),,實際上就是“數(shù)據(jù)網(wǎng)”(Web of Data),。語義網(wǎng)是一個全球的數(shù)據(jù)庫網(wǎng),在這個數(shù)據(jù)庫網(wǎng)中,,計算機(jī)可自動為用戶搜尋,、檢索和集成網(wǎng)上的信息,而不再需要搜索引擎,。大數(shù)據(jù)時代正在催生的這個最大的技術(shù)變革,,就是要重新構(gòu)造互聯(lián)網(wǎng),打造出下一代互聯(lián)網(wǎng),。
數(shù)據(jù)安全管理是最大風(fēng)險
大數(shù)據(jù)時代的來臨,,對中國來說面臨安全管理能力、存儲及處理能力,、應(yīng)用能力和人才培養(yǎng)能力等多方面的新挑戰(zhàn),。
大數(shù)據(jù)的安全管理能力挑戰(zhàn)。數(shù)據(jù)安全管理問題,,是我國應(yīng)用大數(shù)據(jù)面臨的最大風(fēng)險,。雖然將海量數(shù)據(jù)集中存儲,方便了數(shù)據(jù)分析和處理,,但由于安全管理不當(dāng)所造成的大數(shù)據(jù)丟失和損壞,,則將引發(fā)毀滅性的災(zāi)難。有專家指出:由于新技術(shù)的產(chǎn)生和發(fā)展,對隱私權(quán)的侵犯已經(jīng)不再需要物理的,、強(qiáng)制性的侵入,,而是以更加微妙的方式廣泛衍生,由此所引發(fā)的數(shù)據(jù)風(fēng)險和隱私風(fēng)險,,也將更為嚴(yán)重,。
當(dāng)前,我國對大數(shù)據(jù)的保護(hù)能力還十分有限,,數(shù)據(jù)被惡意使用的現(xiàn)象仍然難以掌控,。我國個人和企業(yè)對于數(shù)據(jù)資源的保護(hù)意識,還比較薄弱,。隨著電子商務(wù),、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),、云計算,、以及移動互聯(lián)網(wǎng)的全面普及,我國數(shù)據(jù)資源與全球的數(shù)據(jù)資源一樣,,正在呈現(xiàn)爆發(fā)性,、多樣性的增長態(tài)勢。但是,,由于對數(shù)據(jù)保護(hù)認(rèn)識的不足,,以及對個人電腦安全防護(hù)的不當(dāng),個人或企業(yè)的隱私數(shù)據(jù)暴露在互聯(lián)網(wǎng)上的現(xiàn)象十分普遍,。2011年,,我國最大程序員網(wǎng)站的600萬個人信息和郵箱密碼被黑客公開,進(jìn)而引發(fā)了連鎖的泄密事件,。2013年,,中國人壽80萬客戶的個人保單信息發(fā)現(xiàn)被泄露。這些事件都凸顯出在大數(shù)據(jù)時代,,信息安全管理所面臨的,、前所未有的挑戰(zhàn)。
大數(shù)據(jù)的存儲及處理能力挑戰(zhàn),。當(dāng)前,,我國大數(shù)據(jù)存儲、分析和處理的能力還很薄弱,,與大數(shù)據(jù)相關(guān)的技術(shù)和工具的運(yùn)用也相當(dāng)不成熟,,大部分企業(yè)仍處于IT產(chǎn)業(yè)鏈的低端。我國在數(shù)據(jù)庫,、數(shù)據(jù)倉庫,、數(shù)據(jù)挖掘以及云計算等領(lǐng)域的技術(shù),,普遍落后于國外先進(jìn)水平。
在大數(shù)據(jù)存儲方面,,數(shù)據(jù)的爆炸式增長,,數(shù)據(jù)來源的極其豐富和數(shù)據(jù)類型的多種多樣,使數(shù)據(jù)存儲量更龐大,,對數(shù)據(jù)展現(xiàn)的要求更高,。而目前我國傳統(tǒng)的數(shù)據(jù)庫,還難以存儲如此巨大的數(shù)據(jù)量,。在大數(shù)據(jù)的分析處理方面,,由于針對具體的應(yīng)用類型,需要采用不同的處理方式,,因此必須通過建立高級大數(shù)據(jù)的分析模型,,來實現(xiàn)快速抽取大數(shù)據(jù)的核心數(shù)據(jù)、高效分析這些核心數(shù)據(jù)并從中發(fā)現(xiàn)價值,,而這些數(shù)據(jù)分析能力我國還很欠缺,。
因此,如何提高我國對大數(shù)據(jù)資源的存儲和整合能力,,實現(xiàn)從大數(shù)據(jù)中發(fā)現(xiàn),、挖掘出有價值的信息和知識,是當(dāng)前我國大數(shù)據(jù)存儲和處理所面臨的挑戰(zhàn),。
大數(shù)據(jù)的應(yīng)用能力挑戰(zhàn)。我國擁有龐大的人口資源和大數(shù)據(jù)應(yīng)用市場,,市場復(fù)雜度高且變化多端,,使我國成為世界上最復(fù)雜的大數(shù)據(jù)國家。我國互聯(lián)網(wǎng)用戶,,通過利用互聯(lián)網(wǎng)上的海量數(shù)據(jù)來提升自身的商業(yè)價值和科研價值,。我國企業(yè)用戶,也已積累了大量的數(shù)據(jù)信息資產(chǎn),,如產(chǎn)品數(shù)據(jù),、運(yùn)營數(shù)據(jù)和價值鏈數(shù)據(jù)等。隨著我國企業(yè)信息化系統(tǒng)的深入部署和逐步完善,,大數(shù)據(jù)應(yīng)用能力所引發(fā)的商業(yè)模式的改變,,將直接影響我國企業(yè)的競爭能力。
在政府決策方面,,當(dāng)前我國政府部門的數(shù)據(jù)規(guī)模還很小,,多數(shù)仍集中在對結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用上,而對于非結(jié)構(gòu)化數(shù)據(jù)的利用則幾乎為空白,。利用數(shù)據(jù)分析來支撐政府決策,,我國做得還很不夠,。從認(rèn)識到“大數(shù)據(jù)能產(chǎn)生價值”,到實現(xiàn)了“從大數(shù)據(jù)中找到價值”,,再到“有效使用大數(shù)據(jù)產(chǎn)生的價值”,,政府目前也只是剛剛起步。當(dāng)前,,如何收集數(shù)據(jù),、使用數(shù)據(jù)、開放數(shù)據(jù),、管理數(shù)據(jù)和利用數(shù)據(jù)來支撐決策,,是我國面臨的又一新挑戰(zhàn)。
大數(shù)據(jù)的人才培養(yǎng)能力挑戰(zhàn),。大數(shù)據(jù)領(lǐng)域技術(shù)人才和商業(yè)人才的缺乏,,是一個全球性的問題。根據(jù)麥肯錫的一項研究顯示,,僅美國每年就有14萬到19萬名數(shù)據(jù)科學(xué)家的缺口,,預(yù)計到2018年將達(dá)到44萬到49萬,而數(shù)據(jù)科學(xué)家則更是嚴(yán)重缺乏,。
我國大數(shù)據(jù)分析專業(yè)人才缺口究竟有多大,,有專家粗略估算至少需要100萬人。當(dāng)前,,具備綜合掌控數(shù)學(xué),、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)等方面知識的復(fù)合型人才,,同時又可承擔(dān)數(shù)據(jù)分析和數(shù)據(jù)挖掘的數(shù)據(jù)科學(xué)家,,在我國尤為奇缺。目前,,我國初級的分析人員只能對數(shù)據(jù)進(jìn)行簡單的報表和進(jìn)行描述性分析,,而隨著未來大數(shù)據(jù)應(yīng)用的不斷增長,我國大數(shù)據(jù)人才儲備不足的問題將更加嚴(yán)重,。因此,,培養(yǎng)能夠解決大數(shù)據(jù)問題所需的人才,包括培養(yǎng)大數(shù)據(jù)分析人才和管理人才,,是我們需要面對的又一緊迫問題,。
(作者單位:中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院)