 |
涂子沛,知名專欄作家,、信息管理專家,,畢業(yè)于華中科技大學。赴美留學前,,曾做過職業(yè)程序員,,擔任過公安邊防巡邏艇的指揮官,也從事過政府統(tǒng)計工作,,現(xiàn)居美國匹茲堡,,是美國某軟件公司數(shù)據(jù)中心的主任。 |
■
《大數(shù)據(jù)》作者涂子沛談不可阻擋的大數(shù)據(jù)浪潮
小數(shù)據(jù)時代,,可以研究個體但不能研究群體,,因為只有關于個人的數(shù)據(jù),。而在大數(shù)據(jù)時代,,人的行為都以數(shù)據(jù)形式存在,,這里面就有很多商機。
從中國的邊防警到美國的軟件公司數(shù)據(jù)中心主任,,20年來,,涂子沛的工作一直跟數(shù)據(jù)處理有關。他在最近由廣西師范大學出版的《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》(下稱《大數(shù)據(jù)》)一書中,,以美國半個多世紀以來的信息開放,、技術創(chuàng)新歷史為例,談在這個大數(shù)據(jù)時代,,政府該如何推動信息公開,,企業(yè)在其中有何商機,數(shù)據(jù)創(chuàng)新給民眾,、政府,、社會帶來的種種挑戰(zhàn)和變革。昨晚,,涂子沛在上海以“不可阻擋的大數(shù)據(jù)浪潮”為題與讀者見面,,并接受了專訪。
大數(shù)據(jù)是與云計算同時興起的一個商業(yè)概念,,從谷歌到騰訊,,過去一年他們都在談大數(shù)據(jù)能帶來的商機。何為大數(shù)據(jù),?涂子沛有過一個簡單的描述:“什么叫大數(shù)據(jù),,簡單理解就是超大量的數(shù)據(jù)。到底多大才算大呢,?我們一般認為按π為單位的數(shù)據(jù)就是大數(shù)據(jù),。π下面的單位就是G,一部電影大約一個G,,一π就等于1024個G,。你乘上π,1000多部電影那就算大數(shù)據(jù)了,。我們再舉個形象的例子,,現(xiàn)在美國國會圖書館是比較大的圖書館,所有的印刷品如果輸入電腦的話,,它才是幾十個π,,基本上人類的知識要是全部放在電腦里,也就是按π為單位,�,!�
在這本《大數(shù)據(jù)》里,涂子沛要討論的是,大數(shù)據(jù)時代能夠幫助我們走向更自由的社會,。因為信息社會最重要的資產(chǎn)是信息,,信息的產(chǎn)生、信息的使用,、信息的整合,,這都是信息社會最重要的生產(chǎn)活動。
用數(shù)據(jù)說話,,別用數(shù)據(jù)說謊
問:在全世界,,哪個公司或哪個機構擁有最多的數(shù)據(jù)?
涂子沛:我在書中有一個圖表,,是2009年美國各行業(yè)數(shù)據(jù)存儲量對比,,其中排在第一位的是制造業(yè)企業(yè),第二位的就是政府,。我們說數(shù)據(jù)帝國的興起,,美國聯(lián)邦政府首先就是一個數(shù)據(jù)帝國,它擁有前所未有的數(shù)據(jù),。當然Google,、Facebook也有大量數(shù)據(jù),但只是其中一個公司,。我們有一個錯覺,,僅僅把互聯(lián)網(wǎng)數(shù)據(jù)當作數(shù)據(jù),這是不全的,。
問:所以這本書最重要的主題是,,推動政府開放數(shù)據(jù)?
涂子沛:數(shù)據(jù)開放運動為什么在政府部門開啟,?技術的開放是一步步的,,最早的開放是代碼開放,形成了1990年代的開源運動,。這在當時有很大的爭議,,比爾·蓋茨就曾反對代碼開放,但最后代碼開放都被接受了,,大家也都在用開源軟件,。軟件由兩部分組成,一部分是代碼,,一部分是數(shù)據(jù),,開放完了代碼,接下來就是開放數(shù)據(jù),。開放代碼發(fā)生在私營企業(yè)中,,開放數(shù)據(jù)則要看誰擁有最多數(shù)據(jù),,當然是政府。那么政府開放數(shù)據(jù),,首先開放什么,?當然是公共財政支出的數(shù)據(jù)。這種情況已經(jīng)在英,、美出現(xiàn)。
相比商業(yè)企業(yè),,為什么政府要推動大數(shù)據(jù)開放,,因為企業(yè)的數(shù)據(jù)是零散的、案例性質的,。大數(shù)據(jù)從三個層面發(fā)生影響:商業(yè),、政府和個人生活。因為政府擁有最多數(shù)據(jù),,應該首先開放,。奧巴馬在美國推行數(shù)據(jù)開放運動,在全世界掀起一個數(shù)據(jù)開放浪潮,。大數(shù)據(jù)要發(fā)揮作用,,不僅是收集、挖掘,,目前最重要的是開放,。大數(shù)據(jù)可以從很多角度去談,我也談到了大數(shù)據(jù)怎么起源的,,但我最關注的是,,大數(shù)據(jù)真正要發(fā)揮作用是要開放,否則就不會產(chǎn)生價值,。開放誰來推動?那就是政府,。
問:政府擁有那么多數(shù)據(jù),但很多是不能開放的,。如何界定哪些數(shù)據(jù)可以開放,?
涂子沛:這里有兩條標準,首先是這些數(shù)據(jù)不能侵犯國家安全,,其次是不能侵犯個人隱私,。比如最先開放的內(nèi)容之一,有政府福利項目支出數(shù)據(jù),,但開放時上面的名字都會抹掉,。
問:如何讓我們相信數(shù)據(jù)?
涂子沛:我之前有個講演,,就是用數(shù)據(jù)說話,,別用數(shù)據(jù)說謊,。很多報告里都有數(shù)據(jù),但通常的情況是,,這些數(shù)據(jù)常常成為說謊的工具,,成為任人打扮的小姑娘。現(xiàn)在經(jīng)常會出現(xiàn)的情況是,,孤立地解釋數(shù)據(jù),。合理地來說,我們不僅僅是要公布一個數(shù)據(jù),,還要公布數(shù)據(jù)的來龍去脈,,一個數(shù)據(jù)可以復制才是站得住腳的。只公布一個數(shù)據(jù)是不夠的,,還要求數(shù)據(jù)背后的數(shù)據(jù)公布,。一個公布的數(shù)據(jù)是很難判對錯的,數(shù)據(jù)之間要互證才可以避免偽造,。這就是數(shù)據(jù)開放的價值,。不只是要公布一個孤立的GDP,更要開放整個數(shù)據(jù),,可以讓所有人自己去算這個GDP數(shù)據(jù)怎么來的,。
用數(shù)據(jù)提高生產(chǎn)力
問:大數(shù)據(jù)開放的商機在哪里?
涂子沛:我們講到數(shù)據(jù)開放,,首先想到的是知情權和政府透明,,但這只是一方面。現(xiàn)在推進數(shù)據(jù)開放,,不再只是政府監(jiān)督方面,,而是要看是否有商業(yè)價值,如何用這些數(shù)據(jù)推進生產(chǎn),?大數(shù)據(jù)時代標志著人類向知識時代的邁進,。美國的數(shù)據(jù)開放運動,從數(shù)據(jù)中整合,、發(fā)現(xiàn)新的知識,,成為經(jīng)濟發(fā)展的動力。比如沃爾瑪,,在數(shù)據(jù)挖掘中發(fā)現(xiàn),,一來颶風某些產(chǎn)品就會脫銷,那么他們就去看颶風按照哪些線路走,,沿著颶風路線的那些沃爾瑪超市,,就會把相應的商品調(diào)高倉儲量。
在這個時代,,因為大數(shù)據(jù)的存在,,人的行為是可以研究的,。以前,小數(shù)據(jù)時代,,可以研究個體但不能研究群體,,因為只有關于個人的數(shù)據(jù)。而在大數(shù)據(jù)時代,,人的行為都以數(shù)據(jù)形式存在,。這里面就有很多商機。通過研究消費者習慣,,可以找到很多市場商機,。就算在企業(yè)運營中,優(yōu)化才能提高效率,,減少成本,,優(yōu)化就要基于數(shù)據(jù),。產(chǎn)品也離不開數(shù)據(jù),,產(chǎn)品質量控制就是以數(shù)據(jù)為支持的。大數(shù)據(jù)最根本的,,就是促進經(jīng)濟的發(fā)展,,知識時代的特點就是信息和數(shù)據(jù)的整合產(chǎn)生新的價值。
問:為什么直到現(xiàn)在,,大家才開始談數(shù)據(jù)的商機,?
涂子沛:因為直到現(xiàn)在才有那么多數(shù)據(jù)可供研究。以前,,保存數(shù)據(jù)很貴,,現(xiàn)在很便宜;第二,,以前收集不到那么多數(shù)據(jù),,現(xiàn)在每個人在互聯(lián)網(wǎng)上的行為都可以記錄下來。現(xiàn)在數(shù)據(jù)庫就是資產(chǎn),,如果有數(shù)據(jù),,就能掌握我的用戶。所以麥肯錫說,,大數(shù)據(jù)是下一個創(chuàng)新,、競爭、生產(chǎn)力提高的前沿,。數(shù)據(jù)就是一種生產(chǎn)資料,。
問:我們在互聯(lián)網(wǎng)上留下那么多蹤跡和數(shù)據(jù),誰是數(shù)據(jù)的擁有者呢,?
涂子沛:在數(shù)據(jù)開放運動中,,英國提出了一個數(shù)據(jù)權問題,。個人的數(shù)據(jù)該由個人做主。你在超市購物,,你會在那里留下大量消費記錄,。英國的做法是,每個消費者登錄網(wǎng)站是可以看到自己的消費記錄的,。谷歌在英國也簽了協(xié)議,,要開放相關的數(shù)據(jù)。谷歌已經(jīng)開放了一部分,。你的數(shù)據(jù)是你的,,你是有權利看的。那政府的數(shù)據(jù)更有義務去看了,,因為你的數(shù)據(jù)是拿著納稅人的錢去收集的,。這些是公共數(shù)據(jù),本來就是公共資產(chǎn),。
數(shù)據(jù)開放之后,,是面向社會大眾的開放。任何人都可以使用,,只要有能力都能創(chuàng)造新的商機,。產(chǎn)生的新知識都是由精英壟斷,但現(xiàn)在每個人都可以接觸這些數(shù)據(jù),,誰都可以做這些事情,。
問:但這只是一種理想,你的消費記錄,,你的互聯(lián)網(wǎng)記錄,,其實已經(jīng)隨意泄露。
涂子沛:信息時代,,我個人能不能決定怎么發(fā)布數(shù)據(jù),,什么時候開放,什么時候修改,,但現(xiàn)在已經(jīng)失控了,。無論是在美國還是中國,尤其是在中國,,隱私權非常薄弱,,個人信息被隨意買賣。
問:個人留下的數(shù)據(jù)越多,,它對你的掌握就越容易,。大數(shù)據(jù)會成為老大哥嗎?
涂子沛:大數(shù)據(jù)是老大哥,,這是不可避免的,。美國想建中央數(shù)據(jù)銀行,,把每個人從出生到墳墓的記錄整合起來,后來很多組織反對,。經(jīng)過許多博弈,,美國政府還是放棄了,但對政府來說,,他們很想建立這樣一個“銀行”,。