|
涂子沛,,知名專欄作家,、信息管理專家,畢業(yè)于華中科技大學(xué),。赴美留學(xué)前,,曾做過職業(yè)程序員,,擔(dān)任過公安邊防巡邏艇的指揮官,,也從事過政府統(tǒng)計(jì)工作,現(xiàn)居美國匹茲堡,,是美國某軟件公司數(shù)據(jù)中心的主任,。 |
■
《大數(shù)據(jù)》作者涂子沛談不可阻擋的大數(shù)據(jù)浪潮
小數(shù)據(jù)時(shí)代,可以研究個(gè)體但不能研究群體,,因?yàn)橹挥嘘P(guān)于個(gè)人的數(shù)據(jù),。而在大數(shù)據(jù)時(shí)代,人的行為都以數(shù)據(jù)形式存在,,這里面就有很多商機(jī),。
從中國的邊防警到美國的軟件公司數(shù)據(jù)中心主任,20年來,,涂子沛的工作一直跟數(shù)據(jù)處理有關(guān),。他在最近由廣西師范大學(xué)出版的《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》(下稱《大數(shù)據(jù)》)一書中,以美國半個(gè)多世紀(jì)以來的信息開放,、技術(shù)創(chuàng)新歷史為例,,談在這個(gè)大數(shù)據(jù)時(shí)代,政府該如何推動(dòng)信息公開,,企業(yè)在其中有何商機(jī),,數(shù)據(jù)創(chuàng)新給民眾、政府,、社會(huì)帶來的種種挑戰(zhàn)和變革。昨晚,,涂子沛在上海以“不可阻擋的大數(shù)據(jù)浪潮”為題與讀者見面,,并接受了專訪。
大數(shù)據(jù)是與云計(jì)算同時(shí)興起的一個(gè)商業(yè)概念,,從谷歌到騰訊,,過去一年他們都在談大數(shù)據(jù)能帶來的商機(jī)。何為大數(shù)據(jù),?涂子沛有過一個(gè)簡單的描述:“什么叫大數(shù)據(jù),,簡單理解就是超大量的數(shù)據(jù)。到底多大才算大呢,?我們一般認(rèn)為按π為單位的數(shù)據(jù)就是大數(shù)據(jù),。π下面的單位就是G,一部電影大約一個(gè)G,,一π就等于1024個(gè)G,。你乘上π,1000多部電影那就算大數(shù)據(jù)了,。我們再舉個(gè)形象的例子,,現(xiàn)在美國國會(huì)圖書館是比較大的圖書館,,所有的印刷品如果輸入電腦的話,它才是幾十個(gè)π,,基本上人類的知識要是全部放在電腦里,,也就是按π為單位�,!�
在這本《大數(shù)據(jù)》里,,涂子沛要討論的是,大數(shù)據(jù)時(shí)代能夠幫助我們走向更自由的社會(huì),。因?yàn)樾畔⑸鐣?huì)最重要的資產(chǎn)是信息,,信息的產(chǎn)生、信息的使用,、信息的整合,,這都是信息社會(huì)最重要的生產(chǎn)活動(dòng)。
用數(shù)據(jù)說話,,別用數(shù)據(jù)說謊
問:在全世界,,哪個(gè)公司或哪個(gè)機(jī)構(gòu)擁有最多的數(shù)據(jù)?
涂子沛:我在書中有一個(gè)圖表,,是2009年美國各行業(yè)數(shù)據(jù)存儲量對比,,其中排在第一位的是制造業(yè)企業(yè),第二位的就是政府,。我們說數(shù)據(jù)帝國的興起,,美國聯(lián)邦政府首先就是一個(gè)數(shù)據(jù)帝國,它擁有前所未有的數(shù)據(jù),。當(dāng)然Google,、Facebook也有大量數(shù)據(jù),但只是其中一個(gè)公司,。我們有一個(gè)錯(cuò)覺,,僅僅把互聯(lián)網(wǎng)數(shù)據(jù)當(dāng)作數(shù)據(jù),這是不全的,。
問:所以這本書最重要的主題是,,推動(dòng)政府開放數(shù)據(jù)?
涂子沛:數(shù)據(jù)開放運(yùn)動(dòng)為什么在政府部門開啟,?技術(shù)的開放是一步步的,,最早的開放是代碼開放,形成了1990年代的開源運(yùn)動(dòng),。這在當(dāng)時(shí)有很大的爭議,,比爾·蓋茨就曾反對代碼開放,但最后代碼開放都被接受了,,大家也都在用開源軟件,。軟件由兩部分組成,,一部分是代碼,一部分是數(shù)據(jù),,開放完了代碼,,接下來就是開放數(shù)據(jù)。開放代碼發(fā)生在私營企業(yè)中,,開放數(shù)據(jù)則要看誰擁有最多數(shù)據(jù),,當(dāng)然是政府。那么政府開放數(shù)據(jù),,首先開放什么,?當(dāng)然是公共財(cái)政支出的數(shù)據(jù)。這種情況已經(jīng)在英,、美出現(xiàn),。
相比商業(yè)企業(yè),為什么政府要推動(dòng)大數(shù)據(jù)開放,,因?yàn)槠髽I(yè)的數(shù)據(jù)是零散的,、案例性質(zhì)的。大數(shù)據(jù)從三個(gè)層面發(fā)生影響:商業(yè),、政府和個(gè)人生活,。因?yàn)檎畵碛凶疃鄶?shù)據(jù),應(yīng)該首先開放,。奧巴馬在美國推行數(shù)據(jù)開放運(yùn)動(dòng),,在全世界掀起一個(gè)數(shù)據(jù)開放浪潮。大數(shù)據(jù)要發(fā)揮作用,,不僅是收集,、挖掘,目前最重要的是開放,。大數(shù)據(jù)可以從很多角度去談,我也談到了大數(shù)據(jù)怎么起源的,,但我最關(guān)注的是,,大數(shù)據(jù)真正要發(fā)揮作用是要開放,否則就不會(huì)產(chǎn)生價(jià)值,。開放誰來推動(dòng)?那就是政府,。
問:政府擁有那么多數(shù)據(jù),但很多是不能開放的,。如何界定哪些數(shù)據(jù)可以開放,?
涂子沛:這里有兩條標(biāo)準(zhǔn),首先是這些數(shù)據(jù)不能侵犯國家安全,,其次是不能侵犯個(gè)人隱私,。比如最先開放的內(nèi)容之一,,有政府福利項(xiàng)目支出數(shù)據(jù),但開放時(shí)上面的名字都會(huì)抹掉,。
問:如何讓我們相信數(shù)據(jù),?
涂子沛:我之前有個(gè)講演,就是用數(shù)據(jù)說話,,別用數(shù)據(jù)說謊,。很多報(bào)告里都有數(shù)據(jù),但通常的情況是,,這些數(shù)據(jù)常常成為說謊的工具,,成為任人打扮的小姑娘。現(xiàn)在經(jīng)常會(huì)出現(xiàn)的情況是,,孤立地解釋數(shù)據(jù),。合理地來說,我們不僅僅是要公布一個(gè)數(shù)據(jù),,還要公布數(shù)據(jù)的來龍去脈,,一個(gè)數(shù)據(jù)可以復(fù)制才是站得住腳的。只公布一個(gè)數(shù)據(jù)是不夠的,,還要求數(shù)據(jù)背后的數(shù)據(jù)公布,。一個(gè)公布的數(shù)據(jù)是很難判對錯(cuò)的,數(shù)據(jù)之間要互證才可以避免偽造,。這就是數(shù)據(jù)開放的價(jià)值,。不只是要公布一個(gè)孤立的GDP,更要開放整個(gè)數(shù)據(jù),,可以讓所有人自己去算這個(gè)GDP數(shù)據(jù)怎么來的,。
用數(shù)據(jù)提高生產(chǎn)力
問:大數(shù)據(jù)開放的商機(jī)在哪里?
涂子沛:我們講到數(shù)據(jù)開放,,首先想到的是知情權(quán)和政府透明,,但這只是一方面。現(xiàn)在推進(jìn)數(shù)據(jù)開放,,不再只是政府監(jiān)督方面,,而是要看是否有商業(yè)價(jià)值,如何用這些數(shù)據(jù)推進(jìn)生產(chǎn),?大數(shù)據(jù)時(shí)代標(biāo)志著人類向知識時(shí)代的邁進(jìn),。美國的數(shù)據(jù)開放運(yùn)動(dòng),從數(shù)據(jù)中整合,、發(fā)現(xiàn)新的知識,,成為經(jīng)濟(jì)發(fā)展的動(dòng)力。比如沃爾瑪,,在數(shù)據(jù)挖掘中發(fā)現(xiàn),,一來颶風(fēng)某些產(chǎn)品就會(huì)脫銷,,那么他們就去看颶風(fēng)按照哪些線路走,沿著颶風(fēng)路線的那些沃爾瑪超市,,就會(huì)把相應(yīng)的商品調(diào)高倉儲量,。
在這個(gè)時(shí)代,因?yàn)榇髷?shù)據(jù)的存在,,人的行為是可以研究的,。以前,小數(shù)據(jù)時(shí)代,,可以研究個(gè)體但不能研究群體,,因?yàn)橹挥嘘P(guān)于個(gè)人的數(shù)據(jù)。而在大數(shù)據(jù)時(shí)代,,人的行為都以數(shù)據(jù)形式存在,。這里面就有很多商機(jī)。通過研究消費(fèi)者習(xí)慣,,可以找到很多市場商機(jī),。就算在企業(yè)運(yùn)營中,優(yōu)化才能提高效率,,減少成本,,優(yōu)化就要基于數(shù)據(jù)。產(chǎn)品也離不開數(shù)據(jù),,產(chǎn)品質(zhì)量控制就是以數(shù)據(jù)為支持的,。大數(shù)據(jù)最根本的,就是促進(jìn)經(jīng)濟(jì)的發(fā)展,,知識時(shí)代的特點(diǎn)就是信息和數(shù)據(jù)的整合產(chǎn)生新的價(jià)值,。
問:為什么直到現(xiàn)在,大家才開始談數(shù)據(jù)的商機(jī),?
涂子沛:因?yàn)橹钡浆F(xiàn)在才有那么多數(shù)據(jù)可供研究,。以前,保存數(shù)據(jù)很貴,,現(xiàn)在很便宜,;第二,以前收集不到那么多數(shù)據(jù),,現(xiàn)在每個(gè)人在互聯(lián)網(wǎng)上的行為都可以記錄下來。現(xiàn)在數(shù)據(jù)庫就是資產(chǎn),,如果有數(shù)據(jù),,就能掌握我的用戶。所以麥肯錫說,,大數(shù)據(jù)是下一個(gè)創(chuàng)新,、競爭,、生產(chǎn)力提高的前沿。數(shù)據(jù)就是一種生產(chǎn)資料,。
問:我們在互聯(lián)網(wǎng)上留下那么多蹤跡和數(shù)據(jù),,誰是數(shù)據(jù)的擁有者呢?
涂子沛:在數(shù)據(jù)開放運(yùn)動(dòng)中,,英國提出了一個(gè)數(shù)據(jù)權(quán)問題,。個(gè)人的數(shù)據(jù)該由個(gè)人做主。你在超市購物,,你會(huì)在那里留下大量消費(fèi)記錄,。英國的做法是,每個(gè)消費(fèi)者登錄網(wǎng)站是可以看到自己的消費(fèi)記錄的,。谷歌在英國也簽了協(xié)議,,要開放相關(guān)的數(shù)據(jù)。谷歌已經(jīng)開放了一部分,。你的數(shù)據(jù)是你的,,你是有權(quán)利看的。那政府的數(shù)據(jù)更有義務(wù)去看了,,因?yàn)槟愕臄?shù)據(jù)是拿著納稅人的錢去收集的,。這些是公共數(shù)據(jù),本來就是公共資產(chǎn),。
數(shù)據(jù)開放之后,,是面向社會(huì)大眾的開放。任何人都可以使用,,只要有能力都能創(chuàng)造新的商機(jī),。產(chǎn)生的新知識都是由精英壟斷,但現(xiàn)在每個(gè)人都可以接觸這些數(shù)據(jù),,誰都可以做這些事情,。
問:但這只是一種理想,你的消費(fèi)記錄,,你的互聯(lián)網(wǎng)記錄,,其實(shí)已經(jīng)隨意泄露。
涂子沛:信息時(shí)代,,我個(gè)人能不能決定怎么發(fā)布數(shù)據(jù),,什么時(shí)候開放,什么時(shí)候修改,,但現(xiàn)在已經(jīng)失控了,。無論是在美國還是中國,尤其是在中國,隱私權(quán)非常薄弱,,個(gè)人信息被隨意買賣,。
問:個(gè)人留下的數(shù)據(jù)越多,它對你的掌握就越容易,。大數(shù)據(jù)會(huì)成為老大哥嗎,?
涂子沛:大數(shù)據(jù)是老大哥,這是不可避免的,。美國想建中央數(shù)據(jù)銀行,,把每個(gè)人從出生到墳?zāi)沟挠涗浾掀饋恚髞砗芏嘟M織反對,。經(jīng)過許多博弈,,美國政府還是放棄了,但對政府來說,,他們很想建立這樣一個(gè)“銀行”,。