接下這本翻譯的時候,,我的目標是做到110%的好。因為作者畢竟不如我們每天在一線與數據廝殺搏斗,,其愛其恨都更深刻,。特別地,我們可以為中文的讀者補充很多中國的例子和參考資料,。很遺憾,,我們最終只做到了90%,應該補充的一些材料還沒有整理好,,遣詞造句也多有生硬疏忽之處,。如果再給我一個月的時間,就可以有我預想的110%甚至120%,。為什么現在把這個版本呈現給諸位呢,?一是因為我們的努力使得本書中譯本的出版和英文原版完全同步,單從獲取知識的角度講,,我們一點不比美國的讀者慢,!二是我相信作者在書中的一個重要觀點,就是大數據時代,,要允許一點點的錯誤和不完美,,因為效率可能更加重要!留下一些可供提高的地方,,也使得我們的每一次印刷,,都能夠與以前有所不同。
這本書是200%的好,,因此90%的譯本也絕對值得一讀,。作者首先拋出了大數據時代處理數據理念上的三大轉變:要全體不要抽樣,要效率不要絕對精確,,要相關不要因果,;接著從萬事萬物數據化和數據交叉復用的巨大價值兩個方面講述驅動大數據戰(zhàn)車向前滾動在材質和智力方面的最根本動力;最后,,作者冷靜描繪了大數據帝國前夜的脆弱和不安,,包括產業(yè)生態(tài)環(huán)境、數據安全隱私,、信息公正公開等等問題,。
國內最近也出版了一些大數據方面的著作,可以和本書互為補充,。鄭毅的《證析》對于數據通過交叉復用體現的新價值,、大數據戰(zhàn)略在企業(yè)和政府執(zhí)行層面的流程以及大數據科學家這一新職位和圍繞這個職位的能力和責任給出了最深刻最具體的描述;子沛的《大數據》對于數據的公正性、公平性以及信息和數據管理等方面理念,、政策和執(zhí)行的變化,,特別是美國在這方面的進展,給出了完整的介紹,;蘇萌,、林森和我合著的《個性化:商業(yè)的未來》則對大數據時代最重要的技術,個性化技術,,以及與之相關的新商業(yè)模式給出了從理念到技術細節(jié)的全景工筆,。總的來說,,這三本書都針對本書的某一局部給出了更深刻的介紹和洞見,,也各有明顯超出本書的優(yōu)點,但三本之和也無法囊括本書的菁華,,亦缺乏本書的宏大視野,。
簡單地說,這本書好在三個地方,。一是觀點擲地有聲,,絕非主流媒體上若干討論的簡單匯總和平均,更不是一個宏大概念面前曖昧的叫好聲,。讀者可能對其中一些觀點不認同,,但是讀完之后不可能一個都記不住。二是觀念高屋建瓴,,作者試圖從很多實例和經驗,,包括歷史事件中萃取出普適性的觀念,而不僅僅是適用于幾個特定情況下的案例分析,。三是例子豐富翔實,,不大的篇幅包括了上百個學術和商業(yè)的實例。三點近乎完美地結合起來,,體現了作者駕馭大問題的能力和豐富的知識,,以及,可能更重要地,,作者渴求立言立說的野心,!所以說,這本書絕對不是一堆枯燥的綱要,,更不是一本巨厚的雜志,。
我在這里拼命叫好,是為了更多賣這本書,,不代表作者的所有觀點都是絕對真理,。舉個例子,,我本人對于大數據時代“相關關系比因果關系更重要”這個觀點就不認同,。有了機器學習,,特別是集成學習,我們解決問題的方式變成了訓練所有可能的模型和擬合所有可能的參數——問題從一個端口進去,,答案從另一個端口出來,,中間則是一個黑匣子,因為沒有人能夠從成千上萬的參數擬合值里面讀到“科學”,,我們讀到的只是“計算機工程”,。與其說大數據讓我們重視相關勝于因果,不如說機器學習和以結果為導向的研究思路讓我們變得這樣,。那么大數據是不是都這樣了,,其實很多時候恰恰相反。想想瑞士日內瓦的強子對撞機,,我們在上面捕獲了人類有史以來最大規(guī)模的單位時間數據,。我們是希望找到或者驗證某種相關關系嗎?不是,!我們試圖回答地,,正是人類所能問出的最偉大的關于因果聯系的問題:希格斯玻色子是否存在,我們的宇宙是否有可能用標準模型刻畫,?這個問題的最終答案,,將打破人和神的界限!認為相關重于因果,,是某些有代表性的大數據分析手段(譬如機器學習)里面內稟的實用主義的魅影,,絕非大數據自身的訴求。從小處講,,作者試圖避免的“數據的獨裁”和“錯誤的前提導致錯誤的結論”,,其解決之道恰在于挖掘因果邏輯而非相關性;從大處講,,放棄對因果性的追求,,就是放棄了人類凌駕于計算機之上的智力優(yōu)勢,是人類自身的放縱和墮落,。如果未來某一天機器和計算完全接管了這個世界,,那么這種放棄就是末日之始。
蘇珊·朗格在《哲學新視野》一書中說:“某些觀念有時會以驚人的力量給知識狀況帶來巨大的沖擊,。由于這些觀念能一下子解決許多問題,,所以,它們似乎將有希望解決所有基本問題,,澄清所有不明了的疑點,。每個人都迅速抓住它們,,作為進入某種新實證科學的法寶,作為可以用來建構一個綜合分析體系的概念軸心,。這種‘宏大概念’突然流行起來,,一時間把幾乎所有的東西都擠到一邊�,!边@段話通常被認為是對當時“存在主義”和“精神分析法”這類萬能概念的善意批評,,而如今特別適合作為一盆冷水潑在那些沒有任何深刻理解,卻月月日日分分秒秒穿行于各種“大數據嘉年華”的投資人,、媒體人和創(chuàng)業(yè)者,。希望本書給予各位的是一些實實在在的知識和思考,并且喚起各位安靜思索相關問題的心境,。大數據是一個很重要的概念,,代表了很重要的趨勢,但我不希望它成為一種放之四海皆準的萬能概念——因為越是萬能的,,就越是空洞的,!人類學家吉爾茲在其著作《文化的解釋》中曾給出了一個樸素而冷靜的勸說:“試圖在可以應用、可以拓展的地方,,應用它,、拓展它;在不能應用,、不能拓展的地方,,就停下來�,!蔽蚁�,,這應該是所有人面對一個新領域或新概念時應有的態(tài)度。
大數據的道路上沒有戈多,,我們已經在路上,,晃晃悠悠。人類的自由意志和諸神之下的尊嚴,,會在這條道路上異化甚至消逝嗎,?極目遠眺,不知道世界的盡頭,,是否是一個冷酷的仙境,!諸位為之奮斗吧,而我只想,,做一個,,麥田里的守望者。
以為序,。
|