少妇愉情电影免费看_真人一对一免费视频_揉我奶?啊?嗯高潮健身房苍井空_男人?少妇A片成人用品_丰满人爽人妻A片二区动漫_丰满的寡妇HD高清在线观看_我丰满的岳?3的电影_强行糟蹋人妻HD中文字_国内精品少妇在线播放短裙_喂奶人妻厨房HD,久久久久国色av∨免费看,VA在线看国产免费,撕开奶罩揉吮奶头

卷起袖子做老師
《李開復(fù)自傳》連載
2010-08-20   作者:  來源:經(jīng)濟參考網(wǎng)
 
    是不是做了院長,,就可以不做項目了,?我給自己的答案是:不行,。其實原因非常簡單——人手不夠,。
    當(dāng)時,,研究院確立的研究方向之一是“音字技術(shù)組”,,也就是教電腦聽話,、講話,。這個恰好是我的博士論文的內(nèi)容,,但是我早就脫離了這個領(lǐng)域,而且已經(jīng)多年沒有寫程序,。但在研究院,,我是唯一懂這方面技術(shù)的人,我只有勉為其難地卷起袖子,,和我招到的幾位副研究員一起工作,。
    邸爍和陳正是清華的高材生,盡管不是學(xué)語音的,,但是1999年他們進(jìn)入希格瑪大廈的時候,,選擇了語音識別小組。每天,我拿著語音的教科書,,從最基礎(chǔ)的知識開始教他們,。讀完基礎(chǔ)的課本后,他們開始練習(xí)在這個新的領(lǐng)域編程,,然后,,我再把我的論文拿出來,一章一章地講給他們聽,。這兩個年輕人都聰明過人,,可以閱讀世界水平的學(xué)術(shù)論文。另外,,他們可以利用微軟的“資源共享”制度,,從美國研究院語音負(fù)責(zé)人那里拿來全套的語音軟件。有了這些技術(shù)和源代碼,,這就像攀登100層的高樓,,兩人一開始就站在了50層。他們倆進(jìn)步神速,,兩年后,,都成了項目負(fù)責(zé)人,如今在不同的公司取得了驕人的成績,。
    在他們倆之后,,我們組又來了個年輕人——高劍峰。高雖然也是名校(上海交通大學(xué))的博士,,但是他的專業(yè)是機械設(shè)計,,方向是“工業(yè)造型”。因此,,他經(jīng)歷過一段頗為迷茫的時期,。
    那一年,我去上海交大招聘,,正好遇到了高劍峰,,就問他在研究些什么?他興致勃勃地說了他的研究,。我當(dāng)頭潑了他一盆冷水,,說,“這個東西在美國早過時了,,你還研究什么,,還不如到微軟來換個有用的題目呢�,!睕]想到,,他真的來了,闖過了應(yīng)聘的重重關(guān)卡,,加入了語音識別小組,。
    不過,他馬上感覺到了強大的壓力,,邸爍和陳正不斷取得突破,,而他連門道都沒摸清楚,有時候遇到一個問題,,他還沒有弄明白是怎么回事,,人家已經(jīng)解決了。
    看到高劍峰非�,?鄲�,,我開玩笑地對他說,“你是不是混進(jìn)來的�,�,?”他抬頭看我,表情很窘迫,。我笑了笑,,對他說,“你不是計算機專業(yè)畢業(yè)的,,但是我覺得你還是有潛力的,,如果有不懂的問題,我覺得你可以去請教一下組里的同事,,畢竟我們是一個團隊,,也歡迎你隨時來找我�,!�
    高劍峰點了點頭,,就去找邸爍和陳正了。這兩個小伙子一點都不吝嗇,,把自己知道的東西都告訴了高劍鋒,,一些問題經(jīng)他們點撥,就輕松化解了,。
    在不斷的學(xué)習(xí)中,,高劍峰的信心被慢慢地樹立了起來。他覺得,,作研究就像一場長跑比賽,,遇到了高手,被人家甩得很遠(yuǎn),,不能著急,,不能亂了方寸,,該怎么跑還是怎么跑。他后來總是告訴新來的研究員不要在意中途的快慢,,最后勝出的人,,才是真正的勝者。
    高劍峰就這么跟了幾年,,先學(xué)著跑,,再自己跑,漸漸地不再感覺累,。到了第四年,,他已經(jīng)是“項目帶頭人”,換句話說,,他也是一個“領(lǐng)跑者”了�,,F(xiàn)在,他已經(jīng)轉(zhuǎn)到微軟美國,,在那里做資深研究員,。
    語音識別不是僅僅把每個字分別識別出來,而是像人一樣,,要運用到語言的知識,。中文有一個特殊的問題,就是分詞,。一個笑話就是“杭州市長春藥店”,,人們看到這個店名的時候,自然而然地知道是“杭州市/長春/藥店”,。但是僅僅向前推一個字,,電腦很可能會識別成為“杭州/市長/春藥店”。
    如何做到正確的識別呢,?我告訴陳正:“國內(nèi)的語音識別往往是先分詞,,然后識別。這是徹底的錯誤,,因為第一次分詞總可能出錯,,一定要同時分詞和識別,經(jīng)過所有的排列與組合,,挑選出最好的結(jié)合,。”
    然后,,我發(fā)現(xiàn)我們的語言模型語料遠(yuǎn)遠(yuǎn)不夠,。語言模型的功能是經(jīng)過大量的統(tǒng)計,來判斷在下一個位置最可能出現(xiàn)哪些字,,比如說,,看到“尊敬的李”時,,我們可能預(yù)測下面會是“先生”、“老師”,、“女士”等詞,,各有不同的概率。我對他說,,“在中國做語音搜索統(tǒng)計,只聯(lián)系到前面的一個詞,,但是中文的語言特點是歧義特別多,。僅僅依靠向前推一個詞,電腦并不能作出正確的判斷,,至少要向前推兩個詞,。”我們請黃昌寧教授去開始一個語料采購的計劃,,訓(xùn)練出這樣推兩個詞的語言模型,。
    另外,中文和英文很大的一個差別就是中文有四聲的識別,。這方面團隊很快地做了一個四聲識別器,,和整體的識別系統(tǒng)結(jié)合起來。就像分詞一樣,,一定不能先把四聲識別出來,,而要考慮所有的可能性,再作出總體最優(yōu)的選擇,。
    在他們?nèi)艘约昂髞砑尤氲膸孜桓毖芯繂T的努力下,,很快,一個中文語音識別系統(tǒng)就做出來了,。
    此后,,陳正和我發(fā)現(xiàn)這個系統(tǒng)不但可以做語音識別,也可以做拼音轉(zhuǎn)換,。我們嘗試了一下,,果然轉(zhuǎn)換率比當(dāng)時任何系統(tǒng)都要高很多。除此之外,,我們還發(fā)現(xiàn)可以用統(tǒng)計模型做出一種奇妙的功效——自動糾正人為造成的拼寫錯誤,,也就是說,如果你打入:“zunjingdelixansheng”,,這個系統(tǒng)可以發(fā)現(xiàn)你少打了一個“i”,,而自動轉(zhuǎn)換成“尊敬的李先生”。后來,,這個項目,,由陳正做內(nèi)核的技術(shù),,王堅做用戶界面,成為了一個高質(zhì)量的輸入法,。
    在短短的一年內(nèi),,這個五人團隊就做出了多項傲人的成果:中文的四聲識別、最精確的輸入法,、中文的聽寫機,,還有多用途的統(tǒng)計語言模型。這些項目都符合了我們“有用”的目標(biāo),,也用我們的“兵團”模式迅速獲得了成果,。
    與此同時,研究院里其他小組,,都在為有用的夢想而全力打拼,。
  凡標(biāo)注來源為“經(jīng)濟參考報”或“經(jīng)濟參考網(wǎng)”的所有文字、圖片,、音視頻稿件,,及電子雜志等數(shù)字媒體產(chǎn)品,版權(quán)均屬新華社經(jīng)濟參考報社,,未經(jīng)書面授權(quán),,不得以任何形式發(fā)表使用。
 
相關(guān)新聞:
· 《巴菲特致股東的信》:價值投資者的必讀書 2010-08-13
· 深圳讀書月"全民閱讀網(wǎng)"上線 2010-08-11
· 第六屆江蘇讀書節(jié)在南京開幕 2010-07-20
· 深圳民間讀書會網(wǎng)羅愛書人參與 2010-07-20
· [讀書頻道]《五常學(xué)經(jīng)濟》 2010-07-01
 
頻道精選:
·[財智頻道]天價奇石開價過億元 誰是價格推手,?·[財智頻道]存款返現(xiàn)赤裸裸 銀行攬存大戰(zhàn)白熱化
·[思想頻道]壟斷行業(yè)收入分配改革的理論廓清·[思想頻道]中國品牌的追求不能急于求成
·[讀書頻道]《五常學(xué)經(jīng)濟》·[讀書頻道]投資盡可逆向思維 做人恪守道德底線