經(jīng)濟參考網(wǎng)

少妇愉情电影免费看_真人一对一免费视频_揉我奶?啊?嗯高潮健身房苍井空_男人?少妇A片成人用品_丰满人爽人妻A片二区动漫_丰满的寡妇HD高清在线观看_我丰满的岳?3的电影_强行糟蹋人妻HD中文字_国内精品少妇在线播放短裙_喂奶人妻厨房HD,久久久久国色av∨免费看,VA在线看国产免费,撕开奶罩揉吮奶头

卷起袖子做老師

《李開復(fù)自傳》連載

2010-08-20 　　作者：　　來源：經(jīng)濟參考網(wǎng)

    是不是做了院長,，就可以不做項目了,？我給自己的答案是:不行,。其實原因非常簡單——人手不夠,。
    當(dāng)時,，研究院確立的研究方向之一是“音字技術(shù)組”,，也就是教電腦聽話,、講話,。這個恰好是我的博士論文的內(nèi)容,，但是我早就脫離了這個領(lǐng)域，而且已經(jīng)多年沒有寫程序,。但在研究院,，我是唯一懂這方面技術(shù)的人，我只有勉為其難地卷起袖子,，和我招到的幾位副研究員一起工作,。
    邸爍和陳正是清華的高材生，盡管不是學(xué)語音的,，但是1999年他們進(jìn)入希格瑪大廈的時候,，選擇了語音識別小組。每天，我拿著語音的教科書,，從最基礎(chǔ)的知識開始教他們,。讀完基礎(chǔ)的課本后，他們開始練習(xí)在這個新的領(lǐng)域編程,，然后,，我再把我的論文拿出來，一章一章地講給他們聽,。這兩個年輕人都聰明過人,，可以閱讀世界水平的學(xué)術(shù)論文。另外,，他們可以利用微軟的“資源共享”制度,，從美國研究院語音負(fù)責(zé)人那里拿來全套的語音軟件。有了這些技術(shù)和源代碼,，這就像攀登100層的高樓,，兩人一開始就站在了50層。他們倆進(jìn)步神速,，兩年后,，都成了項目負(fù)責(zé)人，如今在不同的公司取得了驕人的成績,。
    在他們倆之后,，我們組又來了個年輕人——高劍峰。高雖然也是名校（上海交通大學(xué)）的博士,，但是他的專業(yè)是機械設(shè)計,，方向是“工業(yè)造型”。因此,，他經(jīng)歷過一段頗為迷茫的時期,。
    那一年，我去上海交大招聘,，正好遇到了高劍峰,，就問他在研究些什么？他興致勃勃地說了他的研究,。我當(dāng)頭潑了他一盆冷水,，說，“這個東西在美國早過時了,，你還研究什么,，還不如到微軟來換個有用的題目呢�,！睕]想到,，他真的來了，闖過了應(yīng)聘的重重關(guān)卡,，加入了語音識別小組,。
    不過，他馬上感覺到了強大的壓力,，邸爍和陳正不斷取得突破,，而他連門道都沒摸清楚，有時候遇到一個問題,，他還沒有弄明白是怎么回事,，人家已經(jīng)解決了。
    看到高劍峰非�,？鄲�,，我開玩笑地對他說，“你是不是混進(jìn)來的�,�,？”他抬頭看我，表情很窘迫,。我笑了笑,，對他說，“你不是計算機專業(yè)畢業(yè)的,，但是我覺得你還是有潛力的,，如果有不懂的問題，我覺得你可以去請教一下組里的同事,，畢竟我們是一個團隊,，也歡迎你隨時來找我�,！�
    高劍峰點了點頭,，就去找邸爍和陳正了。這兩個小伙子一點都不吝嗇,，把自己知道的東西都告訴了高劍鋒,，一些問題經(jīng)他們點撥，就輕松化解了,。
    在不斷的學(xué)習(xí)中,，高劍峰的信心被慢慢地樹立了起來。他覺得,，作研究就像一場長跑比賽,，遇到了高手，被人家甩得很遠(yuǎn),，不能著急,，不能亂了方寸,，該怎么跑還是怎么跑。他后來總是告訴新來的研究員不要在意中途的快慢,，最后勝出的人,，才是真正的勝者。
    高劍峰就這么跟了幾年,，先學(xué)著跑,，再自己跑，漸漸地不再感覺累,。到了第四年,，他已經(jīng)是“項目帶頭人”，換句話說,，他也是一個“領(lǐng)跑者”了�,，F(xiàn)在，他已經(jīng)轉(zhuǎn)到微軟美國,，在那里做資深研究員,。
    語音識別不是僅僅把每個字分別識別出來，而是像人一樣,，要運用到語言的知識,。中文有一個特殊的問題，就是分詞,。一個笑話就是“杭州市長春藥店”,，人們看到這個店名的時候，自然而然地知道是“杭州市/長春/藥店”,。但是僅僅向前推一個字,，電腦很可能會識別成為“杭州/市長/春藥店”。
    如何做到正確的識別呢,？我告訴陳正：“國內(nèi)的語音識別往往是先分詞,，然后識別。這是徹底的錯誤,，因為第一次分詞總可能出錯,，一定要同時分詞和識別，經(jīng)過所有的排列與組合,，挑選出最好的結(jié)合,。”
    然后,，我發(fā)現(xiàn)我們的語言模型語料遠(yuǎn)遠(yuǎn)不夠,。語言模型的功能是經(jīng)過大量的統(tǒng)計，來判斷在下一個位置最可能出現(xiàn)哪些字,，比如說,，看到“尊敬的李”時,，我們可能預(yù)測下面會是“先生”、“老師”,、“女士”等詞,，各有不同的概率。我對他說,，“在中國做語音搜索統(tǒng)計，只聯(lián)系到前面的一個詞,，但是中文的語言特點是歧義特別多,。僅僅依靠向前推一個詞，電腦并不能作出正確的判斷,，至少要向前推兩個詞,。”我們請黃昌寧教授去開始一個語料采購的計劃,，訓(xùn)練出這樣推兩個詞的語言模型,。
    另外，中文和英文很大的一個差別就是中文有四聲的識別,。這方面團隊很快地做了一個四聲識別器,，和整體的識別系統(tǒng)結(jié)合起來。就像分詞一樣,，一定不能先把四聲識別出來,，而要考慮所有的可能性，再作出總體最優(yōu)的選擇,。
    在他們?nèi)艘约昂髞砑尤氲膸孜桓毖芯繂T的努力下,，很快，一個中文語音識別系統(tǒng)就做出來了,。
    此后,，陳正和我發(fā)現(xiàn)這個系統(tǒng)不但可以做語音識別，也可以做拼音轉(zhuǎn)換,。我們嘗試了一下,，果然轉(zhuǎn)換率比當(dāng)時任何系統(tǒng)都要高很多。除此之外,，我們還發(fā)現(xiàn)可以用統(tǒng)計模型做出一種奇妙的功效——自動糾正人為造成的拼寫錯誤,，也就是說，如果你打入：“zunjingdelixansheng”,，這個系統(tǒng)可以發(fā)現(xiàn)你少打了一個“i”,，而自動轉(zhuǎn)換成“尊敬的李先生”。后來,，這個項目,，由陳正做內(nèi)核的技術(shù),，王堅做用戶界面，成為了一個高質(zhì)量的輸入法,。
    在短短的一年內(nèi),，這個五人團隊就做出了多項傲人的成果：中文的四聲識別、最精確的輸入法,、中文的聽寫機,，還有多用途的統(tǒng)計語言模型。這些項目都符合了我們“有用”的目標(biāo),，也用我們的“兵團”模式迅速獲得了成果,。
    與此同時，研究院里其他小組,，都在為有用的夢想而全力打拼,。

　　凡標(biāo)注來源為“經(jīng)濟參考報”或“經(jīng)濟參考網(wǎng)”的所有文字、圖片,、音視頻稿件,，及電子雜志等數(shù)字媒體產(chǎn)品，版權(quán)均屬新華社經(jīng)濟參考報社,，未經(jīng)書面授權(quán),，不得以任何形式發(fā)表使用。

相關(guān)新聞：

·	《巴菲特致股東的信》：價值投資者的必讀書 2010-08-13

·	深圳讀書月"全民閱讀網(wǎng)"上線 2010-08-11

·	第六屆江蘇讀書節(jié)在南京開幕 2010-07-20

·	深圳民間讀書會網(wǎng)羅愛書人參與 2010-07-20

·	[讀書頻道]《五常學(xué)經(jīng)濟》 2010-07-01

頻道精選：

[財智頻道]天價奇石開價過億元誰是價格推手,？

[財智頻道]存款返現(xiàn)赤裸裸銀行攬存大戰(zhàn)白熱化

[思想頻道]壟斷行業(yè)收入分配改革的理論廓清

[思想頻道]中國品牌的追求不能急于求成

[讀書頻道]《五常學(xué)經(jīng)濟》

[讀書頻道]投資盡可逆向思維做人恪守道德底線

^{<tr id="onrv1"></tr>}