是不是做了院長,就可以不做項(xiàng)目了,?我給自己的答案是:不行。其實(shí)原因非常簡單——人手不夠,。
當(dāng)時(shí),,研究院確立的研究方向之一是“音字技術(shù)組”,,也就是教電腦聽話、講話,。這個(gè)恰好是我的博士論文的內(nèi)容,,但是我早就脫離了這個(gè)領(lǐng)域,,而且已經(jīng)多年沒有寫程序,。但在研究院,,我是唯一懂這方面技術(shù)的人,我只有勉為其難地卷起袖子,,和我招到的幾位副研究員一起工作,。
邸爍和陳正是清華的高材生,,盡管不是學(xué)語音的,但是1999年他們進(jìn)入希格瑪大廈的時(shí)候,選擇了語音識別小組,。每天,我拿著語音的教科書,,從最基礎(chǔ)的知識開始教他們。讀完基礎(chǔ)的課本后,,他們開始練習(xí)在這個(gè)新的領(lǐng)域編程,,然后,,我再把我的論文拿出來,,一章一章地講給他們聽,。這兩個(gè)年輕人都聰明過人,可以閱讀世界水平的學(xué)術(shù)論文,。另外,,他們可以利用微軟的“資源共享”制度,從美國研究院語音負(fù)責(zé)人那里拿來全套的語音軟件,。有了這些技術(shù)和源代碼,,這就像攀登100層的高樓,兩人一開始就站在了50層,。他們倆進(jìn)步神速,兩年后,,都成了項(xiàng)目負(fù)責(zé)人,,如今在不同的公司取得了驕人的成績。
在他們倆之后,,我們組又來了個(gè)年輕人——高劍峰,。高雖然也是名校(上海交通大學(xué))的博士,,但是他的專業(yè)是機(jī)械設(shè)計(jì),方向是“工業(yè)造型”,。因此,,他經(jīng)歷過一段頗為迷茫的時(shí)期。
那一年,,我去上海交大招聘,,正好遇到了高劍峰,就問他在研究些什么?他興致勃勃地說了他的研究,。我當(dāng)頭潑了他一盆冷水,,說,“這個(gè)東西在美國早過時(shí)了,,你還研究什么,,還不如到微軟來換個(gè)有用的題目呢�,!睕]想到,,他真的來了,,闖過了應(yīng)聘的重重關(guān)卡,加入了語音識別小組,。
不過,,他馬上感覺到了強(qiáng)大的壓力,邸爍和陳正不斷取得突破,,而他連門道都沒摸清楚,,有時(shí)候遇到一個(gè)問題,他還沒有弄明白是怎么回事,,人家已經(jīng)解決了,。
看到高劍峰非常苦惱,,我開玩笑地對他說,,“你是不是混進(jìn)來的啊,?”他抬頭看我,,表情很窘迫。我笑了笑,,對他說,,“你不是計(jì)算機(jī)專業(yè)畢業(yè)的,但是我覺得你還是有潛力的,,如果有不懂的問題,,我覺得你可以去請教一下組里的同事,畢竟我們是一個(gè)團(tuán)隊(duì),,也歡迎你隨時(shí)來找我,�,!�
高劍峰點(diǎn)了點(diǎn)頭,就去找邸爍和陳正了,。這兩個(gè)小伙子一點(diǎn)都不吝嗇,,把自己知道的東西都告訴了高劍鋒,一些問題經(jīng)他們點(diǎn)撥,,就輕松化解了,。
在不斷的學(xué)習(xí)中,高劍峰的信心被慢慢地樹立了起來,。他覺得,,作研究就像一場長跑比賽,遇到了高手,,被人家甩得很遠(yuǎn),,不能著急,不能亂了方寸,,該怎么跑還是怎么跑,。他后來總是告訴新來的研究員不要在意中途的快慢,最后勝出的人,,才是真正的勝者,。
高劍峰就這么跟了幾年,先學(xué)著跑,,再自己跑,,漸漸地不再感覺累。到了第四年,,他已經(jīng)是“項(xiàng)目帶頭人”,,換句話說,他也是一個(gè)“領(lǐng)跑者”了�,,F(xiàn)在,,他已經(jīng)轉(zhuǎn)到微軟美國,在那里做資深研究員,。
語音識別不是僅僅把每個(gè)字分別識別出來,而是像人一樣,,要運(yùn)用到語言的知識,。中文有一個(gè)特殊的問題,就是分詞,。一個(gè)笑話就是“杭州市長春藥店”,,人們看到這個(gè)店名的時(shí)候,自然而然地知道是“杭州市/長春/藥店”,。但是僅僅向前推一個(gè)字,,電腦很可能會(huì)識別成為“杭州/市長/春藥店”,。
如何做到正確的識別呢?我告訴陳正:“國內(nèi)的語音識別往往是先分詞,,然后識別,。這是徹底的錯(cuò)誤,因?yàn)榈谝淮畏衷~總可能出錯(cuò),,一定要同時(shí)分詞和識別,,經(jīng)過所有的排列與組合,挑選出最好的結(jié)合,�,!�
然后,我發(fā)現(xiàn)我們的語言模型語料遠(yuǎn)遠(yuǎn)不夠,。語言模型的功能是經(jīng)過大量的統(tǒng)計(jì),,來判斷在下一個(gè)位置最可能出現(xiàn)哪些字,比如說,,看到“尊敬的李”時(shí),,我們可能預(yù)測下面會(huì)是“先生”、“老師”,、“女士”等詞,,各有不同的概率。我對他說,,“在中國做語音搜索統(tǒng)計(jì),,只聯(lián)系到前面的一個(gè)詞,但是中文的語言特點(diǎn)是歧義特別多,。僅僅依靠向前推一個(gè)詞,,電腦并不能作出正確的判斷,至少要向前推兩個(gè)詞,�,!蔽覀冋堻S昌寧教授去開始一個(gè)語料采購的計(jì)劃,訓(xùn)練出這樣推兩個(gè)詞的語言模型,。
另外,,中文和英文很大的一個(gè)差別就是中文有四聲的識別。這方面團(tuán)隊(duì)很快地做了一個(gè)四聲識別器,,和整體的識別系統(tǒng)結(jié)合起來,。就像分詞一樣,一定不能先把四聲識別出來,,而要考慮所有的可能性,,再作出總體最優(yōu)的選擇。
在他們?nèi)艘约昂髞砑尤氲膸孜桓毖芯繂T的努力下,,很快,,一個(gè)中文語音識別系統(tǒng)就做出來了,。
此后,陳正和我發(fā)現(xiàn)這個(gè)系統(tǒng)不但可以做語音識別,,也可以做拼音轉(zhuǎn)換,。我們嘗試了一下,果然轉(zhuǎn)換率比當(dāng)時(shí)任何系統(tǒng)都要高很多,。除此之外,,我們還發(fā)現(xiàn)可以用統(tǒng)計(jì)模型做出一種奇妙的功效——自動(dòng)糾正人為造成的拼寫錯(cuò)誤,也就是說,,如果你打入:“zunjingdelixansheng”,,這個(gè)系統(tǒng)可以發(fā)現(xiàn)你少打了一個(gè)“i”,而自動(dòng)轉(zhuǎn)換成“尊敬的李先生”,。后來,,這個(gè)項(xiàng)目,由陳正做內(nèi)核的技術(shù),,王堅(jiān)做用戶界面,,成為了一個(gè)高質(zhì)量的輸入法。
在短短的一年內(nèi),,這個(gè)五人團(tuán)隊(duì)就做出了多項(xiàng)傲人的成果:中文的四聲識別,、最精確的輸入法、中文的聽寫機(jī),,還有多用途的統(tǒng)計(jì)語言模型,。這些項(xiàng)目都符合了我們“有用”的目標(biāo),也用我們的“兵團(tuán)”模式迅速獲得了成果,。
與此同時(shí),,研究院里其他小組,都在為有用的夢想而全力打拼,。
|