是不是做了院長,就可以不做項目了?我給自己的答案是:不行。其實原因非常簡單——人手不夠。
當時,研究院確立的研究方向之一是「音字技術組」,也就是教電腦聽話、講話。這個恰好是我的博士論文的內容,但是我早就脫離了這個領域,而且已經多年沒有寫程序。但在研究院,我是唯一懂這方面技術的人,我只有勉為其難地捲起袖子,和我招到的幾位副研究員一起工作。
邸爍和陳正是清華的高材生,儘管不是學語音的,但是1999年他們進入希格瑪大廈的時候,選擇了語音識別小組。每天,我拿著語音的教科書,從最基礎的知識開始教他們。讀完基礎的課本後,他們開始練習在這個新的領域編程,然後,我再把我的論文拿出來,一章一章地講給他們聽。這兩個年輕人都聰明過人,可以閱讀世界水平的學術論文。另外,他們可以利用微軟的「資源共享」制度,從美國研究院語音負責人那裡拿來全套的語音軟件。有了這些技術和源代碼,這就像攀登100層的高樓,兩人一開始就站在了50層。他們倆進步神速,兩年後,都成了項目負責人,如今在不同的公司取得了驕人的成績。
在他們倆之後,我們組又來了個年輕人——高劍峰。高雖然也是名校(上海交通大學)的博士,但是他的專業是機械設計,方向是「工業造型」。因此,他經歷過一段頗為迷茫的時期。
那一年,我去上海交大招聘,正好遇到了高劍峰,就問他在研究些什麼?他興致勃勃地說了他的研究。我當頭潑了他一盆冷水,說,「這個東西在美國早過時了,你還研究什麼,還不如到微軟來換個有用的題目呢。」沒想到,他真的來了,闖過了應聘的重重關卡,加入了語音識別小組。
不過,他馬上感覺到了強大的壓力,邸爍和陳正不斷取得突破,而他連門道都沒摸清楚,有時候遇到一個問題,他還沒有弄明白是怎麼回事,人家已經解決了。
看到高劍峰非常苦惱,我開玩笑地對他說,「你是不是混進來的啊?」他抬頭看我,表情很窘迫。我笑了笑,對他說,「你不是計算機專業畢業的,但是我覺得你還是有潛力的,如果有不懂的問題,我覺得你可以去請教一下組裡的同事,畢竟我們是一個團隊,也歡迎你隨時來找我。」
高劍峰點了點頭,就去找邸爍和陳正了。這兩個小伙子一點都不吝嗇,把自己知道的東西都告訴了高劍鋒,一些問題經他們點撥,就輕鬆化解了。
在不斷的學習中,高劍峰的信心被慢慢地樹立了起來。他覺得,作研究就像一場長跑比賽,遇到了高手,被人家甩得很遠,不能著急,不能亂了方寸,該怎麼跑還是怎麼跑。他後來總是告訴新來的研究員不要在意中途的快慢,最後勝出的人,才是真正的勝者。
高劍峰就這麼跟了幾年,先學著跑,再自己跑,漸漸地不再感覺累。到了第四年,他已經是「項目帶頭人」,換句話說,他也是一個「領跑者」了。現在,他已經轉到微軟美國,在那裡做資深研究員。
語音識別不是僅僅把每個字分別識別出來,而是像人一樣,要運用到語言的知識。中文有一個特殊的問題,就是分詞。一個笑話就是「杭州市長春藥店」,人們看到這個店名的時候,自然而然地知道是「杭州市/長春/藥店」。但是僅僅向前推一個字,電腦很可能會識別成為「杭州/市長/春藥店」。
如何做到正確的識別呢?我告訴陳正:「國內的語音識別往往是先分詞,然後識別。這是徹底的錯誤,因為第一次分詞總可能出錯,一定要同時分詞和識別,經過所有的排列與組合,挑選出最好的結合。」
然後,我發現我們的語言模型語料遠遠不夠。語言模型的功能是經過大量的統計,來判斷在下一個位置最可能出現哪些字,比如說,看到「尊敬的李」時,我們可能預測下面會是「先生」、「老師」、「女士」等詞,各有不同的概率。我對他說,「在中國做語音搜索統計,只聯繫到前面的一個詞,但是中文的語言特點是歧義特別多。僅僅依靠向前推一個詞,電腦並不能作出正確的判斷,至少要向前推兩個詞。」我們請黃昌寧教授去開始一個語料採購的計劃,訓練出這樣推兩個詞的語言模型。
另外,中文和英文很大的一個差別就是中文有四聲的識別。這方面團隊很快地做了一個四聲識別器,和整體的識別系統結合起來。就像分詞一樣,一定不能先把四聲識別出來,而要考慮所有的可能性,再作出總體最優的選擇。
在他們三人以及後來加入的幾位副研究員的努力下,很快,一個中文語音識別系統就做出來了。
此後,陳正和我發現這個系統不但可以做語音識別,也可以做拼音轉換。我們嘗試了一下,果然轉換率比當時任何系統都要高很多。除此之外,我們還發現可以用統計模型做出一種奇妙的功效——自動糾正人為造成的拼寫錯誤,也就是說,如果你打入:「zunjingdelixansheng」,這個系統可以發現你少打了一個「i」,而自動轉換成「尊敬的李先生」。後來,這個項目,由陳正做內核的技術,王堅做用戶界面,成為了一個高質量的輸入法。
在短短的一年內,這個五人團隊就做出了多項傲人的成果:中文的四聲識別、最精確的輸入法、中文的聽寫機,還有多用途的統計語言模型。這些項目都符合了我們「有用」的目標,也用我們的「兵團」模式迅速獲得了成果。
與此同時,研究院裡其他小組,都在為有用的夢想而全力打拼。