世界因你不同第七章創建微軟中國研究院：捲起袖子做老師

    是不是做了院長，就可以不做項目了？我給自己的答案是：不行。其實原因非常簡單——人手不夠。

    當時，研究院確立的研究方向之一是「音字技術組」，也就是教電腦聽話、講話。這個恰好是我的博士論文的內容，但是我早就脫離了這個領域，而且已經多年沒有寫程序。但在研究院，我是唯一懂這方面技術的人，我只有勉為其難地捲起袖子，和我招到的幾位副研究員一起工作。

    邸爍和陳正是清華的高材生，儘管不是學語音的，但是1999年他們進入希格瑪大廈的時候，選擇了語音識別小組。每天，我拿著語音的教科書，從最基礎的知識開始教他們。讀完基礎的課本後，他們開始練習在這個新的領域編程，然後，我再把我的論文拿出來，一章一章地講給他們聽。這兩個年輕人都聰明過人，可以閱讀世界水平的學術論文。另外，他們可以利用微軟的「資源共享」制度，從美國研究院語音負責人那裡拿來全套的語音軟件。有了這些技術和源代碼，這就像攀登100層的高樓，兩人一開始就站在了50層。他們倆進步神速，兩年後，都成了項目負責人，如今在不同的公司取得了驕人的成績。

    在他們倆之後，我們組又來了個年輕人——高劍峰。高雖然也是名校（上海交通大學）的博士，但是他的專業是機械設計，方向是「工業造型」。因此，他經歷過一段頗為迷茫的時期。

    那一年，我去上海交大招聘，正好遇到了高劍峰，就問他在研究些什麼？他興致勃勃地說了他的研究。我當頭潑了他一盆冷水，說，「這個東西在美國早過時了，你還研究什麼，還不如到微軟來換個有用的題目呢。」沒想到，他真的來了，闖過了應聘的重重關卡，加入了語音識別小組。

    不過，他馬上感覺到了強大的壓力，邸爍和陳正不斷取得突破，而他連門道都沒摸清楚，有時候遇到一個問題，他還沒有弄明白是怎麼回事，人家已經解決了。

    看到高劍峰非常苦惱，我開玩笑地對他說，「你是不是混進來的啊？」他抬頭看我，表情很窘迫。我笑了笑，對他說，「你不是計算機專業畢業的，但是我覺得你還是有潛力的，如果有不懂的問題，我覺得你可以去請教一下組裡的同事，畢竟我們是一個團隊，也歡迎你隨時來找我。」

    高劍峰點了點頭，就去找邸爍和陳正了。這兩個小伙子一點都不吝嗇，把自己知道的東西都告訴了高劍鋒，一些問題經他們點撥，就輕鬆化解了。

    在不斷的學習中，高劍峰的信心被慢慢地樹立了起來。他覺得，作研究就像一場長跑比賽，遇到了高手，被人家甩得很遠，不能著急，不能亂了方寸，該怎麼跑還是怎麼跑。他後來總是告訴新來的研究員不要在意中途的快慢，最後勝出的人，才是真正的勝者。

    高劍峰就這麼跟了幾年，先學著跑，再自己跑，漸漸地不再感覺累。到了第四年，他已經是「項目帶頭人」，換句話說，他也是一個「領跑者」了。現在，他已經轉到微軟美國，在那裡做資深研究員。

    語音識別不是僅僅把每個字分別識別出來，而是像人一樣，要運用到語言的知識。中文有一個特殊的問題，就是分詞。一個笑話就是「杭州市長春藥店」，人們看到這個店名的時候，自然而然地知道是「杭州市/長春/藥店」。但是僅僅向前推一個字，電腦很可能會識別成為「杭州/市長/春藥店」。

    如何做到正確的識別呢？我告訴陳正：「國內的語音識別往往是先分詞，然後識別。這是徹底的錯誤，因為第一次分詞總可能出錯，一定要同時分詞和識別，經過所有的排列與組合，挑選出最好的結合。」

    然後，我發現我們的語言模型語料遠遠不夠。語言模型的功能是經過大量的統計，來判斷在下一個位置最可能出現哪些字，比如說，看到「尊敬的李」時，我們可能預測下面會是「先生」、「老師」、「女士」等詞，各有不同的概率。我對他說，「在中國做語音搜索統計，只聯繫到前面的一個詞，但是中文的語言特點是歧義特別多。僅僅依靠向前推一個詞，電腦並不能作出正確的判斷，至少要向前推兩個詞。」我們請黃昌寧教授去開始一個語料採購的計劃，訓練出這樣推兩個詞的語言模型。

    另外，中文和英文很大的一個差別就是中文有四聲的識別。這方面團隊很快地做了一個四聲識別器，和整體的識別系統結合起來。就像分詞一樣，一定不能先把四聲識別出來，而要考慮所有的可能性，再作出總體最優的選擇。

    在他們三人以及後來加入的幾位副研究員的努力下，很快，一個中文語音識別系統就做出來了。

    此後，陳正和我發現這個系統不但可以做語音識別，也可以做拼音轉換。我們嘗試了一下，果然轉換率比當時任何系統都要高很多。除此之外，我們還發現可以用統計模型做出一種奇妙的功效——自動糾正人為造成的拼寫錯誤，也就是說，如果你打入：「zunjingdelixansheng」，這個系統可以發現你少打了一個「i」，而自動轉換成「尊敬的李先生」。後來，這個項目，由陳正做內核的技術，王堅做用戶界面，成為了一個高質量的輸入法。

    在短短的一年內，這個五人團隊就做出了多項傲人的成果：中文的四聲識別、最精確的輸入法、中文的聽寫機，還有多用途的統計語言模型。這些項目都符合了我們「有用」的目標，也用我們的「兵團」模式迅速獲得了成果。

    與此同時，研究院裡其他小組，都在為有用的夢想而全力打拼。