就在我暑期忙著教書,秋天投身奧賽羅時,瑞迪教授從美國國防部得到了300萬美元的經費做不特定語者、大詞庫、連續性的語音識別。也就是說,他希望機器能聽懂任何人的聲音,而且可以懂上千個詞彙,懂人們自然連續說出的每一句話。這三個問題都是當時無解的問題,而瑞迪教授大膽地拿下項目,希望同時解決這三個問題。他在全美招聘了30多位教授、研究員、語音學家、學生、程序員,以啟動這個有史以來最大的語音項目。而他也期望我在專家系統方面繼續努力,得到突破,在這30多人的隊伍裡面發揮作用。
但是,他怎麼也沒想到,我正想著如何脫離這個30多人的隊伍,脫離專家系統的研究。奧賽羅的人機博弈,讓我對統計概念有了充分的理解,我開始相信,建立大型的數據庫,然後對大的語音數據庫進行分類,就有可能解決專家系統不能解決的問題。
怎樣向他提這件事?我一直在猶豫,他已經向國防部立項,經費已經到位,專家系統的方向是勢在必行的,我是他一手調教出來的大弟子,如果我這麼不配合他的方向,他會怎麼處理呢?會試著說服我繼續做專家系統?會大發雷霆?還是會好言相勸?
再三思考後,我告訴自己,我必須向他坦承我的看法,因為我想起當時海博曼院長對我說的:「讀博士,就是挑選一個狹窄並重要的領域作研究,畢業的時候交出一篇世界一流的畢業論文,成為這個領域裡世界首屈一指的專家。任何人提到這個領域的時候,都會想起你的名字。」如果我做專家系統,我就愧對了海博曼院長的期許,也浪費了我大學三年苦讀,更對不起我自己。
於是,我決定鼓足勇氣,向瑞迪教授直接表達我的想法。我對瑞迪說:「我希望轉投統計學,用統計學來解決這個『不特定語者、大詞彙、連續性語音識別』。」
瑞迪一點都沒有生氣,他輕輕地問:「那統計方法如何解決這三大問題呢?」這正是我思考很久的三個問題。然後,我就長篇大論地說了十分鐘,瑞迪教授耐心地聽完我激情的回答後,用他那永遠溫和的聲音告訴我:「開復,你對專家系統和統計的觀點,我是不同意的,但是我可以支持你用統計的方法去做,因為我相信科學沒有絕對的對錯,我們都是平等的。而且,我更相信一個有激情的人是可能找到更好的解決方案的。」
那一刻,我的感動無與倫比。因為對一個教授來說,學生要用自己的方法作出一個與他唱反調的研究。教授不但沒有動怒,還給予經費上的支持,這在很多地方是不可想像的。
但是,統計學需要大數據庫,我們如何才能建立起大的數據庫呢?瑞迪教授看到我愁眉不展的樣子,再一次給了我支持。他說,「開復,雖然說我還是對你的研究方法有所保留,但是,在科學的領域裡,其實也無所謂老師和學生的區別,我們都是面臨這一個難題的攻克者,所以,如果你真的需要數據庫,那麼,讓我去說服國防部去幫你建立一個大的數據庫吧!」
統計學的方法也需要非常快的機器,瑞迪教授幫我購買了最新的Sun4機器。每次有新的機器,他都會說:「先問問開復要不要。」做論文的兩年多,我至少花了他幾十萬美元的經費。
瑞迪教授的寬容再次讓我感覺到一種偉大的力量,這是一種自由和信任的力量。伏爾泰曾說:「我可以不同意你的觀點,但是我誓死扞衛你說話的權利!」瑞迪教授這樣說:「我不同意你,但是我支持你。」這是一種真正的科學家的精神。他這種「科學面前,人人平等」的信念,深深地影響了我。這種無言的偉大,讓我受益終生,也讓我以這種信念對待他人的不同意見。
24年後,當我的員工郭去疾離職的時候,他是這麼描述我的:「8年來,作為我的師長,開復很多次支持了我的理想,改變了我的命運,也寬容了我的缺點。當你離一個人很近,從他身上學到太多,你可能反而不知道該怎樣總結你的收穫。但我知道,現在當我遇到一個難以處理的困難,我常常會去想,如果是開復,他會怎麼做。假如只能選一條收穫來分享,那麼開復讓我銘記終身的教益是:『Youcansincerelydisagreeandfullheartedlysupportatthesametime(你可以同時真誠地反對和全力地支持)。』以前讀到開復的文章裡提及他的博士生導師懷疑卻又支持他的研究方向的時候,我以為那只是一種雅量。而當開復身體力行地一次次懷疑卻又支持我的時候,我才慢慢明白這是一種珍貴的領導力。」
這種領導力只能歸功和感謝我的導師——瑞迪教授。
在導師的這種力量的支持下,我開始了瘋狂的科研工作。我每天上午8∼9點起床,到學校完成自己必須做的課業、助教等工作,中午回家,從中午1點工作到凌晨2∼3點,一星期有6天都是如此,只有星期天是承諾妻子的「休息日」。就算星期天,我也會多次上機去看看我的實驗是否在跑。一天18個小時,一周100多個小時,我堅持了三年半。
從1984年底到1987年初,我帶著另一位學生一起用統計的方法做語音識別。同時,其他30多人用專家系統做同樣的問題。從方法上來說,我們在競爭,但是在瑞迪教授的領導下,我們分享一切,我們用同樣的樣本訓練和測試。在瑞迪教授的支持下,我也慢慢得到了其他教授的認可。
在1986年底,我的統計系統和他們的專家系統達到了大約一樣的水平,40%的辨認率。這雖然還是完全不能用的系統,但畢竟是學術界第一次嘗試這麼難的問題,大家還是比較欣喜和樂觀的。
1987年5月,我們大幅度地提升了訓練的數據庫,我又想出了一種新的方法(triphones)來建模,不但能夠用統計學的方法學習每一個音,而且可以用統計學的方法學習每兩個音之間的轉折。針對有些音的樣本不夠,我又想出了一種方法(generalizedtriphones)來合併其他的音。這三項工作居然把機器的語音識別率從原來的40%提高到了80%!
統計學的方法用於語音識別初步被驗證是正確的方向,我的內心充滿了喜悅。瑞迪也同樣為我感到欣喜萬分,他決定把我的成果帶到國際學術會議上去演講,讓世界知道統計學的方法初獲成功。而我鼓起勇氣對瑞迪教授說,「這是我自己做出的成果,您可不可以讓我自己去講。」瑞迪教授馬上回答,「好啊。那很好,我馬上給你訂機票。」
就這樣,我帶著自己準備4年的成果,跟著我的恩師出發了。有趣的是,那一天,我開著有15年車齡的「老爺車」去接瑞迪教授,沒有想到,剛剛走到一半,整個車子都開始冒出滾滾黑煙,我和瑞迪教授只好狼狽不堪地跑下了車。「不好意思,汽缸爆了。」我掀開車蓋裡看到一幅狼藉的景象。「沒事,我們還是趕緊換坐出租車吧,否則要趕不上飛機了。」瑞迪教授安慰我說。就這樣,我們好不容易攔下了一輛出租車趕往機場。後來,瑞迪教授的秘書偷偷地告訴我,瑞迪教授其實被嚇壞了,他害怕地說,「再也不坐開復的車了。」
送瑞迪教授的路上報廢的汽車
在這個國防部贊助的語音學術會議上,老師讓我演示了自己的研究成果,受到了各高校的矚目。當時,IBM公司和斯坦福研究院的教授都非常重視這個結果,來找我問了很多細節。
雖然識別率實現了跨越式的前進,但是我一直在問自己,80%的語音識別率有沒有可能再提高一步?從學術會議上回來,我回到了自己租住的小屋裡,繼續做著各種試驗和統計,希望有一天語音識別率能夠「更上一層樓」。每一天,我幾乎都是困到無法撐開眼皮才睡。
奇跡在某一天早上發生了,當我睡眼矇矓地開始敲程序的時候,忽然發現語音識別率一下子提高到了96%。「天啊!我是不是還在做夢?」我揉了揉眼睛,不敢相信。我趕緊把程序重新敲了一遍,發現語音識別率果然提高到了96%,一股巨大的幸福的眩暈感覺湧了上來。在昨天晚上的一個程序中,我只改寫了一些細節,沒有想到,正是對這些細節的修改,讓我的研究成果取得了突破性的進展。
1988年4月,我受邀到紐約參加一年一度的世界語音學術會議,發表學術論文。赴會的一個月前,我的導師瑞迪教授又給我上了一課,但是不是學術方面,而是市場方面的。
他對我說:「學術演講的30分鐘,你只要講25分鐘就行了,最後5分鐘你拿一個話筒傳給觀眾,讓他們自己試試,這個系統是不是真的。」
我說:「但是,會場噪音很大,一定會打折扣,達不到96%,而且那麼多日本學者,他們的口音我的系統可沒聽過。」
老師說:「實際上你的識別率是90%還是96%,沒有什麼差別。我們這麼做的目的,不是要監測你的識別率,而是要造成一個效果,讓每個學者終生都會記得,第一次接觸不指定語者系統就是在紐約,在李開復的演講上。」
我說:「好吧,照你說的做。但是,識別的速度不夠快,讓大家等太久不好吧。」
「沒關係,我讓系裡面最厲害的黑客來幫你修改程序,幫你做得更快。」瑞迪教授說。
他又說:「你該給你的系統取個名字了,這樣他們才知道如何稱呼你的系統。你的奧賽羅系統都有名字。」
《紐約時報》對我的博士論文的報道
於是,我給系統取了名字,叫做Sphinx(斯芬克斯,希臘的人面獅身)。希臘的人面獅身有人的臉孔、獅子的身體、鳥的翅膀,我取這個名字是希望獅子的身體代表宏偉的統計模型,人的臉孔代表人的語音知識,鳥的翅膀代表系統的速度。
在這個會議上,我把96%的語音識別率發表了,也演示了Sphinx系統。結果就像瑞迪教授所預期的,學術結果和演示效果相映之下,我的成果撼動了整個學術領域。這是計算機領域裡最頂尖的科學成果了。語音識別率大幅度提高,讓全世界語音研究領域閃爍出一道希望的光芒,從此,所有以專家系統研究語音識別的人全部轉向了統計方法。
會後,《紐約時報》聽說了這個成果,派記者約翰·馬可奧夫(JohnMarkoff)來到匹茲堡對我作了採訪,文章發表於1988年7月6日,佔了科技版首頁的整個半版。在這篇文章裡,馬可奧夫大力報道了我的論文的突破。當時,我只覺得在和一個和藹可親的記者聊天,事後,我才知道這是一名才華橫溢的著名記者,三次提名普利策獎,並在斯坦福兼教。
後來,《商業週刊》把我的發明選為1988年最重要的科學發明。年僅26歲初出茅廬的我,第一次亮相就獲得這樣的成功,讓我感到很幸運,也讓我有了繼續向科技高峰攀爬的動力。