對於大多數人而言,打字並不是一種理想的界面。假如我們能和電腦說話,那麼即使是最堅定的反機器分子,大概也會以更大的熱情來使用電腦。但是,目前的電腦仍然又聾又啞。這究竟是為什麼呢?
電腦在語音識別方面一直沒有多大的進展,主要原因不在於缺乏技術,而在於缺乏眼光。每當我在語音識別的成果展示會或產品廣告中,看到人們拿著麥克風說話時,我都很奇怪:難道他們真的忘了,說話最大的價值之一就在於能讓雙手空出來做別的事情嗎?當我看到人們把臉貼近屏幕講話時,我也很奇怪:難道他們忘了,能夠遙控是使用聲音的原因之一嗎?而當我聽到人們要求設計出能夠識別出各個獨立用戶的語音系統時,我問自己:他們是不是忘了,我們是在和個人電腦說話,而不是在和公用電腦說話?為什麼似乎每個人解決問題的著眼點都落在錯誤的方面呢?
原因很簡單。直到最近,我們一直被兩個帶有誤導性的觀念所驅使。第一個觀念是受到老式電話通信系統的影響,希望任何人在任何地方都能拿起話筒對電腦發號施令,而不需要和接線員對話,而且不管說話的人怎樣南腔北調都無關緊要。另外一個揮之不去的想法來自於辦公自動化——我們希望有一種會說話的打字機,我們對著它一口氣不停他說,它能一字不差地把我們的口述轉化成文字記錄下來。由於大家一直只把注意力放在這兩個方面,使我們拖延多年,始終無法實現一些更容易實現的(同時也是有用的)目標,即讓電腦在高度個人化而且互動的環境中,識別並瞭解對話內容。
我們也忽略了說話在文字以外的價值。舉例來說,今天的電腦需要人全神貫注。你通常都必須正襟危坐,同時把注意力放在互動的過程和互動的內容上。在走來走去時使用電腦,或在有多組對話時讓它參與其中的一組,簡直是不可能的。語音識別可以改變這一切。
能夠在一臂遠的距離之外使用電腦,是非常重要的事情。想像一下,假如你和別人說話的時候,他、她的鼻子尖老是湊到你的臉上,那是什麼感覺!我們通常都隔著一定的距離與別人講話,偶爾還會轉過身去同時做些別的事情。甚至有時已經走到別的地方而互相看不見了,還在說著話。這種情況屢見不鮮。我希望有一部在「聽力範圍」之內的電腦,它必須能把說話的聲音和周圍的雜音(例如空調或飛機在頭頂上飛過的聲音)區分開來。
講話勝於文字的另一個原因是,它可以有其他附帶方式來傳遞信息。家裡有小孩或養了寵物的人都知道,怎麼樣講話可能比講什麼話更重要。說話的語氣非常關鍵。例如,不管主人如何吹牛,說他、她寵愛的小狗如何如何,小狗似乎只對語調有反應,它內在的分析複雜詞彙的能力基本為零。
說出來的話除了字面的意思之外,同時傳遞了大量的信息。講話的時候,我們使用完全一樣的字眼,可以表達或激情洋溢、或嘲諷、或憤怒、或閃爍曖昧、或曲意逢迎、或精疲力竭等等不同的情緒。在電腦語音識別的研究中,大家都忽略了這些細微的差異,更糟的是,把它們視為暇疵,而不是特點。然而,正是這些特質,使說話成為比打字更豐富的輸入媒介。讓電腦「聽話」
假如你的外語能力還不錯,但是還不到應對自如的地步,你會發現,要聽懂飽受雜音干擾的新聞廣播實在很困難。相反,對於一個能把外語說得極為流利的人而言,這些雜音充其量只是擾人罷了。識別語言和理解語言,二者密不可分。
目前,電腦無法像你我一樣,先對某件事的意義建立共識,進而理解事物的意義。雖然未來的電腦無疑會具有更多智能,目前我們仍不得不先設法解決機器的語音識別能力問題,而把機器的理解力問題擱置一邊。一旦把這兩項任務予以分化,路該怎麼走就很清楚了,我們必須把口語中的單字,變成電腦可讀的命令(command)。語音識別問題有三個變數:詞彙量、機器對說話者的依賴程度以及字的關聯性,所謂字的關聯性,是指機器能在多大程度上依照人們日常講話中的自然強弱節奏把單字含混在一起。
我們可以把語音識別的這三個方面想像成三維立體軸。在詞彙軸上,需要識別的字越少,對電腦而言就越容易。假如系統事先就知道說話的人是誰,問題就更簡單了。如果說話的人能一個字一個字分開發音,電腦就聽得更明白,識別起來也就更容易。
在這三條軸的起始點,我們可以找到少得不能再少、完全依賴於說話者語音的詞彙,念出這些詞彙的時候,字與字之間必須有明——顯——的——停——頓。
當我們順著任何一條軸移動的時候,也就是說,增加電腦所能識別的詞彙,讓系統能夠服務於任何說話者,或是容許字與字相連的程度越來越高,在這種情況下,每前進一步,都會使問題變得越來越困難。當到達三條軸的遠端時,我們期望電腦能夠識別任何人說的任何字,以及「印(任)何程度」的含混字。人們通常都認為,我們必須在兩條或三條軸上都達到最遠端時,語音識別系統才能對人類有用。這完全不對。
讓我們一個一個來考慮。談到詞彙多寡的時候,我們可能會問:多少才算多呢,500、5000還是5
個字?但這個問題其實應該是:在任何時候,電腦存儲器中究竟需要多少它可以識別的單字?這個問題提示我們把詞彙根據上下文分成組,這樣在需要的時候就可以把大群詞組放進存儲器中。當我要求我的電腦接聽電話時,它會把信息輸入我的電子電話本。當我計劃到什麼地方旅行時,它則把地名輸入到上面。
假如你把詞彙量看成在任何情況下都需要的一組字——稱為「字窗」(wordwindows)一那麼電腦只需要從一個小得多的字音庫中揀字就可以了,這一字音庫只要有500個字左右就夠了,不需要5
個那麼多。
人們所以假設需要有能夠識別各個獨立講話人的語音識別系統,是由於這種功能是過去電話公司的一項要求,電話公司的中央電腦必須能聽懂每個人的話,提供一種「通用服務」。今天,電腦的普及率更高,而且更加個人化。我們在網絡的外圍——通過個人電腦、話筒,或經由一小塊智能卡(smartcard)的協助,能夠完成更多的語音識別。如果我想在電話亭裡和一部航空公司的電腦談話,我可以先接通我的家用電腦或拿出我的袖珍型電腦,讓它先替我把聲音轉換成機器看得懂的信號,然後,再和航空公司的電腦聯絡。
第三個問題是字音的模糊性問題。和電腦說話的時候,我們不希望像一個觀光客對外國小孩說話一樣,誇張地吐出每個單字,而且每念一個字,都停頓一下。因此這個軸最具挑戰性。但是我們也可以把問題稍稍簡化,也就是把語言看成許多字一起發出的聲音,而不是許多單個字的聲音。事實上,處理這種連成一片的字音,很可能正是你的電腦走向個人化的必經過程和必須接受的訓練的一部分。
當我們把講話看成一種互動的和對話的媒介時,我們離語音識別中最容易的那部分已經沒有多遠了。字典裡找不到的字
講話這種媒體常常充斥著字典裡找不到的字音。言談不僅比白紙黑字更多姿多彩,而且對話中的特點,例如形體語言這樣的非文字語言的運用,往往能使對話浮現額外的意義。
1978年,我們在麻省理工學院採用了一套先進的、依賴於說話者發音的、能夠識別連續語音的語音識別系統。但是就像當時和現在的許多同類系統一樣,當說話者的聲音中帶有哪怕些微的緊張時,系統就會失誤。當研究生向我們的贊助者演示這套系統時,我們希望它表現得完美元缺。結果,由於過度焦慮,作演示的研究生聲音繃得緊緊的,系統也就完全失靈。
幾年以後,另外一個學生想到一個絕妙的主意:找出用戶說話時會在什麼地方停頓,並且設走電腦程序,讓電腦在適當的時候發出「啊哈」的聲音;這樣,當一個人和機器說話的時候,機器每隔一會幾就會發出「啊哈——」、「啊——哈」或「啊哈」。這些聲音產生了極大的安撫效果(就好像機器在鼓勵使用者繼續對話),使用者變得比較放鬆,而系統的表現也突飛猛進。
這個觀念體現了兩點重要的意義:第一,並非所有的發音都需要有字面上的意義,在溝通中才有價值;第二,有些聲音純粹只是對話中的禮儀。當你接電話的時候,沒有以適當的間隔對來話人說「嗯」,來話人會變得很緊張,而且最終會探問:「喂,你在聽嗎?」「啊哈」或「嗯」的意思不是「是」、「否」或「也許」它基本上是在傳達一個比特的信息:「我在這裡」。並行的表達
想像一下這樣的情景:你和一群人圍坐在一張桌子旁,同桌的人除了你以外都說法語。你只在中學粗粗修過一年蹩腳的法語、突然有個人轉過頭來對你說:「還要來點幾酒嗎?」你完全聽懂了。接著,這個人把話鋒一轉,談起法國的政治來了。除非你能說流利的法語,否則就跟聽外星人講話一樣(而且即便你法文流利,也不一定能懂)。
你可能會想:「還要來點兒酒嗎?」是小孩都聽得懂的簡單法文,而政治就需要更精深的語言技巧了。不錯,但這並不是兩段對話的重要區別所在。
當有人間你要不要添一點酒的時候,他可能正伸長了手臂去拿酒瓶,眼睛也正注視著你的空酒杯。也就是說,你正在解碼的信息並不只是聲音而已,而是並行而累贅的多重信息。而且,所有的主體和客體都處於同一時空。這種種條件同時作用的結果才使你能聽懂他的意思。
我要重申,累贅是件好事。並行信道(手勢、眼神和談話)的使用是人類溝通的核心。人類自然而然地傾向於使用並行的表達方式。假如你只會講一點點意大利語,和意大利人通電話將會非常辛苦。但當你住進一家意大利旅館,發現房間裡沒有香皂時,你不會拿起電話,而會直接下樓,走到前台值班員那裡,拿出你在語言速成學校學會的所有看家本領,讓他拿香皂給你,你甚至一邊說一邊還會做幾個洗澡的動作。
身在異地時,我們會用盡一切辦法,來傳達我們的意圖,並且解讀所有相關信號,力求索解出哪怕一丁點意思。電腦正是身處這樣的異地——人類的土地上。讓電腦開口
要電腦說話,有兩種方式:重放先前錄下的聲音,或合成字母、音節或(最可能的是)音素的聲音。兩種方式各有利弊。讓電腦說話和音樂的製作一樣,你可以把聲音存儲下來(就像CD一樣),然後重播,也可以採用合成的方式,根據曲調,重制音樂(就像音樂家一樣)。
重述先前存儲的說話內容,也就回到了聽起來最「自然」的口、耳溝通方式,尤其是當我們存儲的是一個完整的訊息時,就更顯得如此。由於這個原因,大多數的電話留言都是以這種方式錄製的。當你試圖把錄好的片段聲音或個別單字拼湊起來的時候,結果就比較不如人意了,因為整體的韻律不見了。
過去,人們不大願意用預錄的談話來作人機界面,因為這樣會消耗電腦大多的存儲容量。今天,它已經不太成問題了。
真正的問題也正是最明顯的問題。你必須提前把話錄下來,才能運用預錄的談話。假如你期望電腦說話的時候,不要把名字弄錯,那麼你就得先把那些名字存儲起來。存儲好的聲音不能適用於隨機的講話。由於這個原因,人們使用了第二種方式——合成。
語音合成器會根據一些規則,把一串文字的內容逐字念出來(就跟你念這句話時沒什麼兩樣)。每一種語言都有所不同,因而合成的難易度也不盡相同。
英語是最難合成的語言之一,因為我們以一種奇怪而且似乎不合邏輯的方式來書寫英文。其他一些語言,例如土耳其語,就容易多了。事實上,要合成土耳其語非常容易,因為基馬爾在1929年把土耳其語從使用阿拉伯字母改為使用拉丁字母,這樣轉換的結果,使聲音和字母之間形成了一一對應,每個字母都發音:沒有不發音的字母或令人困惑的復合元音;因此,在單字的層次上,土耳其語簡直令電腦語音合成器的美夢成真。
即使機器能夠發出每一個和任何一個單字的音,還有別的問題。把合成的字音集合起來,在詞組或句子的層次上,加上整體的節奏和語氣,是非常困難的事情。然而這樣做非常重要,不僅能讓電腦說的話好聽,而且還能根據說話的內容和意圖表現出不同的色彩、表情和語調。否則,電腦發出來的聲音就好像醉酒的瑞典人在喃喃自語一樣單調得讓人倒胃口。
我們現在開始看到(聽到)有些系統正把語音合成和聲音存儲兩種方式結合在一起,隨著數字化越來越普遍,最終的解決方案將是兩者合一。小型化的趨勢
在下一個千年裡,我們會發現我們和機器說的話,與我們和人類說的話一樣多,或甚至比跟人類說的話還要多。和沒有生命的物體說話時,人們最感困擾的似乎是自我意識問題。我們跟狗和金絲雀講話的時候,覺得非常自在,但是和門把手或燈柱說話,就會覺得怪怪的(除非你爛醉如泥)。難道我和烤箱說話的時候會不覺得傻乎乎嗎?大概跟對著電話應答機講話半斤八兩吧。
小型化(miniaturization)的趨勢將使今天的語音輸入比過去更遍及於每一個角落。電腦正變得越來越小,昨天還佔據了整個房間的電腦設備,今天已出現在你的桌面上,明天你更可以把袖珍型電腦戴在手腕上。
許多桌上型電腦用戶都不能充分認識過去10年來電腦體積的縮小幅度,原因是電腦體積的變化包含不同的方面,例如鍵盤的尺寸仍然盡可能保持不變,而顯示器反而變大了。因此,今天桌上型電腦的整體大小仍和15年前的蘋果型機不相上下。
如果你已有很長時間未曾使用調製解調器,調製解調器大小的變化更足以說明真正的變化有多大。不到15年以前,一個速率1200波特的調製解調器(價格約1000美元)幾乎像一個側躺的烤箱一樣大。當時,速率9600波特的調製解調器就像一個放在架子上的大鐵籠子一樣。然而到了今天,你可以在一塊智能卡上找到速率為19200波特的調製解調器。即使已經把調製解調器做成倍用卡般大小,我們仍然有許多空間沒有好好利用,現在的設計有相當部分純粹是為了外型的緣故(為了填滿插口,或是大得讓我們能握住,而不會隨便弄丟)。我們所以沒有把像調製解調器這樣的東西裝在「大頭針頭」上,主要不是技術上的原因,而是因為我們很容易把大頭針隨手亂放,再找起來很困難。
一旦掙脫了手指張開幅度的束縛(手指張開的幅度決定了一個舒適合用的鍵盤的形狀和大小),電腦的大小就會更多地受到衣兜、錢夾、手錶、圓珠筆和其他類似物品的體積的影響。在這種種形式中,信用卡很接近我們想要的最小尺寸,顯示器很小,因此圖形用戶界面變得沒有多少意義了。
筆形的系統很可能被視為笨拙的過渡期工具,既太大,又太小。按鈕式的設計也不理想。看看你的電視機和錄像機遙控器,你就會明白按鈕的局限所在:按鈕式裝置完全是為手指纖細、眼力極佳的年輕人設計的。
由於以上種種原因,小型化的趨勢必然會推動語音製造和語音識別技術的提高,並促使語音識別成為附在小型物體上的電腦的占支配地位的人機界面。實際的語音識別系統不需要一定裝在袖扣和表鏈中。小型裝備可以通過通信而提供幫助。關鍵在於,小型化了以後,就必須靠聲音驅動。打電話,傳心曲
很多年以前,霍爾馬克卡片公司(Hallmarkcards)開發部的主任告訴我,他們公司主要的競爭對手是AT&T。「打電話,傳心曲」的廣告詞說的是,透過聲音,傳達感情。聲音的渠道不僅傳遞了信號,同時也傳遞了所有伴之而來的理解、深思、同情或寬容。我們會說,某人「聽上去」很誠實,這個論點「聽起來」不怎麼可靠,或某件事「聽起來」不像那麼回事。聲音中潛藏了能喚起感覺的信息。
同「打電話、傳心曲」一樣,我們會發現我們也將能通過聲音把我們的希望傳達給機器。有些人會表現得像教官一樣未教導他們的電腦,另一些人則會用理性的聲音。說話和授權密不可分。你會不會對七個小矮人發號施令呢?
有可能的。20年後,你可能對著桌上一群八英吋高的全息式助理說話。這種預想一點也不牽強。可以肯定的是,聲音將會成為你和你的界面代理人之間最主要的溝通渠道。
|
|