人機介面新趨勢──聲控

「會聽話」的機器,是人類科技發展以來的長久夢想,光是從李麥克與霹靂車深植人心的鮮明形象,就可以看出人類多想用說的與機器溝通。聲控或語音辨識技術最早可以追溯至1920年代,比電腦的發展還早。在21世紀以前,我們已經有拍手就可以開啟和關閉的檯燈、糾正發音的語言訓練系統、取代鍵盤的語音聽寫軟體、電話語音撥號技術等等。進入21世紀後,語音辨識系統也講究起「智慧」來了,不管你是台灣國語還是大舌頭,只要多聽幾次,機器也會記得你個人的發音特徵,下次你再下指令的時候,機器就可以使命必達。聲控技術目前最新的發展趨勢是語音辨識結合人工智慧,發展出可以與使用者自然對話的應用軟體,像是Nuance的Dragon和Apple的Siri,這些軟體可以從對話內容理解指令然後予以執行,簡直就跟真人一樣,難怪2011年iPhone 4S推出Siri語音助理時,會引起市場如此大的轟動。

圖片來源:apple.com

 

我們分析語音辨識及語音操控的專利主要是由哪些公司申請的資訊時發現,這些公司的產業分佈相當多元,以電腦、手機設計等高科技業最多(IBM, Microsoft, Siemens),家電產業也不少(Koninkl Philips, Samsung, Sony),幾家汽車大廠也堂堂入列(Volkswagen, Honda)。說話是最自然最方便的人際溝通方式,看來各大產業都很有興趣將說話變成最直覺的人機溝通方式。

 

既然介紹聲控專利,當然得來看看最夯語音助理Siri的專利到底長啥樣,檢索結果找到Apple在2012年初才獲證的專利Intelligent Automated Assistant (US2012016678A)。這個智慧自動助理標榜使用自然語言就可以溝通,還可呼叫外部服務來取得資訊或解決問題,最重要的是它適用於各種平台,像是Web、智慧手機、Email通通沒問題,所以以後Siri要是出現在電腦、電視還是其他連網裝置,都不要覺得奇怪。這份專利還為我們擘畫許多美好未來,不但迷路可以找Siri導航,盯股價、留意喜歡的電視節目、追星或是比價,都有Siri可以幫忙。

US2012016678A圖說

 

智慧語音助理的研發成功,Apple得感謝自己在2010年買下Siri公司,在此之前,Apple也曾經嘗試自行開發,2009年在美國提出的專利申請案CONTEXTUAL VOICE COMMANDS (US2010312547A)就是一例,可惜反應不佳,有人說明明要撥給女友,竟然撥到前女友那裡去。

US2010312547A圖說

 

最後把焦點轉回開頭的李麥克和霹靂車。既然汽車產業對聲控技術這麼投入,讓我們來看看現階段成果如何。Volkswagen的「用於認知超負荷的設備使用者的互動式對話」(Method and system for interactive conversational dialogue for cognitively overloaded device users, US2006074670A)。對話系統可以提供對設備的命令和控制,但問題是自然語言歧義多、代詞多、句子時常不完整,所以造成機器辨識困難,Volkswagen這個專利就提供了解決方案,如圖所示。技術重點有二,一是識別單詞序列中的部分專有名詞,並使用所述領域資訊的模型從單詞序列中確定含意結構;第二是使用所述知識庫在與認知超負荷的使用者的對話的上下文中理解該含意結構;選擇對於認知超負荷的使用者的應答內容。

 

 

所以,不久的將來,您可以如下圖所示般跟您的愛車對話。