三星電子日前宣布將打造一個「個人化AI生態系統」,以反映用戶使用習慣為核心,主要聚焦於「多模態AI」技術,能夠整合並識別語音、視覺等各種形式的資訊。
三星的最終目標,是要實現一個「客製化AI助理」,不僅限於智慧型手機,而是透過三星AI生態系統中的所有電子設備和周邊裝置,都能理解用戶的意圖和情境脈絡。今天就讓我們來探討這些逐漸融入日常生活的AI助理背後所隱藏的技術。
「你叫的是誰?」-語音指令設備與AI助理的互動機制
隨著科技進步,具備語音識別功能的設備數量持續增加,「智慧助理」的重要性也日益提升。過去的語音識別技術僅能做到「用嘴巴按按鈕」的程度,無法識別未經預先學習的指令。然而現在,它已展現出精密且先進的識別能力,能夠與人類進行對話。

KR10-2023-7034829,語音命令設備中與智慧助理的多模式交互
三星電子最近註冊了一項名為「語音指令設備中與智慧助理的多模態互動」專利。這項技術不僅適用於三星製造的智慧型手機、平板電腦、智慧手錶等「Galaxy生態系」設備,更擴展到三星的家電產品和汽車等更廣泛的電子設備。
這項技術可以說是能夠識別用戶在多個語音識別設備環境中使用哪個設備呼叫智慧助理,並決定助理如何在該特定設備上進行互動。考慮到目前多個設備都朝向整合為單一「智慧助理」的趨勢,這項技術能讓AI準確且智慧地執行指令。此外,它還能防止當呼叫智慧型手機的AI助理時,周圍所有設備同時回應的「合唱現象」。
「多模態AI如何變得更聰明」-多模態資料學習方法
相較於較簡單的傳統AI方法(例如文字對文字AI),多模態AI通常需要處理更複雜的資訊。這是因為它必須同時識別來自兩個或更多不同領域的資訊,找出資料之間的關聯性,並提供適當的答案。

KR10-2018-0029403,學習多模態資料的方法與裝置
根據三星公開的專利,多模態AI的資料學習方法是將不同的訊號在各自的網路中處理,然後理解這些訊號的情境脈絡,分析它們的關聯性,並訓練推導用戶隱藏意圖的過程。
讓我們想像一下,指著一個放有洋裝和運動服的衣櫃說:「為聚會挑選一套服裝。」AI會理解情境:「需要在衣櫃中找到符合條件的東西」和「需要聚會用的服裝」。然後分析它們的關聯性來推導意圖:「用戶想要為聚會找到正式的服裝。」基於這個推導出的意圖,AI得出結論:「洋裝會是不錯的選擇。」
多模態AI的學習方法旨在讓AI具備更廣泛的問題解決能力,透過培養理解多方資訊情境脈絡和提取隱藏資訊的能力,使其能在任何情況下都能派上用場。
「像真人一樣看東西的多模態AI?」-多物件視覺搜尋技術
如前所述,多模態AI的最終目標是實現「理解意圖和情境脈絡並準確執行指令的智慧助理」。儘管它已進步到能夠像與朋友對話一樣分享當前情況來處理資訊,但與傳統AI相比,要執行給定指令時仍需要事先學習才能知道在哪裡尋找視覺資訊,因此仍有很長的路要走。

KR10-2023-0104283,用於多目標視覺搜尋任務的多模態深度學習模型
然而,高麗大學的專利「用於多物件視覺搜尋任務的多模態深度學習模型」,如果與多模態AI結合,可能能夠實現精密的AI。這項專利涉及同時運用文字和影像分析技術,根據與給定影像相關的物件資訊來預測用戶預期焦點的方法。
例如,假設指令是「在這個廚房中找到烤箱和冰箱。」傳統方法如果沒有指定焦點路徑,可能會採取效率不高的焦點路徑,例如先掃描天花板,然後再移動到其他區域。但是,如果應用這個模型,它可以從「冰箱」和「烤箱」的語意屬性中提取「位於地板或牆壁」等特徵,從而採用高效的焦點路徑,例如先掃描牆壁或地板,然後再移動到周圍區域。
如果這樣的技術與Google的「Gemini Live」等即時多模態AI服務結合,透過快速處理用戶傳送的資訊,可能有助於實現真正「看得見、說得出」的類人AI。
解決「找不到適合OO的答案」-專有名詞學習方法
傳統語音識別AI的缺點是,如果詞彙沒有經過預先學習,就無法正確識別用戶的話語(例如三星的Bixby將「火鍋」誤解為「拍攝」),或者傾向於不準確地推導詞彙,導致錯誤答案。這些缺點在最近追求與人類自然溝通的AI趨勢中,可能成為致命弱點。

KR10-2011-0079586,在連續語音辨識系統中向語言模型添加新專有名詞的裝置和方法
韓國電子通信研究院(ETRI)申請的這項專利,是一種當遇到現有學習模型中不存在的專有名詞時,將其與現有學習資料進行比較對照,過濾出適當的句子候選,從而獲得關於該專有名詞新資訊的技術。當這項技術與多模態AI整合時,AI在遇到陌生物件或未聽過的專有名詞時,可以結合其他資訊來學習新的專有名詞。透過這樣的方式,我們可以期待AI有更自然的互動表現。
多模態技術:加速與AI的真正共存
今天我們探討了多模態AI技術。隨著AI開發快速進展,它在我們日常生活中的存在感也不斷增加。多模態AI的發展不僅讓我們的生活更加便利,也讓我們能夠夢想與AI共存,這些技術值得我們關注。
參考資料
