286期
2021 年 06 月 09 日
  北美智權官網 歷期智權報   訂閱北美智權報  
 
AI語音辨識的產業應用
芮嘉瑋╱工研院 技術移轉與法律中心


圖片來源:Unsplash

語音辨識在應用的概念上,是訓練一個AI模型去偵測聲音並傳送一個文字訊息或語意理解後轉成語音命令來控制智慧裝置,讓人類生活因智慧科技而更加便利。基於產業對於AI語音辨識之需求,透過語音辨識雲端服務可提供產業進行客製化語音辨識模型,達到智慧控制或操作之模式以協助相關產業進行人機互動的創新應用。如圖1所示,包括智慧居家、語音助理、車聯網、行動載具等皆以雲端服務的形式運作,透過應用程式介面 (Application Programming Interface,簡稱API)[1]隨時接受使用者提出的需求。

圖1.  AI語音辨識的產業應用示意圖

 圖片來源:https://www.nchc.org.tw/Page?itemid=15&mid=27

許多新創IT公司與大企業都看好語音辨識的應用,紛紛投入AI語音辨識領域,並持續提升其辨識的精確度。當下AI語音辨識功能已進入市場的戰國時代,已可在電視產業、智慧音箱等智慧家電市場、急救市場、保險業市場、客服市場,以及會議記錄製作、文書化作業、企業面試輔助選才等不同領域,達到個人消費市場與產業界所需要的技術水準。同時也滲透延伸至車內場域搶佔車載語音應用商機,並幫助語言障礙者的話更能被聽懂而成為語言障礙者精準的傳聲筒。

AI語音辨識導入智慧家電  

在智慧音箱(或稱智慧喇叭)方面,智慧音箱係使用語音對話和使用者互動,透過內部系統的語音助理從語音辨識理解使用者的指令並忠實的執行,可用來操控音樂撥放、查詢天氣或交通資訊等各種服務,就像是輔助生活起居的管家,貼心地服務每一位使用者。近年Amazon、Google、Apple及Line等大廠相繼展示自家的智慧喇叭,以LINE來說,Line自2017年發表雲端AI技術平台Clova (簡稱Clova AI) 後,將自家的Clova AI放進智慧喇叭而相繼推出智慧喇叭Clova WAVE及智慧喇叭Clova Friends等搭載Clova AI的周邊產品,作成受歡迎的LINE Friends造型,除了可愛之外還有與使用者對話互動、氣象預報、提供時事新聞、語音遙控等功能。

此外,在電視家電方面,樂金電子 (LG Electronics) 電視事業為對抗Sony、Panasonic等日本消費性電子巨頭,在較偏好本土品牌的日本電子產品市場,透過日語AI語音辨識功能提升競爭力,包括於日本銷售的OLED TV以及於Nano Cell LCD TV等中高階機種追加搭載人工智慧(AI)語音辨識功能,有助提高樂金電視產品親和力。[2]

AI語音辨識導入會議紀錄製作

為縮短文書作業時間,利用AI語音辨識功能分析說話者內容,並自動製作逐字文字檔的服務,已開始打入日本企業及公家機關市場。日本電信大廠NTT集團的NTT出版 (NTT Publishing)與NTT TechnoCross合作,運用雲端語音資料轉換為文書資料的深度學習人工智慧,可以將30分鐘的演講在30分鐘內即時轉換為文字資料。日本IT大廠NEC進一步研究,降低AI語音識別所需要的發音時間及誤認率,並進行語音特徵識別作為認證系統的使用,以利其商用化。日本電機大廠東芝 (Toshiba) 也開發精進的會議紀錄系統,強調逐字會議記錄正確率達85%,且會自動辨識不需要的發語詞或重複字句,以提高會議紀錄製作效率。[3]

AI語音辨識導入急救市場文書化作業服務

日本已有急救單位引進人工智慧的語音識別服務。日本千葉大學(Chiba University) 設立的新創企業Smart119,利用人工智慧語音辨識提供消防隊與急診用的語音服務,並導入文書化作業,目的是讓急救人員現場的問話可以即時文字化提供醫院,讓急診室人員先行準備,同時節省製作病歷等文書作業的時間[4];目前仍有雜音干擾識別及醫學專有名詞分析能力不足等問題,用於急救場域的AI語音識別技術需要提升識別精確度來克服這方面的不足。[5]

AI語音辨識導入保險業務系統

在日本主要經營聲音辨識系統相關事業的Advanced Media為提高語音辨識的精確度,研發過程中將日常口語、文章用語、電話對話等不同類型的人聲對話,分別以不同的AI程式依據不同狀況進行辨識,研發出iPhone 3GS專用的語音辨識認證技術,並已導入日本AIGedison保險公司的業務系統中,讓保險營業員外出時可透過語音直接經由iPhone 3GS安全存取公司內電子郵件系統或顧客個人契約資訊[6]。此外,撰寫與寄送公司內部電子郵件、地圖搜尋、顧客資料庫搜尋等全都能透過語音來執行,使營業員在進行業務時能以更加方便的模式拓展客源或服務客戶,成為保險業新型態的業務模式。

AI語音辨識導入面試初階篩選

AI面試官主要是基於語音實時轉移、關鍵詞提取匹配、語義理解來判斷求職者是否和職位描述想匹配。換言之,這種AI智能面試系統往往是結合AI領域中之語音辨識演算法及自然語言處理(NLP),以問答形式來獲取一些職位匹配相關的關鍵信息。

基於新冠病毒大流行,許多大型企業已開始利用AI面試 / Digital Interview輔助選才,例如HireVue開發的AI招聘系統,結合了攝影機和電腦運算,協助企業進行初步篩選,讓應徵者透過電腦或手機的視訊設備來接受面試,面試時只要回答螢幕上的問題,並將過程拍攝下來,再交由AI演算法來分析,可協助企業對人才進行初步篩選[7]。像高盛 (Goldman Sachs) 及聯合利華 (Unilever) 等知名企業就開始採用HireVue的AI面試平台來為畢業生培訓計畫進行選才。再者,日本人才公司En Japan的測試軟體係依據個人基本資料、工作專長技能、性格特徵等資料,讓即將畢業的大學生對著一台只會發問的手機,進行長達一個小時、一問一答的面試;面試包含126個問題,收集近15年的面試問答訓練而成[8]。此類「面試官」藉助語音辨識算法來統計語音、語調等,對應聘者的反應速度、心理情緒等進行分析。此外,這種AI智能面試系統也借助NLP算法,對回答進行關鍵詞和語義分析,結合與企業業務和職位需求的相關問題,進行匹配度的初始判斷。

從目前潮流來看,不少招聘平台以AI智能面試系統進行初篩,在AI演算法的輔助下,大幅縮減人資部門篩選人才所需的時間,企業能在更短的時間內審視更多求職者資訊並做出更客觀的判斷,包括求職者是否符合企業文化[9]

AI語音辨識滲透延伸至車內場域

車載資訊娛樂 (In-Vehicle Infotainment;IVI) 系統提供導航、影音播放等功能,為汽車駕駛人開車時帶來方便,但使用時會減低駕駛專注力而導致車禍風險。為減少駕駛人分心造成的危險,於是在車載資訊娛樂系統加入AI語音辨識操控功能。得益於自然語言技術的成熟與語音識別能力的提升,使得AI語音辨識功能從智慧居家滲透延伸至車內場域。以賓士(Mercedes-Benz)汽車推出的A-Class為例,賓士自行研發的車載資訊娛樂系統MBUX結合了AI語音辨識技術,只要透過「您好賓士」喚醒系統,就可以用聲音操控車內各項如影音、導航、空調等功能。駕駛若要調整車內空調溫度,只要開口說「您好賓士,這裡很熱」,無需動手系統就會自動調降空調溫度,方便又安全[10]

車載資訊娛樂系統語音功能演進,已從過去的手機免持通話、語音控制音樂撥放等車載系統的本機語音功能演進至包括如雲端搜尋、自然語言理解和汽車語音助理的雲端語音功能 (圖2)[11]。人工智慧技術的興起確實對於汽車導航、文字簡訊等語音辨識能力的改善精進不少,讓車用情境的對話更為精準。例如蘋果2012年發布Siri,用戶可對著智慧型手機說話,不必逐字輸入就能在雲端搜尋餐廳或查詢天氣;又搭配自然語言理解,使得像微軟 (Microsoft) 的Cortana、亞馬遜(Amazon)的Alexa以及Google的Assistant等科技大廠相繼推出的智能助理,功效顯著提升。其中Google Assistant (Google助理) 利用智慧型手機與車載資訊娛樂系統串接,讓汽車語音得以從雲端資料庫比對文本 (text) 與地圖地址,讓簡訊內容與目的地搜尋更精準,方便駕駛人在開車時快速回應緊急事務與路線導航。

圖2 車載資訊娛樂系統語音功能的演進

圖片來源:DIGITIMES Research,2018

AI語音辨識幫助語言障礙者的話更能被聽懂

依據世界衛生組織 (World Health Organization,WHO) 的統計,全球約有15%的人口患有不同程度的語言障礙,生活周遭像是漸凍人、中風、帕金森氏症等神經系統疾病患者在言語溝通上會有困難,需要時下AI智慧科技的輔助。為使 AI也能幫助語言障礙者進行溝通,Google在I/O 2019大會上發表最新的AI語音技術,展示其對語言障礙者的最新計劃。

Google的Project Euphonia 團隊透過 Google 軟體把錄下的語音轉成聲譜圖,或以更視覺化的圖像方式來呈現聲音,再利用聲譜圖訓練系統,優化機器辨識這些非典型的語音資料。Project Euphonia的案例,同年Google也在東京舉辦的AI機器學習論壇上,展現其用科技助人的AI工具,使機器聽懂指令,並使用可辨識手勢、眨眼等電腦視覺模型,讓語言障礙人士更能夠獨立表達。然而,此方法仍有可能因機器選擇到不正確的單字而有溝通上的誤差產生。

因此,Google更進一步以新的深度神經網路研究推出新的計劃Parrotron,堪稱是語言障礙者精準的「傳聲筒」。Parrotron係由單個端到端深度神經網路訓練而成,可將一般人與電腦較難辨識的語音,例如漸凍人或聽障者等非典型語音模式的語言,直接轉換為流利的合成語音,且過程中跳過語音辨識的中間步驟,省去中間的文字轉錄。即便有錯誤發生,藉由Parrotron 端到端語音到語音訓練所生成的輸出語音,在聲音上聽起來和輸入語音的原意已經很接近,讓聽障者能更容易被理解 [12]

AI語音辨識導入客服判別說話者情緒

AI技術不僅能辨識說話者的文字內容分析語意,也能就聲波的變化分析進而判別說話者的情緒,稱之為語音情緒辨識技術。在語音情緒辨識技術上,主要計算音高(pitch)、共振峰(formant)、音框能量 (frame energy)以及梅爾倒頻譜係數(Mel-scale Frequency Cepstral Coefficients, MFCC) 等與語音情緒相關的特徵參數,利用支持向量機 (Support Vector Machine, SVM) 分類器,依特徵參數對情緒進行分類。國外已有不少客服中心 (Call Center) 如Cogito、Beyond Verbal、iMotions等導入此語音情緒辨識技術。因為當客服專員與人應答時,除了掌握對方言語中的需求外,同時要感受對方當下的情感資訊,才夠在提供客觀資訊的同時,適切地給予問候、道歉甚至是安慰、鼓勵等話語。因此未來在自動化的應答服務中,為了掌握對方情感資訊,可加入語音情緒的辨識機制,辨認出使用者的情緒參數,並依據此參數調整合成語調或語句,特別是在應答內容中適度加入具同理心的語調和詞句,如此適當的回應有助於增進客服在感性訴求上的提升[13]

AI語音辨識的應用與展望

Google推出的Parrotron在聲音上聽起來和輸入語音的原意已經很接近了,AI語音辨識幫助語言障礙者的話更能被聽懂,堪稱是語言障礙者精準的「傳聲筒」[14]。然而,AI語音辨識技術當下仍有許多待解決的難點,例如區域口音或帶口音的語音辨識,其辨識的準確率仍是需要解決的一大挑戰。同時,語音不只是表達語言而已,辨識的過程中若將發音人的情緒與其他參數納入語音情緒的辨識機制,在自動化應答服務中適度加入具同理心的語調和詞句,更有助於增進客服在感性訴求上的提升。

近年雖有不少科技公司利用深度學習多層人工神經網路的AI語音辨識技術提升其辨識精準率,然而一個好的神經網路必需仰賴大量的資料,為克服複雜惡劣的聲學環境,AI語音辨識技術勢必會與大數據 (Big data)、物聯網 (IoT) 等技術結合,以突破AI聲學的發展,達到提升人類生活品質的目的。

 

備註:

 

【本文僅反映專家作者意見,不代表本報立場。】

 
作者: 芮嘉瑋
現任: 工業技術研究院技術移轉與法律中心執行長室
學歷: 國立清華大學 奈米工程與微系統研究所 博士
中原大學 財經法律研究所 碩士
國立台灣科技大學 材料科學與工程研究所 碩士
經歷: 工研院電子與光電研究所專利副主委
光電產業智權經理
專長: 創新技術策略分析、科技預測及評估、專利分析與布局、專利檢索與專利分析實務、運用專利分析找出研發方向、產業

 

Facebook 在北美智權報粉絲團上追踪我們       

 





感謝您閱讀「北美智權報」,歡迎分享智權報連結。如果您對北美智權電子報內容有任何建議或欲獲得授權,請洽:Editorial@naipo.com
本電子報所登載之文章皆受著作權保護,未經本公司授權, 請勿轉載!
© 北美智權股份有限公司 & 北美聯合專利商標事務所 版權所有     234新北市永和區福和路389號五樓 TEL:+886-2-8923-7350