活動報導

【雲協技術專家專欄】淺談AI自然語言技術發展與應用

字級:
小字級
中字級
大字級
友善列印

中華電信研究院副院長、雲協技術專家委員會委員 陳榮貴

市場趨勢

隨著資訊科技不斷進步,人機互動介面從傳統的鍵盤、滑鼠、觸控螢幕,進展到新一代的自然語音互動。這幾年最為人所知的語音互動產品當屬智慧音箱,如Amazon Echo、Google Nest、Apple HomePod等,使用者透過聲控來播放音樂、廣播、故事等有聲內容,也可以控制家庭內的各種連網家電或裝置。其他如語音助理(Google Assistant、Google Duplex、Amazon Alexa、Apple Siri等),透過語音對話可代理人們處理生活大小事,甚至幫忙打電話到餐廳訂位或訂餐。大型企業則導入語音智慧客服,改善傳統客服中心按鍵式語音流程的繁複,改以全程語音互動機器人來回應,提供快速便捷的自助服務。也有越來越多汽車配備語音互動功能,駕駛及乘客可透過語音來操控車上影音娛樂與設施,提高便利性與安全性。而這一兩年各方追捧的元宇宙浪潮,自然語言人機介面更不可或缺。我們可以預期,隨著技術的持續進展,以自然語言作為操作介面及提供服務的模式將普及到各種生活層面。

技術現況

語音互動屬於電腦自然語言處理範疇,關鍵技術包含「語音辨識」:將使用者說的語音轉成文字(Speech-to-Text, STT);「語意理解與對話」:進行意圖理解及對話文句的生成;「語音合成」:將對話文字合成語音訊號(Text-to-Speech, TTS)播放出來。另一個相關領域是「文本分析」,主要是從非結構性文字資料探索感興趣的資訊及挖掘有用的知識,例如熱詞/關鍵詞、文本理解、文本分類、主題分析、摘要生成、情緒分析等應用。

「語音辨識」發展至今已有六十多年歷史,傳統的語音辨識系統主要分成三步驟:(1)聲學模型(Acoustic model),將輸入音頻(Audio)轉換成音素(Phoneme);(2)發音詞典(Lexicon),將聲學模型產生的音素轉換成字(Word);(3)語言模型(Language Model),將各候選字組合成最終句子(Sentence)。自從AI深度學習技術崛起,採用AI語音辨識的效果遠勝傳統方法,其方法原則上也是分成聲學模型、語言模型與最佳辨識結果搜尋三部分。另一種「端到端語音辨識架構」則是將上述三部分統合使用深度學習技術一次性地完成,採用此方法可簡化語言知識來建構系統,開發者即便對目標語言沒有充分的背景知識也可以使用這項技術;且相較於傳統模型,端到端的模型較小,更適合用在邊緣運算上。

在1990年代前,「語音合成」主要是根據語音學家的專業知識,以人工來訂定每個聲音基本單元,並利用Source Filter 模型產生聲音,這些方法多是以規則法來進行語音合成。之後盛行以大量錄製語料來產生合成語音,其中主要二類方法為串接式語音合成(Concatenative Synthesis)及統計方式參數式語音合成(Statistical Parametric Synthesis)。目前主流AI語音合成則是將傳統的前端文字處理,包含字母轉音素(Grapheme to Phoneme)、文脈分析(Contextual Analysis)、語言模型 (Language Model)等各個子系統所建構出來的輸入文句表示法,與後端的聲碼器 (Vocoder)統整成為一套透過深層類神經網路所建構的系統,其所合成的語音在理解度 (Intelligibility)或自然度(Naturalness)幾達以假亂真的程度。

「語意理解與對話」包含語意理解、對話管理、對話生成等關鍵技術,市面上常見對話機器人有「文字機器人」與「智慧語音助理」。文字機器人多半採用規則法或關鍵字觸發回應,提供引導選單,由使用者自行閱讀理解後,點擊正確的超連結及回應資訊,技術門檻較低。許多Line、FB messenger上的chatbot便是採行此方式,但只要用戶問題不在引導選單中,chatbot便難以回應。至於智慧語音助理則是讓使用者用說話的就能查找資訊、播放音樂、啟動遊戲、地圖導航、控制家電等。這種結合語音辨識的理解與對話技術具較高挑戰度,因為使用者的講法千千百百種,須依據對話當下的前後文、時空情境,才能正確的判斷意圖,即便是國際大廠,目前大部分仍只能處理一問一答或少量的多輪任務對話。

「文本分析」技術早期主要基於統計式或規則式演算法,透過閱讀大量類似字典的文章段落,再讓演算法計算單字、句子出現的頻率。此種作法無法有效地辨識複雜的文法,其所產生的字句也相對生硬且結構不佳。近年來隨著AI深度學習演算法的突破,已能更妥適處理上述問題;國際大廠競相投入「大型預訓練模型」發展,例如BERT、GPT2/GPT3等,以大規模的運算基礎設備及超大量資料,訓練出可理解多國語言及多用途的NLP模型。此類以大量未標註的語料訓練而成的預訓練模型,已內化許多人類自然語言的使用習慣,實際應用時只要再加上部分該領域標註資料做訓練,便可達到不錯的效果。

落地應用的關鍵議題

a. 語音辨識

早期語音辨識技術的主要挑戰是大詞彙(Large Vocabulary)、非特定語者(Speaker Independent)、連續話語(Continuous Speech)。到了2010年代新的挑戰則是大領域詞(Large Domain)辨識、非特定錄音(Recording Independent)辨識與即興口語(Spontaneous Speech)辨識。 “大領域詞辨識“主要是要解決各類應用(如醫院、工廠、法院…)的特殊領域詞議題,可透過蒐集案場相關文字或語音資料,再調適語言模型或聲學模型以提升辨識率。“非特定錄音辨識“則是要克服錄音雜訊、錄音語者及錄音通道等變異因素,通常需要針對應用場域聲學特性及口音進行訊號處理與模型調適。“即興口語辨識“這類型情境則是面對不流暢語音、不完整文法、多語言夾雜等問題,可採用前述的端到端語音辨識架構來改善。

b. 語音合成

從2016年Google DeepMind提出WaveNet架構到2018年的acotron2+WaveNet,語音合成品質已達到MOS(Mean Opinion Score) 4.53,略低於真人4.58的程度。不過在實際應用時,仍會面對推論速度、目標語者語料受限、多語言與多情緒變化的需求。故近年語音合成技術的發展重點朝向多語言夾雜、AI模型加速、客製化特定語者聲音及情緒語音合成等與應用情境更貼近的議題。

c. 語意理解與對話

各種對話應用情境所面臨的語意理解需求不盡相同,也都不容易處理,以下列舉幾個常見的狀況:

  • 使用者的語句常常是簡略、缺動詞或不連貫  不規則的停頓、類無意義的發語詞或無意識的回應
  • 一句話涵蓋多項資訊或多主題交錯,超過系統原設計的預期  使用者說出超過應用系統可處理範圍的語句
  • 語音辨識(音轉字)不可避免的同音詞彙、缺漏字及辨識錯誤

以現今全球頂尖AI語意理解技術實際應用的狀況來看尚處於起步階段,許多實際複雜的問題仍待克服。

d. 文本分析

主流大型預訓練模型如BERT、GPT2/GPT3在技術、資料量及運算力門檻很高,國際大廠相繼投入大把資源競逐,進入白熱化的AI軍備競賽階段。然而在落地應用時,仍深受領域詞彙、內容及語意表達方式的影響,需要搭配一定數量的領域標註資料來重新訓練或強化AI模型,才有辦法提供正確性的文本分析結果。此外,單純的以文本內容來做分析還無法精準的呈現其內涵,例如客服對話的情緒分析需綜合語音來判斷才會準確。因此能同時理解文字、聲音、影像的多模態AI文本分析成為近期研究主流之一。

中華電信應用案例

中華電信投入電腦自然語言研究已有三十年以上,早期語音辨識主要採用統計式演算法,搭配語音拼接或參數式的語音合成技術,歷年來已應用於多個領域,例如:104語音自動辨識查號、聲控總機、117報時台、166/167天氣預報及視障輔助等應用。近年導入AI深度學習技術,運用自有的大量語料,進一步提升本土語音辨識率,音轉字正確率達90%以上,語音合成品質也提升至MOS 4.1以上。

中華電信的AI自然語言技術特別著重於本土化語言(國/台/英/客)需求,研發可因應不同場域、口音、終端、語句的語音辨識,可支撐多語者、不同情緒、不同語言、個人化仿聲的語音合成,可理解在地化中文及意圖的對話機器人、知識問答、文本分析、文本生成等。茲介紹數項應用案例如下:

a. i寶貝

於2019年推出全台唯一以自主在地化語音技術為核心的「i寶貝」智慧音箱商用服務,結合台灣音箱、遙控器、家電等製造商及有聲內容業者,提供用戶可以國/台/英三種語言聲控方式查詢生活資訊、播放串流媒體與控制家電設備,共計提供32項以上的有聲服務,介接24項以上智慧家電設備。此技術也應用在MOD聲控,用戶可以用遙控器聲控選台、調音量、快速查詢影片等,提供更便利的使用體驗。

一一

b. AI智慧客服

2019年國內首創以全AI語音互動,於中華電信客服導入「語音導航機器人」服務,進線客戶可減少傳統按鍵選單操作之繁瑣,全程用講的方式進行業務選擇、核對身分及自助服務,大幅免除忙線等待的不便,同時減少客服人員處理時間;平均每月自動核證數量超過50萬通以上,核證辨識率超過90%,每通平均可節降人工處理時間約30秒,成效卓著。同時也推出文字客服機器人「Q寶」,讓客戶可以透過文字交談方式,快速詢問及辦理電信業務,這項服務目前也占了整體客戶服務很大的使用比例。此外我們也推出「外撥問訪機器人」,取代人工做滿意度問卷調查,透過機器人進行外撥問訪可以減少客服人力需求,以更有效快速的方式來進行作業。

c. DeepVoice客戶心聲分析

擁有大量客服語音及文本資料的企業,如能進一步對這些資料進行解析,可以進一步洞察客戶心聲,了解客服品質及客戶需求,提供更好的服務體驗。中華電信推出以AI語音辨識及文本分析技術為基礎之「DeepVoice」客戶心聲分析解決方案,可對語音及文本資料進行重點摘錄、意圖擷取、情緒分析、主題分群、趨勢預測等分析,結合視覺化工具,針對特定事件與趨勢變化進行分析、告警及預測。

未來展望

AI自然語言技術發展尚處於具備感知能力的弱人工智慧階段,但產業界已發展了不少實用案例,產學研各界也持續在技術及創新應用上努力突破。在語音辨識方面,將更著重在多樣複雜的在地化多語言夾雜辨識、多語者混雜分離、辨識率強韌性提升、特定領域快速客製等方向;在語音合成方面,則著重在語音更擬真人化、極少語料仿聲、情緒語音合成、跨語言轉換等技術;在語意理解與對話方面,則著重在智慧語意理解、上下文相關多輪對話、對話內容自動生成等議題;至於文本分析方面,大型預訓練模型及多模態分則是發展重點。

自然語言是人類與生俱來的能力及文明與生活的一部分,要電腦能靈活的理解與運用,絕對是AI科技的一大挑戰。人們所嚮往的真正AI自然語言助理或認知機器人尚未出現,對話式AI仍是未來5~10年眾所矚目的重要發展趨勢,並逐步朝整合語音、影像、文字等多模態感知與理解的方向前進,期待突破科技與應用的瓶頸,推動人類生活邁向更美好的未來。

TOP