【雲協技術專家專欄】淺談AI自然語言技術發展與應用

中華電信研究院副院長、雲協技術專家委員會委員陳榮貴

市場趨勢

隨著資訊科技不斷進步，人機互動介面從傳統的鍵盤、滑鼠、觸控螢幕，進展到新一代的自然語音互動。這幾年最為人所知的語音互動產品當屬智慧音箱，如Amazon Echo、Google Nest、Apple HomePod等，使用者透過聲控來播放音樂、廣播、故事等有聲內容，也可以控制家庭內的各種連網家電或裝置。其他如語音助理(Google Assistant、Google Duplex、Amazon Alexa、Apple Siri等)，透過語音對話可代理人們處理生活大小事，甚至幫忙打電話到餐廳訂位或訂餐。大型企業則導入語音智慧客服，改善傳統客服中心按鍵式語音流程的繁複，改以全程語音互動機器人來回應，提供快速便捷的自助服務。也有越來越多汽車配備語音互動功能，駕駛及乘客可透過語音來操控車上影音娛樂與設施，提高便利性與安全性。而這一兩年各方追捧的元宇宙浪潮，自然語言人機介面更不可或缺。我們可以預期，隨著技術的持續進展，以自然語言作為操作介面及提供服務的模式將普及到各種生活層面。

技術現況

語音互動屬於電腦自然語言處理範疇，關鍵技術包含「語音辨識」：將使用者說的語音轉成文字(Speech-to-Text, STT)；「語意理解與對話」：進行意圖理解及對話文句的生成；「語音合成」：將對話文字合成語音訊號(Text-to-Speech, TTS)播放出來。另一個相關領域是「文本分析」，主要是從非結構性文字資料探索感興趣的資訊及挖掘有用的知識，例如熱詞/關鍵詞、文本理解、文本分類、主題分析、摘要生成、情緒分析等應用。

「語音辨識」發展至今已有六十多年歷史，傳統的語音辨識系統主要分成三步驟：(1)聲學模型(Acoustic model)，將輸入音頻(Audio)轉換成音素(Phoneme)；(2)發音詞典(Lexicon)，將聲學模型產生的音素轉換成字(Word)；(3)語言模型(Language Model)，將各候選字組合成最終句子(Sentence)。自從AI深度學習技術崛起，採用AI語音辨識的效果遠勝傳統方法，其方法原則上也是分成聲學模型、語言模型與最佳辨識結果搜尋三部分。另一種「端到端語音辨識架構」則是將上述三部分統合使用深度學習技術一次性地完成，採用此方法可簡化語言知識來建構系統，開發者即便對目標語言沒有充分的背景知識也可以使用這項技術；且相較於傳統模型，端到端的模型較小，更適合用在邊緣運算上。

在1990年代前，「語音合成」主要是根據語音學家的專業知識，以人工來訂定每個聲音基本單元，並利用Source Filter 模型產生聲音，這些方法多是以規則法來進行語音合成。之後盛行以大量錄製語料來產生合成語音，其中主要二類方法為串接式語音合成(Concatenative Synthesis)及統計方式參數式語音合成(Statistical Parametric Synthesis)。目前主流AI語音合成則是將傳統的前端文字處理，包含字母轉音素(Grapheme to Phoneme)、文脈分析(Contextual Analysis)、語言模型 (Language Model)等各個子系統所建構出來的輸入文句表示法，與後端的聲碼器 (Vocoder)統整成為一套透過深層類神經網路所建構的系統，其所合成的語音在理解度 (Intelligibility)或自然度(Naturalness)幾達以假亂真的程度。

「語意理解與對話」包含語意理解、對話管理、對話生成等關鍵技術，市面上常見對話機器人有「文字機器人」與「智慧語音助理」。文字機器人多半採用規則法或關鍵字觸發回應，提供引導選單，由使用者自行閱讀理解後，點擊正確的超連結及回應資訊，技術門檻較低。許多Line、FB messenger上的chatbot便是採行此方式，但只要用戶問題不在引導選單中，chatbot便難以回應。至於智慧語音助理則是讓使用者用說話的就能查找資訊、播放音樂、啟動遊戲、地圖導航、控制家電等。這種結合語音辨識的理解與對話技術具較高挑戰度，因為使用者的講法千千百百種，須依據對話當下的前後文、時空情境，才能正確的判斷意圖，即便是國際大廠，目前大部分仍只能處理一問一答或少量的多輪任務對話。

「文本分析」技術早期主要基於統計式或規則式演算法，透過閱讀大量類似字典的文章段落，再讓演算法計算單字、句子出現的頻率。此種作法無法有效地辨識複雜的文法，其所產生的字句也相對生硬且結構不佳。近年來隨著AI深度學習演算法的突破，已能更妥適處理上述問題；國際大廠競相投入「大型預訓練模型」發展，例如BERT、GPT2/GPT3等，以大規模的運算基礎設備及超大量資料，訓練出可理解多國語言及多用途的NLP模型。此類以大量未標註的語料訓練而成的預訓練模型，已內化許多人類自然語言的使用習慣，實際應用時只要再加上部分該領域標註資料做訓練，便可達到不錯的效果。

落地應用的關鍵議題

a. 語音辨識

早期語音辨識技術的主要挑戰是大詞彙(Large Vocabulary)、非特定語者(Speaker Independent)、連續話語(Continuous Speech)。到了2010年代新的挑戰則是大領域詞(Large Domain)辨識、非特定錄音(Recording Independent)辨識與即興口語(Spontaneous Speech)辨識。 “大領域詞辨識“主要是要解決各類應用(如醫院、工廠、法院…)的特殊領域詞議題，可透過蒐集案場相關文字或語音資料，再調適語言模型或聲學模型以提升辨識率。“非特定錄音辨識“則是要克服錄音雜訊、錄音語者及錄音通道等變異因素，通常需要針對應用場域聲學特性及口音進行訊號處理與模型調適。“即興口語辨識“這類型情境則是面對不流暢語音、不完整文法、多語言夾雜等問題，可採用前述的端到端語音辨識架構來改善。

b. 語音合成

從2016年Google DeepMind提出WaveNet架構到2018年的acotron2+WaveNet，語音合成品質已達到MOS（Mean Opinion Score） 4.53，略低於真人4.58的程度。不過在實際應用時，仍會面對推論速度、目標語者語料受限、多語言與多情緒變化的需求。故近年語音合成技術的發展重點朝向多語言夾雜、AI模型加速、客製化特定語者聲音及情緒語音合成等與應用情境更貼近的議題。

c. 語意理解與對話

各種對話應用情境所面臨的語意理解需求不盡相同，也都不容易處理，以下列舉幾個常見的狀況：

使用者的語句常常是簡略、缺動詞或不連貫  不規則的停頓、類無意義的發語詞或無意識的回應
一句話涵蓋多項資訊或多主題交錯，超過系統原設計的預期  使用者說出超過應用系統可處理範圍的語句
語音辨識（音轉字）不可避免的同音詞彙、缺漏字及辨識錯誤

以現今全球頂尖AI語意理解技術實際應用的狀況來看尚處於起步階段，許多實際複雜的問題仍待克服。

d. 文本分析

主流大型預訓練模型如BERT、GPT2/GPT3在技術、資料量及運算力門檻很高，國際大廠相繼投入大把資源競逐，進入白熱化的AI軍備競賽階段。然而在落地應用時，仍深受領域詞彙、內容及語意表達方式的影響，需要搭配一定數量的領域標註資料來重新訓練或強化AI模型，才有辦法提供正確性的文本分析結果。此外，單純的以文本內容來做分析還無法精準的呈現其內涵，例如客服對話的情緒分析需綜合語音來判斷才會準確。因此能同時理解文字、聲音、影像的多模態AI文本分析成為近期研究主流之一。

中華電信應用案例

中華電信投入電腦自然語言研究已有三十年以上，早期語音辨識主要採用統計式演算法，搭配語音拼接或參數式的語音合成技術，歷年來已應用於多個領域，例如：104語音自動辨識查號、聲控總機、117報時台、166/167天氣預報及視障輔助等應用。近年導入AI深度學習技術，運用自有的大量語料，進一步提升本土語音辨識率，音轉字正確率達90%以上，語音合成品質也提升至MOS 4.1以上。

中華電信的AI自然語言技術特別著重於本土化語言(國/台/英/客)需求，研發可因應不同場域、口音、終端、語句的語音辨識，可支撐多語者、不同情緒、不同語言、個人化仿聲的語音合成，可理解在地化中文及意圖的對話機器人、知識問答、文本分析、文本生成等。茲介紹數項應用案例如下：

a. i寶貝

於2019年推出全台唯一以自主在地化語音技術為核心的「i寶貝」智慧音箱商用服務，結合台灣音箱、遙控器、家電等製造商及有聲內容業者，提供用戶可以國/台/英三種語言聲控方式查詢生活資訊、播放串流媒體與控制家電設備，共計提供32項以上的有聲服務，介接24項以上智慧家電設備。此技術也應用在MOD聲控，用戶可以用遙控器聲控選台、調音量、快速查詢影片等，提供更便利的使用體驗。

一一

b. AI智慧客服

2019年國內首創以全AI語音互動，於中華電信客服導入「語音導航機器人」服務，進線客戶可減少傳統按鍵選單操作之繁瑣，全程用講的方式進行業務選擇、核對身分及自助服務，大幅免除忙線等待的不便，同時減少客服人員處理時間；平均每月自動核證數量超過50萬通以上，核證辨識率超過90%，每通平均可節降人工處理時間約30秒，成效卓著。同時也推出文字客服機器人「Q寶」，讓客戶可以透過文字交談方式，快速詢問及辦理電信業務，這項服務目前也占了整體客戶服務很大的使用比例。此外我們也推出「外撥問訪機器人」，取代人工做滿意度問卷調查，透過機器人進行外撥問訪可以減少客服人力需求，以更有效快速的方式來進行作業。

c. DeepVoice客戶心聲分析

擁有大量客服語音及文本資料的企業，如能進一步對這些資料進行解析，可以進一步洞察客戶心聲，了解客服品質及客戶需求，提供更好的服務體驗。中華電信推出以AI語音辨識及文本分析技術為基礎之「DeepVoice」客戶心聲分析解決方案，可對語音及文本資料進行重點摘錄、意圖擷取、情緒分析、主題分群、趨勢預測等分析，結合視覺化工具，針對特定事件與趨勢變化進行分析、告警及預測。

未來展望

AI自然語言技術發展尚處於具備感知能力的弱人工智慧階段，但產業界已發展了不少實用案例，產學研各界也持續在技術及創新應用上努力突破。在語音辨識方面，將更著重在多樣複雜的在地化多語言夾雜辨識、多語者混雜分離、辨識率強韌性提升、特定領域快速客製等方向；在語音合成方面，則著重在語音更擬真人化、極少語料仿聲、情緒語音合成、跨語言轉換等技術；在語意理解與對話方面，則著重在智慧語意理解、上下文相關多輪對話、對話內容自動生成等議題；至於文本分析方面，大型預訓練模型及多模態分則是發展重點。

自然語言是人類與生俱來的能力及文明與生活的一部分，要電腦能靈活的理解與運用，絕對是AI科技的一大挑戰。人們所嚮往的真正AI自然語言助理或認知機器人尚未出現，對話式AI仍是未來5~10年眾所矚目的重要發展趨勢，並逐步朝整合語音、影像、文字等多模態感知與理解的方向前進，期待突破科技與應用的瓶頸，推動人類生活邁向更美好的未來。

活動報導