::: 回首頁科研成果學研成果

TWCC高速運算服務幫助機器聽懂人說話,而且無師自通

2020.12.04

人工智慧(AI)技術用在英文的語音辨識技術上,已經有實用性相當高的使用範例,例如向Siri或Alexa詢問問題或是控制諸如家用燈光照明的應用情境,讓機器聽得懂英語,就像一種垂手可得的技術,根據統計全球約有七千種語言,期望實現在某一天機器可以全都聽得懂,但事情並不簡單。


台灣大學電機工程學系副教授李宏毅副教授

台灣大學電機工程學系副教授李宏毅副教授


台灣大學電機工程學系副教授李宏毅所領導的團隊,用深度學習來做關於語言與語音理解的研究,簡單的說就是讓機器聽得懂人說話,而且要機器可以無師自通聽懂人說話,其背後主要是使用深度學習的技術,做進一步的研究。李宏毅指出英文與部分語言能達到很好的正確率,都需要使用數萬個小時有標註的語音資料,這種讓語音訊號與文字可以兩兩互相對應的標註資料,進行AI訓練以獲得有效的深度學習演算法,就是時下監督式學習(Supervised learning)的功效,但是產生大量有標註的資料來訓練AI演算法,需耗費巨資、大量人力與時間而打造出來。


所以解決問題就是要機器可以自我學習,尤其利用沒有人類監督可得的標註資料,或是少量的人工標註資料來訓練時,讓機器可以了解人的話語,這種稱為「自我監督學習」(Self-supervised learning)的技術逐漸露出曙光。透過自我學習的方式訓練龐大神經網路,先用未標註的自然語言資料,將類似的聲音訊號與反覆出現的片段找出來,在加以變成一連串編號組成的資料,然後再讓機器推測每一個編號對應的文字,透過人類語言鑑別的程序,反覆鑑別直到生成的句子通過人類可讀的考驗為止。


要完成這個任務,李宏毅使用「生成對抗網路(Generative Adversarial Network,簡稱GAN)」技術,這個技術只用到少量的資料,甚至是沒有成對資料的資料集來訓練AI網路,目前這個技術在基準語料庫範疇內,在沒有使用任何標註資料的情況下,已經可以做到錯誤率在30%左右的效果,約等同於三十年前使用當年的監督式學習所獲得的成果,若加上約100小時的人工標註資料再訓練後,錯誤率可降到21%,再另外加1000個小時的資料,可以一舉降到5%的錯誤率,也就是字正腔圓的電視主播的聲音在沒有雜音條件下是可以被機器聽得懂的程度。


為了增加AI網路的準確率,當GAN網路的模型愈來愈大時,李宏毅團隊另一個主要議題就是元學習(Meta-learning)的探討,嘗試讓機器自己尋找更好的演算法,這種讓機器自己學習如何自我學習的方式,可以讓神經網路架構自我修正而讓AI模型再演化,找到更有效率的演算法,達到最佳的辨識準確性的結果。


這些研究讓機器理解語音效果可以更上一層樓,尤其這個技術對於沒有基準語料庫的語言,或是跨國企業不願率先投資的語言,例如像台語的辨識,這個技術就有相當價值,舉凡醫院或是台灣其他商業應用一直期待台語辨識服務能加速落地應用的發展並上市。 


李宏毅的團隊需要大量運算資源做科學研究,透過國網中心申請TWCC (Taiwan Computing Cloud Service)臺灣AI雲的高速運算服務資源,研究團隊使用TWCC的運算服務提高實驗速度與語音辨識準確率,節省更多寶貴時間,通常一千個小時的語音資料需要耗費一個星期時間,TWCC的運算資源簡直是及時雨。這個為期五年的研究計劃,目前已在第三年的階段,除了挑戰更高的語言辨識率之外,李宏毅認為這個技術的普及是遲早的事情,由於蒐集未標註語音資料遠比標註資料容易,使用這個技術所展望的應用前景非常誘人,學術界會往更尖端的研究推進,但是運算資源是整個研究發展關鍵的因素,希望政府可以持續對學術研究的支持,讓TWCC幫助機器聽懂更多不同的語言。