【科技抗疫專案】提高聲紋辨識正確率 更添防疫新利器
為了避免新冠肺炎(COVID-19)疫情蔓延,政府訂定嚴謹的隔離防疫措施,但由於居家檢疫的關懷人數眾多,3月28日最高峰甚至達到5萬5仟人,防疫人力嚴重不足,除透過智慧型手機等訊號驗證使用者是否擅自移動外,只能定期委由相關人員進行電話聯繫,但卻不時傳出有居家檢疫者不遵守規定趴趴走,如外出倒垃圾或到社區門口做網購面交,甚至請家人代接關懷電話,好讓其偷溜出門,導致防疫出現破口,造成社會的嚴重困擾。
Deep Learning 101及台灣人工智慧社團發起人黃獻德博士
Deep Learning 101及台灣人工智慧社團發起人黃獻德博士 (TonTon@TWMAN.ORG, http://TWMAN.ORG) 因此發想,若能透過深度學習的方法,依據語音訊號進行說話者識別,就可針對使用者的語音訊號進行自動初驗,進而適當的降低負責居家隔離或居家檢疫等防疫專家或相關人員的人力負擔,必要時還可投入到其他更重要的任務,藉此提升防疫效果。
適逢國網中心推動「科技防疫專案」,公開徵求各界提出以防疫出發的主題專案,黃獻德提出「手把手帶你做聲紋識別與閱讀理解 (Now I See You: From Waveform-inspired Footprint and Reading Comprehension to Answer You)」,將深度學習應用到與防疫隔離有關的聲紋識別場景,藉由AI更智慧的學習並理解所需知識,從相關的防疫注意事項或規定等文章中,透過整合自然語言處理(NLP)技術的閱讀理解、文本分類、文本相似度、命名實體識別、文本糾錯等演算法與模型,找到提問問題對應的答案。
黃獻德表示,如此一來更能突破最常應用NLP技術,原本只能依賴正規表示式及關鍵字串的Chatbot,根據預先建立常用問與答(Q&A),引導使用者必須依特定答案提出問題的技術瓶頸,Chatbot能夠更理解訊息及其認知。
過去也曾發生英國能源公司接到德國母公司CEO的電話要求匯款,但其實是犯罪分子使用AI技術進行聲音模仿,造成企業一時不察損失22萬歐元(約770萬新台幣),這也讓黃獻德發現聲紋辨識的潛在市場需求,進而將該技術持續優化,並提升其準確度及訓練資料集。
由於大量的數據集是模型表現的重要前提,透過國網中心防疫專案,黃獻德得以利用國網中心的運算資源,將聲紋識別及機器閱讀理解的訓練與優化時間,大幅從1個月縮短到1-2周,已完成多個實驗結果迭代測試。聲紋辨識的準確度達97%~98%,已符合業界基本要求的標準。
黃獻德指出,現階段在無噪音環境下的說話者識別,已經可以超過人類的識別準確率,但仍舊存在如語音段較短時,準確率會顯著下降;若測試語音處於比較喧鬧的環境時,亦會影響測試結果;故需要藉由去除噪音等語音增強等演算法來強化語音品質,這部份亦已完成初步實驗結果。
同時,只要整合語音與聲紋識別及NLP的中文機器閱讀理解、文本分類、文本相似度、命名實體識別、文本糾錯等演算法,就可根據聲音識別出是何人及其說話內容,再從文章中找出答案。透過這套系統,未來亦可以應用於針對會議記錄進行聲紋識別,去除環境噪音並分離出不同說話人,並且能夠針對其說話內容進行理解與問答,將讓聲紋識別與閱讀理解整合具極高應用價值。