::: 回首頁科研成果年度成果

研發大型語言訓練平台:力助TAIDE計畫打造臺灣專屬AI對話引擎

發佈日期:2024.04.24

貢獻撰文研究成員:蕭一豪、黃孟琦、王順泰



2022年底Chat GPT橫空出世,使用者無須具備專業訓練,可利用自然語言進行問答的特色,在短時間內聚焦全球眼光,Chat GPT背後的生成式AI技術,也成為產官學研界焦點。為打造臺灣專屬的AI對話引擎,國科會啟動TAIDE(Trustworthy AI Dialogue Engine,生成式AI對話引擎)計畫,在此計畫中,國網中心肩負建置新一代超級電腦、開發大型語言模型訓練平台之責,協助打造符合臺灣特色的AI對話引擎。

開發介面
大型語言模型訓練開發者介面-多語言模型群聊

TAIDE計畫以臺灣文化為基底,融合臺灣特有的語言、價值觀、風俗習慣等元素,打造可理解和回應在地使用者需求的AI對話引擎。此計畫也逐步導入不同主題領域的可信任繁體中文文本,建立特定領域應用範例,以提高模型在各主題領域的表現。簡單來說,TAIDE是專為臺灣設計的平台,讓政府部門與企業組織能依據自身需求選擇合適的模型大小和算力,進行自行訓練,從而打造符合內部應用的AI引擎基礎模型。

在TAIDE計畫中,國網中心負責算力與應用,算力部分提供模型訓練所需的運算力、加速模型訓練、建置相關硬體資源,計畫初期是使用國網中心台灣杉二號AI主機進行模型訓練計算與落地應用,同時也進行新型算力設備的採購與建置作業, 2023年11月完成建置總共9台的NVIDIA DGX H100設備,擴充4.8PF算力,這將可加速更大型模型的訓練與更複雜的AI應用計算工作。

應用方面則是開發TAIDE的展示介面、進行推論算力測試與開發模型的API,此一展示介面提供許多種不同的模型進行測試和比較,並將用於與其他公司或服務提供商業的合作。國網中心的大型語言模型AI訓練平台針對不同進程設定階段性目標,目前已完成基本建設,處於測試階段,團隊仍持續優化、微調中。優化面向主要為資料清理,強化模型的可靠性、精準度,並確保符合倫理與法規要求。

2023年10月底,國網中心發表大型語言模型AI訓練平台的第一個版本,並釋出API,初期不開放給一般使用者,而是以特定產官學研單位為主,尤其是銀行、法務部等需處理機密資料,但不具自主訓練能力的機構。這類型機構可在安全管制下,透過國網中心團隊研發的API與原有系統整合,進行模型微調與資料處理,國網中心也針對這些機構的法規要求,提供特定的機密資料處理機制,協助使用者降低資料安全風險、簡化操作流程。

國網中心大型語言模型訓練開發計畫,除了中文外,也將加強台語、原住民語,其中原住民語是國網中心因應國科會人文處計畫,特意保存、傳承各族語言。目前國內許多單位也正著力於此,但因沒有統一平台,導致資料分散,國網中心將善用旗下的AI模型與資料儲存設備,整合國內大部分族語資料,與邀請族語專家協助持續擴建語料,並轉化為AI適用的資料庫。此資料庫不僅有文字資料,還將涵蓋語音資料,這些語音資料也將用於AI訓練,作為華語與族語的雙向轉譯,包含文字翻譯及語音的辨識與合成用途。

語音合成及文字翻譯功能

語音合成及文字翻譯功能(中文轉太魯閣語)


這些經由AI模型訓練的工具,不僅能用於教育領域,還可透過AI課程助教、故事講述等更具吸引方式,協助部落學童學習族語。此計畫從2023年5月開始,初期將先針對太魯閣族語進行蒐整、錄音與AI模型試驗。

太魯閣語音合成
太魯閣語文字轉語音AI模型


放眼未來,生成式AI將成為下一世代智慧化的核心技術,除了協助TAIDE計畫強化軟硬體效能,打造臺灣專屬的AI對話引擎,滿足國內產官學研需求外。國網中心也會持續善用高速運算基礎架構與團隊專業優勢,發展大型語言模型AI訓練平台及拓展更多本土語言應用,還將扮演保存、傳承臺灣文化的角色。