::: 科研成果年度成果

研發大型語言訓練平台：力助TAIDE計畫打造臺灣專屬AI對話引擎

發佈日期：2024.04.24

貢獻撰文研究成員：蕭一豪、黃孟琦、王順泰

2022年底Chat GPT橫空出世，使用者無須具備專業訓練，可利用自然語言進行問答的特色，在短時間內聚焦全球眼光，Chat GPT背後的生成式AI技術，也成為產官學研界焦點。為打造臺灣專屬的AI對話引擎，國科會啟動TAIDE（Trustworthy AI Dialogue Engine,生成式AI對話引擎）計畫，在此計畫中，國網中心肩負建置新一代超級電腦、開發大型語言模型訓練平台之責，協助打造符合臺灣特色的AI對話引擎。

開發介面
大型語言模型訓練開發者介面-多語言模型群聊

TAIDE計畫以臺灣文化為基底，融合臺灣特有的語言、價值觀、風俗習慣等元素，打造可理解和回應在地使用者需求的AI對話引擎。此計畫也逐步導入不同主題領域的可信任繁體中文文本，建立特定領域應用範例，以提高模型在各主題領域的表現。簡單來說，TAIDE是專為臺灣設計的平台，讓政府部門與企業組織能依據自身需求選擇合適的模型大小和算力，進行自行訓練，從而打造符合內部應用的AI引擎基礎模型。

在TAIDE計畫中，國網中心負責算力與應用，算力部分提供模型訓練所需的運算力、加速模型訓練、建置相關硬體資源，計畫初期是使用國網中心台灣杉二號AI主機進行模型訓練計算與落地應用，同時也進行新型算力設備的採購與建置作業， 2023年11月完成建置總共9台的NVIDIA DGX H100設備，擴充4.8PF算力，這將可加速更大型模型的訓練與更複雜的AI應用計算工作。

應用方面則是開發TAIDE的展示介面、進行推論算力測試與開發模型的API，此一展示介面提供許多種不同的模型進行測試和比較，並將用於與其他公司或服務提供商業的合作。國網中心的大型語言模型AI訓練平台針對不同進程設定階段性目標，目前已完成基本建設，處於測試階段，團隊仍持續優化、微調中。優化面向主要為資料清理，強化模型的可靠性、精準度，並確保符合倫理與法規要求。

2023年10月底，國網中心發表大型語言模型AI訓練平台的第一個版本，並釋出API，初期不開放給一般使用者，而是以特定產官學研單位為主，尤其是銀行、法務部等需處理機密資料，但不具自主訓練能力的機構。這類型機構可在安全管制下，透過國網中心團隊研發的API與原有系統整合，進行模型微調與資料處理，國網中心也針對這些機構的法規要求，提供特定的機密資料處理機制，協助使用者降低資料安全風險、簡化操作流程。

國網中心大型語言模型訓練開發計畫，除了中文外，也將加強台語、原住民語，其中原住民語是國網中心因應國科會人文處計畫，特意保存、傳承各族語言。目前國內許多單位也正著力於此，但因沒有統一平台，導致資料分散，國網中心將善用旗下的AI模型與資料儲存設備，整合國內大部分族語資料，與邀請族語專家協助持續擴建語料，並轉化為AI適用的資料庫。此資料庫不僅有文字資料，還將涵蓋語音資料，這些語音資料也將用於AI訓練，作為華語與族語的雙向轉譯，包含文字翻譯及語音的辨識與合成用途。

語音合成及文字翻譯功能

語音合成及文字翻譯功能(中文轉太魯閣語)

這些經由AI模型訓練的工具，不僅能用於教育領域，還可透過AI課程助教、故事講述等更具吸引方式，協助部落學童學習族語。此計畫從2023年5月開始，初期將先針對太魯閣族語進行蒐整、錄音與AI模型試驗。

太魯閣語音合成
太魯閣語文字轉語音AI模型

放眼未來，生成式AI將成為下一世代智慧化的核心技術，除了協助TAIDE計畫強化軟硬體效能，打造臺灣專屬的AI對話引擎，滿足國內產官學研需求外。國網中心也會持續善用高速運算基礎架構與團隊專業優勢，發展大型語言模型AI訓練平台及拓展更多本土語言應用，還將扮演保存、傳承臺灣文化的角色。

回上一頁

:::科研成果