::: 回首頁科研成果學研成果

【2025 NCHC, NVIDIA, OpenACC 黑客松】- 前瞻創新:語言模型,量子化學,電漿模擬

2026.01.14

加速語言模型與強化學習

Bocchi-The-CUDA 團隊來自 陽明交通大學,將 RL for LLM 加速了 4.6 倍!

Bocchi-The-CUDA 團隊來自 陽明交通大學,將 RL for LLM 加速了 4.6 倍!!
TEAM Members: Chu-Siang Tseng, Cheng-Zong Li, Kai-Jie Lin, Hsien-Cheng Huang
NVIDIA Mentors: Shijie Wang, Virginia Chen

在現今人工智慧快速發展的時代,模型的規模越來越大、運算量也成倍增加。訓練或推論一個大型語言模型(LLM)往往需要耗費數天甚至數週的時間,因此「加速 AI 模型運算」成為一個極其重要的研究方向。這不只是讓程式跑得更快,而是直接影響開發效率、能源消耗與成本效益。例如,若能讓訓練速度提升兩倍,就能在同樣的時間內完成更多實驗,或用相同的硬體資源達成更好的成果。

本次題目聚焦在 GPU 加速與模型效能最佳化,特別是透過低精度運算(如FP8、FP4)與效能分析工具(profiling)來找出瓶頸並進行優化。這個主題的重要性在於:隨著模型規模持續增長,傳統高精度運算將浪費大量記憶體與頻寬,而低精度計算能在保持準確度的前提下,大幅降低成本與延遲。

透過這次的加速成果,我們發現使用 FP8 訓練與 FP4 推論不僅能節省記憶體與能源,也能讓模型在相同硬體上達到更高吞吐量(throughput)。這樣的技術不僅對研究社群有幫助,在產業應用上更具潛力──當未來各行各業擁有自己的專屬資料集時,若能結合加速與低精度技術,就能更快速地完成線上(online)或離線(offline)微調(finetune),讓企業能以更低成本、更高效率地部署並更新自家的 AI 模型,實現真正靈活且持續演進的智慧系統。

更多資訊請看:
https://github.com/nqobu/nvidia/blob/main/20251112/05-NYCU_Bocchi%20the%20CUDA!.pdf

Average Inference Generate Time Comparison

加速量子分子生成模型

Qa-MolGen團隊來自 成功大學材料系 陳雨澤教授 以及 亞洲大學資工系 吳家樂教授 帶領的實驗室成員,將量子分子生成模型加速了5417.9倍!!

Qa-MolGen團隊來自 成功大學材料系 陳雨澤教授 以及 亞洲大學資工系 吳家樂教授 帶領的實驗室成員,將量子分子生成模型加速了5417.9倍!!

TEAM Members: Yu Cheng Xiao, Yu-Ze Chen, Shu-Chi Wu, Ka-Lok Ng, Astuti Aninda, Tzu-Ling Kuo
NVIDIA Mentors: Pika Wang

在材料科學領域,由於材料種類以及數量繁多,傳統做法靠人寫規則或大量實驗,速度慢且成本高。當前 QMG 把「原子三位元、鍵兩位元」的生成邏輯放進量子電路,用機率分佈一次抽樣很多候選分子,同時可依照個人需求進行原子的更換以及擴增。

模型進入大量抽樣時,位元數量會線性增長、計算量與記憶體會指數上升,因此我們採用 NVIDIA CUDA-Q 提升推論的速度,甚至能增加可使用的位元數量,方便跑大規模的 seeds、上千次抽樣,快速統計分子結構的 validity 與 uniqueness,對於探索複雜的化學空間有嶄新的突破。

更多資訊請看:
https://github.com/nqobu/nvidia/blob/main/20251112/04-Qa-MolGen.pdf

qubit noreuse 5417.9x speed up

加速PTSG電漿模擬

PTSG Taiwan 團隊來自 台北科技大學 Ming-Chieh, Lin 教授,將 電漿模擬加速了 15倍!!

PTSG Taiwan 團隊來自 台北科技大學 Ming-Chieh, Lin 教授,將 電漿模擬加速了 15倍!!

TEAM Members: Ming-Chieh Lin, Cheng-Cheng Yeh, Feng-Hua Chang
NVIDIA Mentors: Leo Chen, Yang-Hsien Lin

本專案將用於半導體製程與核融合研究的關鍵工具 XPDP1(PIC/MCC 電漿模擬程式碼) 遷移至 NVIDIA GPU 平台以實現加速。PIC/MCC 模擬是當今半導體製程(如蝕刻與薄膜沉積)以及未來核融合能源、太空推進器等高科技應用的關鍵工具。然而,這些模擬在傳統 CPU 上耗時極長(如 Case 4 需超過 10 小時)。

經過本次的黑客松活動,初步已在核心運算 (move.c) 實現 15 倍加速。解決了主要的瓶頸(GUI 和 CPU-GPU 通訊),並成功將耗時最長的模組 (move 和 mcc) 改造為高效能的 Numba CUDA 核心。成果初步展現潛力,研究人員和工程師未來有機會能夠在幾分鐘或幾小時內完成原本需要數天的複雜電漿模擬,這將極大地縮短新半導體技術的研發週期,並加速清潔能源和粒子物理研究的進展。

更多資訊請看:
https://github.com/nqobu/nvidia/blob/main/20251112/06-PTSG%20Taiwan.pdf

Offload move.c to GPU RTX 4080