::: 科研成果學研成果

【2023 NCHC, NVIDIA, OpenACC 黑客松】-HPC、DPU及量子運算加速成果

2024.01.30

看DPU把網路，GPU把流體力學加速！

DPU加速5G核心網路

NTHU-LSALAB團隊成員來自「清華大學資訊工程系『周志遠老師實驗室』及『中華電信』」，DPU降低5G服務封包延遲高達11倍！
— NVIDIA Mentors: Sungta Tsai, Erez Ferber.

以裸機為基礎雲端設施正在引入以容器為基礎的5G應用程式。這是業界從虛擬化網路功能，轉變為雲端原生應用程式的自然發展。5G SBA（Service Based Architecture）採用現有的TCP/IP網路結構，大大增強了相容性和可攜性。因此，使用常見的容器管理平臺，可以輕鬆地管理SBA組件，其中以Kubernetes最為普及，但同時也繼承了與計算效能和延遲相關的問題。

清大研究團隊成功透過DOCA Flow SDK模擬兩個Kubernetes Service的網路通訊架構，將原生的IP Tables機制透過DOCA Flow rule-base架構進行重現，同時模擬了在Service中如何進行Client端的通訊行為，以DPU Hash功能進行了分散式權重調度。

透過DPU卸載網路能將原先需要透過主機CPU運行的網路功能卸載至DPU，大量減少延遲並保留更多的資源提供5G元件運作執行。

Team03加速成果

GPU加速流體力學研究

Simulation Result from NTHU-LASLAB

Simulation Result from NTUST CFD LAB

NTUST CFD LAB團隊成員來自臺灣科技大學機械工程系「陳明志老師實驗室」，將3維流體模擬加速16.7倍！
— NVIDIA Mentors: Bharat Kumar, Shijie Wang.

計算流體動力學（CFD）領域正經歷顯著變革，不斷有研究將GPU加速融入其中。這轉變滿足了模擬精度和效率不斷提升的需求，對於複雜工程應用至為關鍵。各種CFD應用程式透過GPU加速展現顯著效能提升，為科學和工程帶來新的可能性。

臺科大團隊使用直接施力沈浸邊界方法（Direct Forcing Immersed Boundary, DFIB）進行三維計算流體力學（3D-CFD），搭配大渦模擬（Large eddy simulation, LES）紊流模型。針對流固耦合（Fluid-structure interaction, FSI）問題尋求解決方案。

採用OpenACC搭配NVTX分析，將主迭代中的所有計算過程轉移到GPU上實現了16.7倍的加速。

Team04加速成果

「未來研究需要大規模的計算來模擬現實的流體情況，這次取得GPU計算顯著地加速成果，能使我們更進一步實現該目標」— 臺科大機械系NTUST CFD LAB團隊

看GPU把AI大型語言模型、量子電路模擬，通通加速！
量子電腦演算法，GPU為關鍵？

量子算法模擬

量子示意

haofan2023團隊成員來自臺灣大學資工系「洪士灝老師實驗室」，將量子演算法QAOA加速468倍！
— NVIDIA Mentors: Tian Zheng, Frank Lin, Yun-Yuan Wang

量子技術正以驚人的速度發展，預示著我們即將進入量子計算的時代。在這個過程中，量子電路模擬成為一個關鍵工具，它在量子硬體和軟體的開發中扮演著重要的角色，特別是在處理量子程式的編寫和驗證方面。傳統電腦的強模擬能夠獲得完整的量子狀態信息。這使得傳統電腦在構建量子系統方面變得不可或缺，尤其是在當前噪聲較多的中等規模量子（NISQ）時代。

量子近似優化算法（QAOA）是一種常用的量子算法，用於通過近似解來解決組合優化問題。然而，在虛擬量子計算機上執行QAOA對於解決需要大規模量子電路模擬的組合優化問題而言，會遇到模擬速度較慢的問題。團隊使用數學優化來壓縮量子操作，並結合有效的位元操作進一步降低計算複雜性，透過GPU加速最高獲取468倍的加速效果！

Team02 benchmark

量子啟發最佳化

量子啟發示意

Schrodinger’s Cat團隊成員來自長庚大學資工系「粘儆夫老師實驗室」，將量子啟發組合最佳化問題加速126倍！
— NVIDIA Mentors: Reese Wang, Yun-Yuan Wang

在限制條件下找到最佳解，在現實生活中的應用非常廣泛，例如在交通運輸、製造業、金融等領域中都有應用。然而，最佳化問題也很困難，因為它需要處理大量的數據和複雜的限制條件。舉例來說，如果你要在一個城市中設計一個最佳的公交路線系統，你需要考慮到每個站點之間的距離、人流量、交通擁堵情況等多個因素，這就需要用到組和最佳化的方法來找到最佳解。QUBO（Quadratic unconstrained binary optimization）演算法正是解決優化問題的最佳工具之一，可以將現實生活中的問題轉化為數學表示，並通過量子計算等方法快速找到最佳解。這樣，我們就能更快地解決問題，讓生活變得更加便利和高效。

團隊運用了Nsight Systems來識別量子啟發式算法QUBO中的瓶頸，進而使用JAX框架，將算法移植到GPU上。相較於傳統的C++ CUDA Kernel，Cublas，JAX提供了一種更為簡便的擴展方式來適應我們的算法。這種簡便性不僅體現在程式碼的編寫上，更在於其對於算法調整的高效率和靈活性，

「我們體驗到『奔跑吧，不要用走的』，過程我們實現了高達126倍的End-to-end加速效果，這一結果遠遠超出了我們的預期！」 — 長庚大學資工系Schro?dinger’s Cat團隊

Team01 benchmark

回上一頁

:::科研成果