最快最準的電腦視覺分析系統 MTYOLO開啟全新「視」界- 2024國研院研發服務平台亮點成果優等獎│廖弘源│
研發服務平台亮點成果獎-優等獎
廖弘源 特聘研究員兼所長/中央研究院資訊科學研究所
- 亮點成果:MTYOLO-全世界最快最準的即時多任務電腦視覺分析系統
- 使用平台:國家高速網路與計算中心 台灣杉二號AI超級電腦
十字路口的交通管制、人類體內的腫瘤診斷、自駕車的即時偵測、解鎖手機的人臉辨識......,電腦視覺分析的需求在我們的生活中可說是無處不在。許多時候,眼見也不一定為憑,比起透過人眼進行判斷,若能仰賴電腦系統來幫我們「看」,更能事半功倍。隨著相關需求量逐漸增加,如何研發出既快速又準確的視覺分析系統,也成了業界與學界共同面對的重要課題。
產學共創,開啟視覺分析研究契機
2018年,科技部(現國科會)開啟了為期4年的AI專題計畫,推動「業界出題、學界解題」。因緣際會下,中央研究院資訊科學研究所特聘研究員兼所長廖弘源接下了義隆電子所發出的挑戰帖,並以與台灣最切身相關的「智慧交通系統」作為耕耘方向。
彼時,義隆電子在桃園大園機場附近的路口安裝了兩種攝影機:其一是360度全景魚眼攝影機,用以捕捉路口附近的所有交通參數;其二是槍型攝影機,用於鎖定四方進行偵測。兩種攝影機分別蒐集了大量資料,而若要將偵測資料傳回雲端進行分析,必須耗費許多時間與算力,因此,義隆電子希望能在機器端直接進行邊緣運算,並讓參數互相傳輸,達到動態控制交通號誌之目的。
這宛如科幻電影的追求並不容易,團隊不僅需要打造輕量化且高效能的系統,更得考量如何讓模型在不同端點上維持既有表現,才能讓系統在電腦端、雲端、資料來源端都能流暢運作。正是從這裡開始,廖弘源與團隊開始踏上了一連串突破極限的研究旅程。
CSPNet簡化了整體運算過程,以資料分流為核心,除能讓部分資料直接後傳以減少資料量、加快運算速度,同時也增加訓練多樣性,以提高運算精確度。
突破框架,成功打通任督二脈
若想要訓練模型準確辨識物件,需要透過「卷積神經網路」(convolutional neural network)的協助。卷積神經網路的每一層都可以確認部分影像特徵,而透過一層一層的分析過後,就能找出最接近的答案,當層數越多,結果就會越精準;但層數一多,需要用到的算力就越多,會讓執行時非常吃力。
那麼,為了讓模型更精簡,就得換種方法。團隊成員中央研究院資訊科學研究所助研究員王建堯嘗試跳脫既有框架、透過梯度路徑分析(gradient path analysis)的方式,直接讓模型去學習特徵。一開始,訓練策略是在「層」(layer)的部分進行優化,嘗試讓參數量、連結數減少,並增加訓練的多樣性,以提升推論的速度。然而,這種方式雖成功提升了速度,準確率卻不盡理想。
於是,王建堯改變練功的方向,將處理方式拉高到「階段」(stage)的等級後,便成功突破了原先的限制。為什麼會這樣呢?其實背後的概念有點呼應「團結力量大」的啟示。
想像一下我們要訓練隊員去參加一個十項全能競賽,可上場人數不限。這時候,如果訓練等級停留在「層」,那就像是要訓練一個人做好所有的挑戰項目,難度將會非常高。但是,若是轉而訓練「階段」,就更像是訓練一個團隊,有人可以負責體能、有人可以負責藝術,只要大家各自專精一部分,綜合起來就能獲得極佳的效果並贏得競賽。
換言之,改變了基本單位後,模型處理的效能也徹底轉變了。這樣的突破,就像是打通了任督二脈,從此讓後續的模型一帆風順。而這份「武功祕笈」,便是 「跨階段局部網絡」(Cross Stage Partial Network, CSPNet)。
隨著開發進程,YOLO開始納入多種面向,不僅拓展應用可能,也呼應了實際需求。
登峰造極,挑戰納入多重功能
在打通任督二脈後,團隊更進一步挑戰在YOLOv7納入多重功能,而在本次得獎的MTYOLO更是在同一個模型內同時包含:物件偵測(object detection),用矩形框確認物件;實例分割(instance segmentation) ,以遮罩方式框取物件;語義分割(semantic segmentation),分析不同類別並以顏色區別;全景分割(panoptic segmentation) ,綜合前述類別,針對畫面中的場景和物體全面分析。此外,還納入了深度估測 (depth estimation)、姿態估測(pose estimation)。
之所以一次包含這麼多面向,不僅是一種武力展示,更是因為可以呼應業界實際需求。王建堯舉自駕車為例,不僅需要偵測路上物件、判斷類別,同時,由於車體不斷行進,因此也需以深度估測來確認實際距離、以姿態估測確認行人的可能行動,並以3D場景補全(3D Scene Completion)判斷會車時的狀況。當系統能運算得越快、越精準,就越能提升整體決策效率與安全性。
而無論是前面的研發階段、優化階段,都需要極為龐大的算力。廖弘源分享道,如果沒有國家高速網路與計算中心(簡稱國網中心)算力的加持,團隊沒有辦法在這麼短的時間內做這麼多事,「國網中心提供的算力能夠幫我們分擔解憂,讓我們快速達成目標」。
廖弘源院長及其團隊成員中央研究院資訊科學研究所助研究員王建堯在YOLO的開發過程中,透過國網中心的協助,克服總總困難。
無私分享,期許未來應用新可能
關於本次獲獎,王建堯認為是對團隊研究的重要肯定。而廖弘源則表示,台灣的硬體成就是大家有目共睹的,但在軟體部分卻因為環境、經費的限制,少有能像YOLO計畫這樣領先世界的研究成果。YOLO的開發歷程,就像是拿著小刀對上機關槍一般,需要披荊斬棘、克服各種困難,方能有如今的成就。
所幸,這些辛苦都是值得的,而成功的果實,更是讓眾人都得以享受。廖弘源跟團隊毫無遲疑地將系統進行開源共享,以開放共享的精神推動技術的進步,並促進整個行業的發展。如今,CSPNet與YOLOv4兩者論文引用數已超過2萬次,後續版本亦持續累積影響力。在應用面向,不僅初始產業夥伴義隆電子將系統運用於車用方面,許多像是瑞昱等科技廠商,甚至是醫療團隊,也站在團隊系統的肩膀上,繼續探索新的發展可能。
廖弘源認為,這些成果非常令人欣慰,達到了一開始回台「貢獻鄉土」的願景,更笑著說自己可以就此光榮退休。針對計畫的下一步發展,廖弘源表示,目前YOLO的探索已經告一段落,未來很期待能夠挑選一些新的議題,並探索跨領域合作的可能,期待能再創台灣奇蹟。