106年9月24日星期日

大資料分析平台服務

提供大資料分析集群,開放政府、學術、企業等研究,歡迎線上申請使用

大資料分析是未來資料處理的趨勢,只要資料夠多, 就能夠從各種數據中找出線索、趨勢,甚至可以預測大自然的變化。國網中心結合過去建置優質計算與資料儲存環境與高效能電腦叢集經驗,提供大資料平台服務以提供產學研各界使用服務,進而促使用戶在學術的產出有高績效的貢獻。

使用說明:


服務申請:
計算資源服務網

服務專線:

呂小姐 (03) 5776085 # 442 * account@nchc.narl.org.tw

陳先生 (06) 5050940 # 648 * gavin@narlabs.org.tw


Braavos 為國網中心第一座正式對外服務之大資料分析平台

Braavos 於2015年上線並開放使用,為國內最大的公開大資料運算平台。目前擁有256個計算節點,全系統共計4,096核心,16.38TB 記憶體,HDFS儲存空間為1.5PB,搭配高速網路架構,可以提供高速橫向網路交換以及高度集群擴充性。可提供國內以往無法執行的大資料資料平行計算服務,加速提昇國家整體研發實力與科 技競爭力,促成更多研發成果展現。

Braavos
計算節點
CPU : 16 cores
Memory : 64GB DDR3
名稱節點 CPU : 16 cores
Memory : 128GB DDR3
HDFS

1.5PB


服務項目:

Braavos平台上提供二種目前最熱門的分散式大資料運算環境,分別為MapReduce與Spark,並提供數種基於這二種運算環境的工具。

一、Apache Hadoop MapReduce運算生態系:
MaprReduce是一種程式開發模型,用於大規模資料的平行運算,Map與Reduce的概念是由函數式程式語言借來的特性,簡化開發人員在不會分散式程式開發的情況下,將自己的程式運行在分散式系統上。

在Braaovs除了可以執行Java語言編譯的MapRuduce程式外,為了降低開發MapReduce程式的門檻,提供額外的工具套件,可以用Script語言來撰寫MapReduce程式,也可以用SQL語法來查詢HDFS上的資料。Braavos上提供的MaprReduce開發套件有以下幾種:

1. Hive
Hive是建置在HDFS上的一套分散式資料倉儲系統,提供類似SQL語法,Hive QL,來存取Hadoop檔案中的大型資料集。Hive會將使用者輸入的Hive QL指令編譯成Java程式,再來存取HDFS檔案系統上的資料,所以,執行效率依指令複雜度和處理的資料量而異,可能有數秒鐘,甚至是數分鐘的延遲。

2. Pig:
Pig提供了Pig Latin語法,是一種可讀性高的高階語言,可用來撰寫MapReduce程式。Pig會自動將這些腳本程式轉換,成為能在Hadoop中執行的MapReduce Java程式。因此,使用者即使不懂Java也能撰寫出MapReduce。

3. Mahout:
Mahout提供了一個常用的MapReduce函式庫,包含常見的分群分類與推荐演算法,都已經有對應的MapReduce函數可呼叫,開發人員就不必再重複開發一次。

4. Sqoop:
Sqoop是用來將關連式資料庫和Hadoop間的資料相互轉移的工具,可以將一個關連式資料庫(例如:MySQL、Postgress)中的資料導入到Hadoop的HDFS,也可以將HDFS的資料導移到關連式資料庫中。

5. RHadoop:
R語言本身提供了許多資料分析的函數,卻缺乏有效處理大資料資料的特性,因此透過RHadoop:結合R語言易於分析資料的特性與Hadoop的分散式運算及儲存能力,以便能有效的解決大資料資料中的分析問題。


二、Apache Spark 運算生態系
Spark是開放原始碼的叢集運算框架,於2010年由加州大學柏克萊分校AMPLab專案的研究團隊以Scala語言開發完成。不同於Hadoop執行運算時將過程中產生的資料儲存於硬碟,透過彈性分散式資料集(resilient distributed datasets,RDDs)的API,Spark能在記憶體內分析運算,也因此在資料處理運算速度上,Spark比Hadoop快上許多,是目前大資料運算的另一種選擇。

在Braaovs上除了可以執行Java/Scala語言編譯的Spark程式外,還提供了額外的工具套件,讓使用者可以更方便的進行結構化資料處理與機器學習程式開發。Braavos上提供的Spark開發套件有以下幾種:

1. Spark SQL
Spark SQL是Spark用來處理結構化資料的套件,可以通過SQL語句來查詢資料,支持多種資料來源,包括Hive表、Parquet和JSON。除了為Spark提供一個SQL介面外,Spark SQL允許開發人員將SQL查詢和經由RDD操作產生的資料整合進一個單一的應用程式中,進而將SQL與復雜的分析結合。

2. MLlib
MLlib是Spark裡關於機器學習的套件。 MLlib提供多種類型的機器學習算法,包括分類、回歸、聚類和協同過濾,並支持模型評估和數據導入功能,這些演算方法都可以應用到一個集群上。

回首頁 | 到頂端 | 上一頁
  設施與服務 研發與合作 使用者專區 科研成果
媒體中心
有關國網 相關連結
© All Rights Reserved 2005-2014 國家高速網路與計算中心|網站管理員信箱 webmaster@narlabs.org.tw 瀏覽人次 : 885,776