工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark
4. 可融合性
Spark可以運行在standalone、YARN、Mesos、Kubernetes及EC2多種調(diào)度平臺上。其中Standalone模式不依賴第三方的資源管理器和調(diào)度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。
Spark可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對于已部署Hadoop集群的用戶特別重要,因為不需要做任何數(shù)據(jù)遷移就可以使用Spark強大的處理能力。
三、 Spark 相比MapReduce優(yōu)勢
Spark與MapReduce 同為計算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎(chǔ)上進行了改進,使得算法性能明顯優(yōu)于MapReduce,下面大致總結(jié)一下兩者差異:
1) Spark把運算的中間數(shù)據(jù)存放在內(nèi)存,迭代計算效率更高;MapReduce的中間結(jié)果需要落地到磁盤,磁盤io操作多,影響性能。
2) Spark容錯性高,它通過Lineage機制實現(xiàn)RDD算子的高效容錯,某一部分丟失或者出錯,可以通過整個數(shù)據(jù)集的計算流程的血緣關(guān)系來實現(xiàn)重建;MapReduce的話容錯可能只能重新計算了,成本較高。
3) Spark更加通用,Spark提供了transformation和action這兩大類的多個功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。
4) Spark框架和生態(tài)更為復(fù)雜,首先有RDD、血緣lineage、執(zhí)行時的有向無環(huán)圖DAG、stage劃分等等,很多時候spark作業(yè)都需要根據(jù)不同業(yè)務(wù)場景的需要進行調(diào)優(yōu)已達到性能要求;MapReduce框架及其生態(tài)相對較為簡單,對性能的要求也相對較弱,但是運行較為穩(wěn)定,適合長期后臺運行。
四、 Spark與工業(yè)互聯(lián)網(wǎng)平臺
工業(yè)互聯(lián)網(wǎng)帶來了工業(yè)數(shù)據(jù)的快速發(fā)展,對于日益增加的海量數(shù)據(jù),傳統(tǒng)單機因本身的軟硬件限制無法應(yīng)對海量數(shù)據(jù)的處理、分析以及深度挖掘,但作為分布式計算框架的Spark卻能輕松應(yīng)付這些場景。在工業(yè)互聯(lián)網(wǎng)平臺上,Spark 既能快速實現(xiàn)工業(yè)現(xiàn)場海量流數(shù)據(jù)的處理轉(zhuǎn)換,又能輕松應(yīng)對工業(yè)大數(shù)據(jù)平臺中海量數(shù)據(jù)的快速批處理分析,自身集成的機器學(xué)習(xí)框架能夠?qū)A抗I(yè)數(shù)據(jù)進行深度挖掘分析,從而幫助管理者進行決策分析。
基于Spark框架自身的優(yōu)良設(shè)計理念以及社區(qū)的蓬勃發(fā)展狀態(tài),相信未來Spark會在工業(yè)互聯(lián)網(wǎng)平臺扮演越來越重要的角色。
本文作者: 黃歡,格創(chuàng)東智大數(shù)據(jù)工程師 (轉(zhuǎn)載請注明來源及作者)
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 國內(nèi)首個AI工廠投產(chǎn)!
- 2 上半年營收突破 80 億!臥龍電驅(qū)最新“成績單”出爐
- 3 機器人獨角獸Field AI完成4.05億美元融資!英偉達、貝佐斯押注
- 4 臺達電子7月營收453.97億元,同比增長21.6%
- 5 市場觀察 | 埃斯頓市場第一,埃夫特全球總部項目最新進展,三合工業(yè)自動化總部項目動工
- 6 上半年營收突破 18 億元,禾望電氣最新“成績單”出爐
- 7 剛剛!ABB、西門子雙雙拿下自動化新訂單
- 8 營收4.3億!歌爾股份、比亞迪供應(yīng)商在新三板掛牌上市
- 9 綠的諧波半年報:凈利潤大漲45.87%,增長勢頭強勁
- 10 讀懂 | 匯川技術(shù)“1+4+X=0 ”工業(yè)零碳戰(zhàn)略