183.17.231.* 2020-12-22 13:39:53 |
發(fā)展到今天,大數(shù)據(jù)處理主要分為兩類(lèi)大的需求,一是批處理,一是流處理。在企業(yè)的實(shí)際業(yè)務(wù)場(chǎng)景當(dāng)中,可能會(huì)只需要批處理或者流處理,也可能同時(shí)需要批處理和流處理,這就使得搭建大數(shù)據(jù)系統(tǒng)平臺(tái)的時(shí)候,需要根據(jù)具體場(chǎng)景來(lái)進(jìn)行技術(shù)選型。
大數(shù)據(jù)處理框架,通常可以分為三類(lèi)——
①批處理框架:Apache Hadoop
②流處理框架:Apache Storm、Apache Samza
③批處理+流處理框架:Apache Spark、Apache Flink
這里我們不對(duì)各個(gè)框架做更具體的講解,而是先來(lái)理解這些不同處理模式背后的思想。
1、批處理
批處理是大數(shù)據(jù)處理當(dāng)中的普遍需求,批處理主要操作大容量靜態(tài)數(shù)據(jù)集,并在計(jì)算過(guò)程完成后返回結(jié)果。鑒于這樣的處理模式,批處理有個(gè)明顯的缺陷,就是面對(duì)大規(guī)模的數(shù)據(jù),在計(jì)算處理的效率上,不盡如人意。
目前來(lái)說(shuō),批處理在應(yīng)對(duì)大量持久數(shù)據(jù)方面的表現(xiàn)極為出色,因此經(jīng)常被用于對(duì)歷史數(shù)據(jù)進(jìn)行分析。
2、流處理
批處理之后出現(xiàn)的另一種普遍需求,就是流處理,針對(duì)實(shí)時(shí)進(jìn)入系統(tǒng)的數(shù)據(jù)進(jìn)行計(jì)算操作,處理結(jié)果立刻可用,并會(huì)隨著新數(shù)據(jù)的抵達(dá)繼續(xù)更新。
在實(shí)時(shí)性上,流處理表現(xiàn)優(yōu)異,但是流處理同一時(shí)間只能處理一條(真正的流處理)或很少量(微批處理,Micro-batch Processing)數(shù)據(jù),不同記錄間只維持最少量的狀態(tài),對(duì)硬件的要求也要更高。
3、批處理+流處理
在實(shí)際的應(yīng)用當(dāng)中,批處理和流處理同時(shí)存在的場(chǎng)景也很多,混合處理框架就旨在解決這類(lèi)問(wèn)題。提供一種數(shù)據(jù)處理的通用解決方案,不僅可以提供處理數(shù)據(jù)所需的方法,同時(shí)提供自己的集成項(xiàng)、庫(kù)、工具,可滿(mǎn)足圖形分析、機(jī)器學(xué)習(xí)、交互式查詢(xún)等多種場(chǎng)景。
大數(shù)據(jù)常用處理框架.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示大數(shù)據(jù)系統(tǒng)平臺(tái)的搭建,往往需要在這些開(kāi)源大數(shù)據(jù)處理框架當(dāng)中進(jìn)行選擇,因此也就要求***們有相應(yīng)程度的掌握。 |