大數(shù)據(jù)技術(shù)龐大復(fù)雜,基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預(yù)處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機(jī)器學(xué)習(xí)、并行計算、可視化等各種技術(shù)范疇和不同的技術(shù)層面。
大數(shù)據(jù)技術(shù)體系
查詢引擎
1、Phoenix
簡介:這是一個Java中間層,可以讓開發(fā)者在Apache HBase上執(zhí)行SQL查詢。
2、Presto
簡介:Facebook開源的數(shù)據(jù)查詢引擎Presto ,可對250PB以上的數(shù)據(jù)進(jìn)行快速地交互式分析。
3、Shark
簡介:Shark即Hive on Spark,本質(zhì)上是通過Hive的HQL解析。特點就是快,完全兼容Hive。
4、Pig
簡介:Pig是一種編程語言,它簡化了Hadoop常見的工作任務(wù)。
5、Cloudera Impala
簡介:Cloudera Impala 可以直接為存儲在HDFS或HBase中的Hadoop數(shù)據(jù)提供快速,交互式的SQL查詢。
6、Apache Drill
簡介:Apache Drill是是一個能夠?qū)?span id="ln1ipnh" class="candidate-entity-word" data-gid="199981">大數(shù)據(jù)進(jìn)行交互分析、開源的分布式系統(tǒng)。
7、Hive
簡介:hive是基于Hadoop的一個數(shù)據(jù)倉庫工具。
8、Apache Tajo
簡介:Apache Tajo項目的目的是在HDFS之上構(gòu)建一個先進(jìn)的數(shù)據(jù)倉庫系統(tǒng)。
流式計算
1、Facebook Puma
簡介:實時數(shù)據(jù)流分析。
2、Twitter Rainbird
簡介:Rainbird一款基于Zookeeper, Cassandra, Scribe, Thrift的分布式實時統(tǒng)計系統(tǒng)。
3、Twitter Storm
簡介:Storm是Twitter開源的一個類似于Hadoop的實時數(shù)據(jù)處理框架。
迭代計算
1、Apache Hama
簡介:Apache Hama是一個純BSP(Bulk Synchronous Parallel)計算框架。
2、Apache Giraph
簡介:Apache Giraph是一個可伸縮的分布式迭代圖處理系統(tǒng)。
3、、HaLoop
簡介:迭代的MapReduce,HaLoop——適用于迭代計算的Hadoop 。
4、Twister
簡介:Twister, 迭代式MapReduce框架。
離線計算
1、Hadoop MapReduce
簡介:MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。
2、Berkeley Spark
簡介:Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行,能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的map reduce的算法。
3、DataTorrent
簡介:DataTorrent基于Hadoop 2.x構(gòu)建,是一個實時的、有容錯能力的數(shù)據(jù)流式處理和分析平臺。
鍵值存儲
1、LevelDB
簡介:Leveldb是一個google實現(xiàn)的非常高效的kv數(shù)據(jù)庫。
2、RocksDB
簡介:RocksDB在代碼層面上是在LevelDB原有的代碼上進(jìn)行開發(fā)的。
3、HyperDex
HyperDex是一個分布式、可搜索的鍵值存儲系統(tǒng)。
4、TokyoCabinet
簡介:日本人Mikio Hirabayashi(平林干雄)開發(fā)的一款DBM數(shù)據(jù)庫。
5、Voldemort
簡介:Voldemort是一個分布式鍵值存儲系統(tǒng)。
6、Amazon Dynamo
簡介:Amazon Dynamo 是一個經(jīng)典的分布式Key-Value 存儲系統(tǒng)。
7、Tair
簡介:tair 是淘寶自己開發(fā)的一個分布式 key/value 存儲引擎。
8、Apache Accumulo
簡介:Apache Accumulo 是一個可靠的、可伸縮的、高性能的排序分布式的 Key-Value 存儲解決方案。
9、Redis
Redis是一個高性能的key-value存儲系統(tǒng)。
表格存儲
1、OceanBase
簡介:OceanBase是一個支持海量數(shù)據(jù)的高性能分布式數(shù)據(jù)庫系統(tǒng)。
2、Amazon SimpleDB
Amazon SimpleDB是一個分散式數(shù)據(jù)庫,以Erlang撰寫。
3、Vertica
簡介:Vertica基于列存儲。相比傳統(tǒng)面向行存儲的數(shù)據(jù)庫具有巨大的優(yōu)勢。
4、Cassandra
簡介:Cassandra是一套開源分布式NoSQL數(shù)據(jù)庫系統(tǒng)。
5、HyperTable
簡介:Hypertable是一個開源、高性能、可伸縮的數(shù)據(jù)庫。
6、FoundationDB
簡介:支持ACID事務(wù)處理的NoSQL數(shù)據(jù)庫。
7、HBase
簡介:HBase是一個分布式的、面向列的開源數(shù)據(jù)庫。
文件存儲
1、CouchDB
簡介:CouchDB是用Erlang開發(fā)的面向文檔的數(shù)據(jù)庫系統(tǒng)。
2、MongoDB
簡介:MongoDB 是一個基于分布式文件存儲的數(shù)據(jù)庫。
3、Tachyon
簡介:Tachyon是一個分布式內(nèi)存文件系統(tǒng)。
4、HDFS
簡介:Hadoop分布式文件系統(tǒng)(HDFS)被設(shè)計成適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)。
資源管理
1、Twitter Mesos
簡介:Apache Mesos是由加州大學(xué)伯克利分校的AMPLab首先開發(fā)的一款開源群集管理軟件
2、Hadoop Yarn
簡介:Hadoop 新 MapReduce 框架 Yarn。
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。