13161216443

您所在位置: 首頁> 學習課程> 大數據培訓班 | 史上最全的大數據學習資源(1)

大數據培訓班 | 史上最全的大數據學習資源(1)

發布百知教育 來源:學習課程 2019-12-05

關系型數據庫管理系統

  • MySQL 世界上最流行的開源數據庫。

  • PostgreSQL 世界上最先進的開源數據庫。

  • Oracle Database - 對象關系數據庫管理系統。

  • Teradata - 高性能 MPP 數據倉庫平臺。

框架

  • Bistro - 用于批處理和流分析的通用數據處理引擎。它基于一種新的數據模型,該模型通過函數來表示數據,并通過列操作來處理數據,而不僅僅使用 MapReduce 或 SQL 等傳統方法來設置操作。

  • IBM Streams - 分布式處理和實時分析平臺??梢院痛髷祿鷳B系統中的許多流行技術 (Kafka、HDFS、Spark等) 集成

  • Apache Hadoop -分布式處理框架。集成了 MapReduce(并行處理)、YARN(作業調度)和HDFS(分布式文件系統)。

  • Tigon - 高吞吐的實時流處理框架。

  • Pachyderm - Pachyderm 是一個基于 Docker 和 Kubernetes 的數據存儲平臺,可以用在重復的數據處理和分析場景。

  • Polyaxon - 一個可復制、可擴展的機器學習和深度學習平臺。

分布式編程

  • AddThis Hydra - 分布式數據處理和存儲系統,最初由 AddThis 開發。

  • AMPLab SIMR - 在 Hadoop MapReduce v1 上運行 Spark。

  • Apache APEX - 用于大數據流和批處理的統一企業平臺。

  • Apache Beam - 用于定義和執行數據處理工作流的統一模型和一組特定于語言的sdk。

  • Apache Crunch - 一個簡單的Java API,用于處理 Join 和數據聚合之類的任務,這些任務在普通 MapReduce 上實現起來很繁瑣。

  • Apache DataFu - 由 LinkedIn 為 Hadoop 和 Pig 開發的用戶定義函數的集合。

  • Apache Flink - 分布式處理引擎框架,用于在無界和有界數據流上進行有狀態計算。

  • Apache Gearpump -基于 Akka 的實時大數據流引擎。

  • Apache Gora - 內存數據模型和持久性框架。

  • Apache Hama - BSP(Bulk Synchronous Parallel)計算框架。

  • Apache MapReduce -在集群上使用并行分布式算法處理大型數據集的編程模型。

  • Apache Pig - 用于表達 Hadoop 數據分析程序的高級語言。

  • Apache REEF - 用來簡化和統一低層大數據系統的保留性評估執行框架

  • Apache S4 - 一個常規用途的、分布式的、可伸縮的、容錯的、可插入式的平臺,主要用于處理連續的數據流

  • Apache Spark - 快速、通用的大規模數據處理引擎

  • Apache Spark Streaming - 實時流處理引擎,屬于 Spark 的一部分.

  • Apache Storm - Twitter 開發的,可在 YARN 上進行流處理的框架。

  • Apache Samza -基于 Kafka 和 YARN 的流處理的框架

  • Apache Tez - 基于 YARN 的,可執行復雜 DAG (有向無環圖)任務的應用程序框架。

  • Apache Twill - YARN 上的抽象,減少了開發分布式應用程序的復雜性。

  • Baidu Bigflow - 一個允許編寫分布式計算程序的接口,它提供了許多簡單、靈活、強大的 API 來輕松處理任何規模的數據。

  • Cascalog - 數據處理和查詢庫。

  • Cheetah - MapReduce 之上的高性能,用戶自定義數據倉庫。

  • Concurrent Cascading - Hadoop 上的數據管理/分析框架。

  • Damballa Parkour - 為 Clojure 開發的 MapReduce 庫。

  • Datasalt Pangool - 可替代 MapReduce 范式.

  • DataTorrent StrAM -實時計算引擎,旨在以一種盡可能暢通的方式支持分布式、異步、實時的內存大數據計算,同時最小化開銷和對性能的影響。

  • Facebook Corona - Hadoop 的增強,可以消除單點故障。

  • Facebook Peregrine - Map Reduce 框架.

  • Facebook Scuba - 分布式內存數據存儲。

  • Google Dataflow - 創建數據管道來幫助我們攝取、轉換和分析數據。

  • Google MapReduce - map reduce 框架.

  • Google MillWheel - 容錯流處理框架。

  • IBM Streams - 用于分布式處理和實時分析的平臺。提供開箱即用的高級分析工具包,如地理空間,時間序列等。

  • JAQL - 聲明式編程語言,用于處理結構化、半結構化和非結構化數據。

  • Kite - 一組庫、工具、示例和文檔,重點在于簡化在 Hadoop 生態系統之上構建系統的過程。

  • Metamarkets Druid - 用于實時分析大型數據集的框架。

  • Netflix PigPen - 是 Clojure 語音的 Map-Reduce,可以編譯到 Apache Pig 或者 Cascading 中

  • Nokia Disco - 諾基亞開發的 MapReduce 框架。

  • Onyx - 云的分布式計算。

  • Pinterest Pinlater - 異步作業執行系統。

  • Pydoop - 用 Python 編寫,并采用 MapReduce 和 HDFS 技術對 Hadoop 進行擴展的 API。

  • Ray - 用于構建和運行分布式應用程序的快速而簡單的框架。

  • Rackerlabs Blueflood - 多租戶分布式度量處理系統

  • Skale - NodeJS 上的高性能分布式數據處理框架。

  • Stratosphere - 通用集群計算框架。

  • Streamdrill - streamdrill 在計算不同時間窗口上的事件流活動非常有用,并找出最活躍的時間窗口。

  • streamsx.topology - 用于在 Java,Python 或 Scala 中構建 IBM Streams 應用程序的庫。

  • Tuktu - 易于使用的批處理和流式計算平臺,可以使用 Scala,Akka 和 Play 構建!

  • Twitter Heron - 由 Twitter 開發的一個實時、分布式、容錯的流處理引擎,主要用于代替 Storm。

  • Twitter Scalding - 用于 Map Reduce 作業的 Scala 庫,基于 Cascading 構建。

  • Twitter Summingbird - Summingbird 是一個類庫,它允許我們編寫看起來像原生 Scala 或 Java 集合轉換的 MapReduce 程序,并在許多著名的分布式 MapReduce 平臺上執行,包括 Storm 和 Scalding,由 Twitter 開發。

  • Twitter TSAR - Twitter 開發的時間序列聚合器

  • Wallaroo - 超快彈性數據處理引擎,可以使有狀態、分析、流處理和事件驅動的 AI 應用程序能夠快速投入生產,而無需考慮規模。它為開發人員提供了幾種語言的 api 來實現他們的自定義業務邏輯。

分布式文件系統

  • Ambry - 分布式對象存儲,支持存儲數萬億個小的不可變對象或者數十億個大對象。

  • Apache HDFS - 提供對應用程序數據的高吞吐量訪問的分布式文件系統。

  • Apache Kudu - Hadoop 的存儲層可實現對數據的快速分析。

  • BeeGFS - 之前稱為 FhGFS,是一種并行分布式文件系統。

  • Ceph Filesystem - 一個支持POSIX接口的文件系統

  • Disco DDFS - 分布式文件系統。

  • Facebook Haystack - 對象存儲系統。

  • Google Colossus - 分布式文件系統 (GFS2).

  • Google GFS - 分布式文件系統。

  • Google Megastore - 可擴展、高可用的存儲。

  • GridGain - GGFS, Hadoop 兼容的內存文件系統。

  • Lustre file system - 高性能分布式文件系統。

  • Microsoft Azure Data Lake Store - Azure 上兼容 HDFS 的存儲

  • Quantcast File System QFS - 開源分布式文件系統。

  • Red Hat GlusterFS - 橫向擴展網絡附加的存儲文件系統。

  • Seaweed-FS -簡單且高度可伸縮的分布式文件系統。

  • Alluxio - 開源的基于內存的分布式存儲系統。

  • Tahoe-LAFS - 去中心化的云存儲系統。

  • Baidu File System - 分布式文件系統。

分布式索引

  • Pilosa 開源的分布式位圖索引,極大地加速了跨多個大規模數據集的查詢。

文檔數據模型

  • Actian Versant - 面向對象的商業數據庫管理系統。

  • Crate Data - 是一個開源的大規??蓴U展數據存儲,它不需要任何管理。

  • Facebook Apollo - Facebook 的類似于 Paxos 的 NoSQL 數據庫。

  • jumboDB - 基于 Hadoop 的面向文檔的數據存儲。

  • LinkedIn Espresso - 可水平擴展的面向文檔 NoSQL 數據存儲。

  • MarkLogic - 模式無關的企業 NoSQL 數據庫技術。

  • Microsoft Azure DocumentDB - NoSQL 云數據庫服務,支持 MongoDB 協議

  • MongoDB - 面向文檔的數據庫系統。

  • RavenDB - 支持事務的開源文檔數據庫。

  • RethinkDB - 支持表 join 和 group by 等查詢的文檔數據庫。

Key Map 數據模型

注意: 業界存在一些術語混淆,存在兩種不同的東西被稱為“列式數據庫”。這里列出的一些是圍繞“鍵 - 映射”數據模型構建的分布式持久性數據庫:所有數據都有一個(可能是組合的)鍵,鍵值對的映射與之關聯。在某些系統中,多個這樣的值映射可以與一個鍵關聯,這些映射稱為“列族”(值映射鍵稱為“列”)。

另一種也稱為“列式數據庫”的技術,特點是它在磁盤或內存中如何存儲數據。這些系統將所有行的相同列值數據存儲在一起。因此,需要做更多的工作來獲得給定鍵的所有列,但是需要更少的工作來獲得給定列的所有值。
前一種在這里稱為“鍵映射數據模型”。這些和 Key-value Data Model 存儲之間的界限相當模糊。
后者更多地是關于存儲格式而不是數據模型,這些數據庫我們把它歸到 Columnar Databases 里面去了。
你可以到 Prof. Daniel Abadi 的博文: 了解更多關于如何區分這兩存儲系統的討論。.

  • Apache Accumulo - 構建在 Hadoop 之上的分布式鍵值存儲系統。

  • Apache Cassandra - 受 BigTable 啟發的、面向列的分布式數據存儲。

  • Apache HBase - 受 BigTable 啟發的、面向列的分布式數據存儲。

  • Baidu Tera - 受 BigTable 啟發的一種大型分布式表格存儲系統,具有高性能、可伸縮等存儲特點,最初的設計是為了管理萬億量級的超鏈和網頁信息。

  • Facebook HydraBase - 由 Facebook 開發的 HBase 演化版本。

  • Google BigTable - 面向列的分布式數據存儲。

  • Google Cloud Datastore - 一個完全托管的無模式數據庫,用于在 BigTable 上存儲非關系數據。

  • Hypertable - 受 BigTable 啟發的、面向列的分布式數據存儲。

  • InfiniDB - 通過MySQL接口訪問,并使用大規模并行處理來并行化查詢。

  • Tephra - 使 HBase 支持事務

  • Twitter Manhattan - Twitter 開發的實時、多租戶分布式數據庫。

  • ScyllaDB - 使用 C++ 編寫的面向列的分布式數據存儲,完全兼容 Apache Cassandra。

Key Map 數據模型

  • Aerospike - 一個分布式,高可用的 K-V 類型的 NOSQL 數據庫。提供類似傳統數據庫的ACID操作。

  • Amazon DynamoDB - 分布式 key/value 存儲, Dynamo 論文的實現。

  • Badger - 一個快速、簡單、高效和持久的鍵值存儲,是用 Go 編寫。

  • Bolt - 可在 Go 語言中使用的嵌入式鍵值數據庫.

  • BTDB - .Net 中的 Key Value 數據庫,包含 Object DB Layer, RPC, dynamic IL 等等。

  • BuntDB - Go 語言的一個快速,可嵌入,基于內存的鍵/值數據庫,支持自定義索引和地理空間。

  • Edis - 協議兼容 Redis 的數據庫,可替代 Redis。

  • ElephantDB - 專門用于從 Hadoop 導出數據的分布式數據庫。

  • EventStore - 分布式時間序列數據庫。

  • GridDB - 一款高度可擴展的 NoSQL 數據庫,非常適用于物聯網和大數據領域,還具有高可靠性和高性能這些特性。

  • HyperDex - 可擴展的下一代鍵值和文檔存儲,具有多種功能,包括一致性,容錯性和高性能。

  • Ignite - 分布式內存網格數據庫,具有可持久化,分布式事務,分布式計算等特點,此外還支持豐富的鍵值存儲以及SQL語法。

  • LinkedIn Krati - 一個簡單的持久化數據存儲,具有非常低的延遲和高吞吐量。

  • Linkedin Voldemort - 分布式 key/value 存儲系統。

  • Oracle NoSQL Database - Oracle 公司開發的分布式 key/value 存儲系統。.

  • Redis -一個開源(BSD許可)的,內存中的數據結構存儲系統,它可以用作數據庫、緩存和消息中間件。

  • Riak - 去中心化的數據庫存儲。

  • Storehaus -Twitter 開發的用于異步 key/value 存儲的類庫。

  • SummitDB - 基于內存的 NoSQL 鍵/值數據庫,具有磁盤持久性,并支持 Raft 一致性算法。

  • Tarantool - 一個高效的 NoSQL 數據庫和一個 Lua 應用服務器。

  • TiKV - 一個基于 Rust 的分布式鍵值數據庫,并受谷歌 Spanner 和 HBase 的啟發。

  • Tile38 - 具有空間索引和實時地理圍欄的地理位置數據庫。支持各種對象類型,包括緯度/經度點,邊界框,XYZ切片,Geohashes和GeoJSON

  • TreodeDB - key-value 存儲,支持數據副本、分片以及提供原子多行寫。

圖數據模型

  • AgensGraph - 基于 PostgreSQL 的新一代多模型圖數據庫。

  • Apache Giraph - 一個可伸縮的分布式迭代圖處理系統, 基于 Hadoop 平臺,靈感來自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。

  • Apache Spark Bagel - Bagel 是谷歌 Pregel 圖處理框架的 Spark 實現,支持基本的圖形計算、組合器(combiners)和聚合器(aggregators)。目前已經被 GraphX 替代,在 Spark 2.0.0 版本已經被移除。

  • ArangoDB - 多模型分布式數據庫。

  • DGraph - 一個可伸縮的、分布式的、低延遲的、高吞吐量的圖數據庫,旨在提供谷歌生產級別的規模和吞吐量,具有足夠低的延遲,可以在 TB 級的結構化數據上為實時用戶查詢提供服務。

  • EliasDB - 一個輕量級的基于圖的數據庫,不需要任何第三方庫。

  • Facebook TAO - TAO 是 facebook 廣泛使用的分布式數據存儲,用于存儲和服務社交圖。

  • GCHQ Gaffer - Gaffer 是 GCHQ(英國政府通訊總部)于2015年12月14日在 GitHub 上公布的第一個開源項目,Gaffer 是個大規模圖形數據庫,可以方便存儲大規模圖的框架,節點和邊界有數據統計,比如計數,直方圖和草圖。這些統計數據是時間窗口的節點和邊界屬性,可以根據時間動態更新。

  • Google Cayley - 開源的圖數據庫。

  • Google Pregel - 圖處理框架。

  • GraphLab PowerGraph - 包含 C++ 實現的 GraphLab API以及一組基于GraphLab API 構建的高性能機器學習和數據挖掘工具包。

  • GraphX - 一個分布式圖處理框架,它是基于 Spark 平臺提供對圖計算和圖挖掘簡潔易用的而豐富的接口,極大的方便了對分布式圖處理的需求。

  • Gremlin - 圖遍歷語言。

  • Infovore - 一個 map/reduce 框架,用來處理大量的 RDF 數據集,注入 Freebase 和 DBpedia,基于 Hadoop 構建。

  • Intel GraphBuilder - 基于 Hadoop 構造的大型圖工具。

  • JanusGraph - 開源分布式圖形數據庫,后端存儲可以選擇多種組件包括 Bigtable、HBase、Cassandra等,同時索引后端也可以選擇很多種,包括 Elasticsearch、Solr、Lucene 等。

  • MapGraph - 一個高級的 API 用于快速開發基于 GPU 的高性能圖形分析應用。

  • Microsoft Graph Engine - 一個基于內存的分布式大規模圖數據處理引擎,能夠幫助用戶更方便地構建實時查詢應用和高吞吐量離線分析平臺。在此之前,它在學術界更廣為人之的名稱是 Trinity。

  • Neo4j - 一個高性能的 NOSQL圖數據庫,完全由 Java 實現。

  • OrientDB - 文檔圖形數據庫。

  • Phoebus - 大型圖處理框架。

  • Titan - 建立在 Cassandra 之上的分布式圖數據庫。

  • Twitter FlockDB - 分布式圖數據庫。

  • NodeXL - Microsoft? Excel? 2007, 2010, 2013 and 2016 免費開源的模板,可以很容易的探索網絡圖。

列式數據庫

注意 請讀一下 Key-Map Data Model 章節的說明。

  • Columnar Storage - 解釋什么是列式存儲,以及我們什么時候需要它。

  • Actian Vector - 面向列的分析數據庫。

  • C-Store - 面向列的 DBMS.

  • ClickHouse - 一個開源的列式數據庫(DBMS),主要用于在線分析處理查詢(OLAP)。

  • EventQL - 為大規模事件收集和分析而構建的分布式、面向列的數據庫。

  • MonetDB - 列式存儲數據庫。

  • Parquet - 靈感來自于2010年 Google 發表的 Dremel 論文,是一種列式存儲格式,與語言、平臺無關,并且不需要和任何一種數據處理框架綁定。

  • Pivotal Greenplum - 為特定目的而構建的專用分析數據倉庫,它提供了一個列式存儲引擎和一個傳統的基于行的引擎。

  • Vertica - 設計用于管理大量快速增長的數據,提供非??斓牟樵冃阅?。

  • SQream DB - 以色列大數據公司開發的跑在 GPU 上的大數據數據庫,設計用于分析和數據倉庫,使用 ANSI-92 SQL,適用于10TB到1PB的數據集。

  • Google BigQuery - Google 推出的一項 Web 服務,該服務讓開發者可以使用 Google 的架構來運行 SQL 語句對超級大的數據庫進行操作。

  • Amazon Redshift - 一個支持 SQL 查詢的、快速、可擴展的列式存儲數據庫,它支持 PB 級的數量查詢,是適用于企業級的數據倉庫。

  • IndexR - 一個開源的大數據存儲格式,于 2017 年 1 月初正式開源,旨在通過添加索引、優化編碼方式、提高 IO 效率等各種優化方式來提高計算層和存儲層的數據交換效率,從而提升整體性能。

  • LocustDB - 一個大規模并行且高性能的分析數據庫 (analytics database),可快速處理你的所有數據,目前處于實驗性階段。

NewSQL 數據庫

  • Actian Ingres - 商業支持,開源 SQL 關系數據庫管理系統。

  • ActorDB - 分布式的 SQL 數據庫,可實現可伸縮的 K/V 存儲系統。ActorDB 基于 Actor 計算模型,與傳統的集中式數據庫不同,ActorDB 由任意數量的被成為 actor 的獨立和并發 SQL 數據庫組成。

  • Amazon RedShift -基于 PostgreSQL 的數據倉庫服務。

  • BayesDB - 一個貝葉斯數據庫,內建貝葉斯查詢語言 BQL,用戶無需統計方面知識即可解決一些基本的科學數據問題

  • Bedrock - 構建在 SQLite 之上的簡單、模塊化、網絡化、分布式事務層。

  • CitusDB - 通過分片和副本擴展 PostgreSQL。

  • Cockroach - 可伸縮、地理復制、事務性數據存儲。

  • Comdb2 - 一個基于樂觀并發控制技術的集群 RDBMS。

  • Datomic - 分布式數據庫旨在支持可伸縮、靈活和智能的應用程序。

  • FoundationDB - 分布式數據庫,受 F1 啟發。

  • Google F1 - 構建在 Spanner 之上的分布式 SQL 數據庫。

  • Google Spanner - Google的全球級的分布式數據庫,具有可擴展,多版本,全球分布式、同步復制等特性。

  • H-Store - 一個實驗性的數據庫管理系統。它專為駐線交易處理應用程序而設計。

  • Haeinsa - Haeinsa 是 HBase 可線性擴展的多行,多表事務庫。使用兩階段鎖定和樂觀并發控制來實現事務。事務的隔離級別是可序列化的?;?Percolator 實現。

  • HandlerSocket - MySQL/MariaDB 的 NoSQL 插件。

  • InfiniSQL - 無限擴展的 RDBMS.

  • Map-D - GPU 內存數據庫,大數據分析可視化平臺.

  • MemSQL - 一款內存數據庫,它通過將數據存在內存中,將 SQL 語句預編譯為 C++ 而獲得極速執行效率。

  • NuoDB - 符合 SQL/ACID 的分布式數據庫。

  • Oracle TimesTen in-Memory Database - 基于內存的關系數據庫管理系統,具有持久性和可恢復性。

  • Pivotal GemFire XD - 低延遲、基于內存、分布式 SQL 數據存儲。為內存表數據提供 SQL 接口,可在 HDFS 中持久存儲。

  • SAP HANA - 基于內存、面向列、關系數據庫管理系統。

  • SenseiDB - 分布式、實時、半結構化的數據庫。

  • Sky - 用于靈活、高性能的行為數據分析的數據庫。

  • SymmetricDS - 用于文件和數據庫同步的開源軟件。

  • TiDB - 一款定位于在線事務處理/在線分析處理的融合型數據庫產品,實現了一鍵水平伸縮,強一致性的多副本數據安全,分布式事務,實時 OLAP 等重要特性。受 Google F1 啟發。

  • VoltDB - 聲稱是最快的內存數據庫.



大數據培訓班:http://www.onhairsalon.com/bigdata2019


上一篇:python培訓班 | Python Web安全開發注意點

下一篇:應屆生去公司找個Java程序員的職位需要什么技能?

相關推薦

www.onhairsalon.com

有位老師想和您聊一聊

關閉

立即申請