大數據教程

  • R語言教程

    R是一種編程語言和軟件環境,用於進行統計分析,圖形表示和報告。 R語言是由Ross Ihaka 和 Robert Gentleman 在新西蘭奧克蘭大學的創建,目前是R的開發核心團隊。
  • Solr教程

    Solr是一個開源搜索平臺,用於構建搜索應用程序。 它建立在Lucene(全文搜索引擎)之上。 Solr是企業級的,快速的和高度可擴展的。 使用Solr構建的應用程序非常複雜,可提供高性能。
  • Elasticsearch教程

    Elasticsearch是一個建立在全文搜索引擎 Apache Lucene(TM) 基礎上的搜索引擎,可以說 Lucene 是當今最先進,最高效的全功能開源搜索引擎框架。Elasticsearch 是一個實時的分佈式搜索和分析引擎。它可以幫助你用前所未有的速度去處理大規模數據。
  • HBase教程

    HBase是建立在Hadoop文件系統之上的分佈式面向列的數據庫。它是一個橫向擴展的開源項目。它提供對數據的隨機實時讀/寫訪問,並作爲Hadoop文件系統的一部分。
  • Hadoop教程

    Hadoop是一個開源框架,它允許在整個集羣使用簡單編程模型計算機的分佈式環境存儲並處理大數據。它的目的是從單一的服務器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。
  • Hive教程

    Hive是一個數據倉庫基礎工具在Hadoop中用來處理結構化數據。它架構在Hadoop之上,總歸爲大數據,並使得查詢和分析方便。並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。
  • Sqoop教程

    Sqoop是Hadoop和關係數據庫服務器之間傳送數據的一種工具。它是用來從關係數據庫如:MySQL,Oracle到Hadoop的HDFS,並從Hadoop的文件系統導出到關係數據庫數據。
  • Spark教程

    Apache Spark是一個集羣計算設計的快速計算。它是建立在Hadoop MapReduce之上,它擴展了 MapReduce 模式,有效地使用更多類型的計算,其中包括交互式查詢和流處理。這是一個簡單的Spark教程,介紹了Spark核心編程的基礎知識。
  • ZooKeeper教程

    ZooKeeper是一個分佈式協調服務來管理大量的主機。協調和管理在分佈式環境的一個服務是一個複雜的過程。ZooKeeper 簡單解決了其結構和API這個問題。ZooKeeper允許開發人員能夠專注於核心應用程序邏輯,而無需擔心應用程序的分佈式特性。