Hadoop教程


Hadoop是一個開源框架,它允許在整個集羣使用簡單編程模型計算機的分佈式環境存儲並處理大數據。它的目的是從單一的服務器到上千臺機器的擴展,每一個臺機都可以提供本地計算和存儲。

90%的世界數據在過去的幾年中產生」。

由於新技術,設備和類似的社交網站通信裝置的出現,人類產生的數據量每年都在迅速增長。美國從一開始的時候到2003年產生的數據量爲5十億千兆字節。如果以堆放的數據磁盤的形式,它可以填補整個足球場。在2011年創建相同數據量只需要兩天,在2013年該速率仍在每十分鐘極大地增長。雖然生產的所有這些信息是有意義的,處理起來有用的,但是它被忽略了。

什麼是大數據?

大數據是不能用傳統的計算技術處理的大型數據集的集合。它不是一個單一的技術或工具,而是涉及的業務和技術的許多領域。

在大數據會發生什麼?

大數據包括通過不同的設備和應用程序所產生的數據。下面給出的是一些在數據的框架下的領域。

  • 黑匣子數據:這是直升機,飛機,噴氣機的一個組成部分,它捕獲飛行機組的聲音,麥克風和耳機的錄音,以及飛機的性能信息。

  • 社會化媒體數據:社會化媒體,如Facebook和Twitter保持信息發佈的數百萬世界各地的人的意見觀點。

  • 證券交易所數據:交易所數據保存有關的「買入」和「賣出」,客戶由不同的公司所佔的份額決定的信息。

  • 電網數據:電網數據保持相對於基站所消耗的特定節點的信息。

  • 交通運輸數據:交通數據包括車輛的型號,容量,距離和可用性。

  • 搜索引擎數據:搜索引擎獲取大量來自不同數據庫中的數據。

Big Data

因此,大數據包括體積龐大,高流速和可擴展的各種數據。它的數據爲三種類型。

  • 結構化數據:關係數據。

  • 半結構化數據:XML數據。

  • 非結構化數據:Word, PDF, 文本,媒體日誌。

大數據的好處

  • 通過保留了社交網絡如Facebook的信息,市場營銷機構瞭解可以他們的活動,促銷等廣告媒介的響應。

  • 利用信息計劃生產在社會化媒體一樣喜好並讓消費者對產品的認知,產品企業和零售企業。

  • 使用關於患者以前的病歷資料,醫院提供更好的和快速的服務。

大數據技術

大數據的技術是在提供更準確的分析,這可能影響更多的具體決策導致更大的運行效率,降低成本,並減少了對業務的風險。

爲了利用大數據的力量,需要管理和處理的實時結構化和非結構化的海量數據,可以保護數據隱私和安全的基礎設施。

目前在市場上的各種技術,從不同的供應商,包括亞馬遜,IBM,微軟等來處理大數據。儘管找到了處理大數據的技術,我們研究了以下兩類技術:

操作大數據

這些包括像MongoDB系統,提供業務實時的能力,這裏主要是數據捕獲和存儲互動工作。

NoSQL大數據系統的設計充分利用已經出現在過去的十年,而讓大量的計算,以廉價,高效地運行新的雲計算架構的優勢。這使得運營大數據工作負載更容易管理,更便宜,更快的實現。

一些NoSQL系統可以提供深入瞭解基於使用最少的編碼無需數據科學家和額外的基礎架構的實時數據模式。

分析大數據

這些包括,如大規模並行處理(MPP)數據庫系統和MapReduce提供用於回顧性和複雜的分析,可能觸及大部分或全部數據的分析能力的系統。

MapReduce提供分析數據的基礎上,MapReduce可以按比例增加從單個服務器向成千上萬的高端和低端機的互補SQL提供的功能,這是系統的一種新方法。

這兩個類技術是互補的,並經常一起部署。

操作與分析系統

  操作 分析
等待時間 1 ms - 100 ms 1 min - 100 min
併發 1000 - 100,000 1 - 10
訪問模式 寫入和讀取 讀取
查詢 選擇 非選擇性
數據範圍 操作 回溯
最終用戶 顧客 數據科學家
技術 NoSQL MapReduce, MPP 數據庫

大數據的挑戰

大數據相關的主要挑戰如下:

  • 採集數據
  • 策展
  • 存儲
  • 搜索
  • 分享
  • 傳輸
  • 分析
  • 展示

爲了實現上述挑戰,企業通常需要企業級服務器的幫助。