什麼叫大資料雲計算
上期我們聊到了大資料與雲計算、物聯網的關係,今天我們接著上次的話題,繼續聊聊什麼是大資料與雲計算。
分散式檔案系統HDFS:
分散式檔案系統是一種透過網路實現檔案在多臺主機上分散式儲存的檔案系統。分散式檔案系統將檔案分佈並存儲在多個計算機節點上。數千個計算機節點組成一個計算機叢集。
分散式檔案系統設計要求:
分散式檔案系統的結構(分散式檔案系統如何實現更高級別的擴充套件):
物理結構是由一個計算機叢集中的多個節點組成的
。
這些節點分為兩類,一類稱為“主節點”,也稱“NameNode”,另一類稱為“從節點”,也稱“資料節點”。節點”(DataNode)
當然,對程式設計感興趣的小夥伴,可以直接戳連結進行購買,超值價學習程式設計~
2021超實用性的Python零基礎入門到進階影片原始碼
¥
16。9
領券
減15
淘寶
月銷24
購買
HDFS中的塊與普通檔案系統中的塊的區別
在傳統的檔案系統中,為了提高磁碟的讀寫效率,一般以資料庫為單位,而不是以位元組為單位
HDFS中的block,預設的block大小是64MB, HDFS中的檔案會被分割成多個block,每個block作為一個獨立的單元儲存。HDFS的塊大小設計明顯大於普通檔案系統。
接著我們看看,
HDFS必須要實現以下目標:
相容廉價的硬體裝置
流資料讀寫
大資料集
簡單的檔案模式
強大的跨平臺相容性
HDFS的侷限性:
不適合低延遲的資料訪問
無法有效地儲存大量小檔案
不支援多使用者寫入和任意修改檔案
HDFS的
Block: HDFS預設為64MB的Block,比一般的檔案系統大很多
名稱節點:負責管理分散式檔案系統的名稱空間,儲存FsImage和EditLog兩個核心資料結構
資料節點:分散式檔案系統HDFS的工作節點,負責資料的儲存和讀取,根據客戶端或name節點的時間表儲存和檢索資料,並定期將儲存的塊傳送到name節點List
第二個name節點:完成EditLog與FsImage的合併操作,減少EditLog檔案大小,縮短name節點重啟時間;其次,作為name節點的“檢查點”,將元資料資訊儲存在name節點中。
接著我們來聊一下HDFS的體系結構:
HDFS相關的概念:
主從結構模型,一個HDFS叢集包括一個名稱節點和幾個資料節點
作為中心伺服器,名稱節點負責管理檔案系統的名稱空間和客戶端對檔案的訪問。叢集中的資料節點通常是執行資料節點程序的節點,負責處理來自檔案系統客戶端的讀寫請求,並在名稱節點統一排程下執行資料塊的建立、刪除、複製等操作。每個資料節點的資料實際上儲存在本地Linux檔案系統中
HDFS架構:
名稱空間限制:name節點儲存在記憶體中,因此,name節點可以容納的物件(檔案、塊)數量將受記憶體大小的限制
效能瓶頸:整個分散式檔案系統的吞吐量受到單個名稱節點吞吐量的限制
隔離問題:由於叢集中只有一個名稱節點和一個名稱空間,因此不能隔離不同的應用程式
叢集可用性:一旦這個惟一名稱節點失敗,整個叢集將不可用
關注光頭強,和你分享更多程式設計知識、乾貨。小夥伴們長按點贊按鈕支援一下喔~