5項建議幫你選擇重復數據刪除
重復數據刪除(Data deduplication)無疑是存儲行業近年來最熱鬧的技術,它消除了傳統備份技術衍生出的重復存儲數據問題,進而為企業節省成本。
然而,今日的企業面臨的數據保護問題相當復雜,備份數據重復儲存的問題僅僅是冰山一角,但在某些重復數據刪除廠商的華麗包裝下,這一技術成了解決所有數據保護問題的“萬能藥”,導致用戶對重復數據刪除產品過多的期望,在對技術本身了解不夠、欠缺全盤考慮的情況下便貿然部署了重復數據刪除方案,結果卻往往不如預期,甚至付出比省下的磁盤還要高的成本,因小失大、得不償失。
用戶在選擇具備重復數據刪除技術的產品時,如何針對真正需求理性做出判斷,而不被銷售廣告和專業術語所迷惑呢?不妨參考以下五項建議:
不要掉入重復刪除比率的迷局
幾乎所有重復數據刪除產品廠商都會強調自己可以達到多高的重復數據刪除比率,有些甚至宣稱可以達到500:1這樣不可思議的數據。事實上,重復數據刪除比率完全取決于數據的類型和備份策略,跟技術本身的關聯并不大。舉例來說,如果數據的類型為Office文件、電子郵件,由于數據結構本身的重復性高,能被刪除的部分自然就比較多,如果是已經壓縮過的影音、圖片等文件,重復數據刪除的效果就相當有限;采用全備份的重復數據刪除比率,也遠大于增量或差量備份,因此,比較不同產品之間的重復數據刪除比率其實是沒有意義的,更不能借些來判別產品的優劣。
不能影響服務器性能
某些采用資源端重復數據刪除技術的解決方案,必須在生產服務器上安裝代理程序來執行重復數據刪除,無可避免的給生產服務器造成了相當大的性能負擔。任何改變傳統的數據保護方式,都必須建立在不影響系統運行的前提下才能被接受,換句話說,服務器的性能絕不能受到數據保護方案的牽制(無論是應用服務器還是,因此在這個前提下,目標端重復數據刪除技術才是最理想的選擇。以飛康最新推出的FDS為例,只對備份到FDS內的數據進行分析比對,然后再刪除重復數據,前端服務器不需要安裝代理程序,所有運行負載也都集中在FDS上,重復數據刪除工作對生產服務器的性能毫無影響。
在線處理不一定比后處理好
重復數據刪除技術依據數據處理方式的不同,分成備份與重復數據刪除同時執行的在線處理(Inline),以及備份完成后執行重復數據刪除的后處理(Post processing)兩種,有些廠商宣稱在線處理才是最先進的技術,這其實是錯誤的觀念。
事實上無論采用哪種數據處理方式,絕大多數重復數據刪除技術都是基于業界標準的哈希算法(Hash),僅有少數采用自主開發的專利技術,其運行方式也都大同小異:追蹤核對數據區塊,當新數據寫入硬盤前先經由系統的掃描與核對,判定硬盤上是否存有相同的副本,如果有的話,這部分數據將只存入一個指向該副本地址的指針,不會重復儲存,進而達到節省磁盤空間的目的。兩者的差異在于,在線處理運用了大量的內存作為數據寫入硬盤前的緩存空間,后處理則是先將備份數據寫入硬盤后,再進行分析比對,然后刪除重復數據。
乍看之下,在線處理似乎是效率比較高,但是,有兩個問題不可忽視:
1. 數據處理速度慢:在線處理在備份資料寫入前,必須先暫時存在內存中執行內容比對與刪除演算等工作,這些動作會消耗大量CPU資源,亦會不可避免的拖慢備份速度,某些產品的備份性能甚至比磁帶機還差,這樣很容易導致備份窗口不足,能在要求時限內完成備份的數據量也相對變少。
2. 可靠性令人擔心:在線處理方式由于是在數據寫入磁盤的同時進行比對、刪除重復數據、保留文件指針,沒有校驗、核對的機制,也就是說,沒有廠商敢保證文件經過重復數據刪除后,恢復時的數據是100%正確無誤的,萬一數據處理的某個環節出現錯誤,系統內儲存的備份數據就只是一堆無法識別的代碼,不得不令人擔心其可靠性問題。
相比之下,后處理方式的重復數據刪除技術就不用擔心性能和可靠性的問題了。還是以飛康FDS為例,由于備份數據傳輸過程不受重復數據刪除運行程序的干擾,能充分發揮高速磁盤的I/O處理能力,如果搭配備份服務器的Hosted backup主機式備份功能,還能運用服務器內部的高速鏈路取代速度較慢的以太網,消除備份服務器到存儲系統間的傳輸瓶頸,進一步提升備份的性能。在可靠性方面,FDS即將推出的一致性校驗功能(Self integrity check),可在備份數據寫入磁盤并執行重復數據刪除后,進行文件指針與單一存儲區塊比對的工作,如果發現有任何錯誤便會自動修復,確保所有處理過的備份資料都能正確恢復,系統可靠性與數據安全性更有保障。
不應局限在單一應用
目前市場中具備重復數據刪除功能的解決方案,在架構和技術上或有不同,但應用范圍幾乎全都集中在數據備份領域,換而言之,這些產品本身不是備份軟件就是必須搭配備份軟件才能使用的硬設備。然而企業內部存在重復冗余數據的豈止只在備份?散落在各個部門的文件服務器內的非結構性數據(其中以Office文件居多),在經年累月不斷增加之下已經累積了相當多的重復數據,在企業不具備完善的數據分級存儲與歸檔機制的情況下,管理員面對文件服務器數據量不斷增長的問題,也只能消極的以擴展硬盤空間的方式應對。換個角度想,如果文件服務器能夠利用重復數據刪除技術,理論上就可以有效的抑制這個問題,可惜的是大多數的重復數據刪除方案受限于技術和性能,功能 上只能局限在備份應用。
飛康FDS則突破了“重復數據刪除只能用在備份”的局限,提供了基于管理策略的重復數據刪除功能。這個功能允許管理員在設定FDS的網絡共享文件夾時,根據文件大小、被讀取或修改的頻率來定義是否進行重復數據刪除。舉例來說,管理員可以設定30天內未曾被用戶存取過的文件,在時間到達后自動執行重復數據刪除。大多數的情況下,文件服務器內的數據被存取的機率會隨著時間而遞減,經常被用戶使用的文件由于不會執行重復數據刪除,可以快速的存取、修改而不受文件重組的程序影響性能;不常使用的文件可以通過重復數據刪除,減少占用的磁盤空間,便于存儲更多的文件數據,可謂一舉數得。
遠程復制與全局重復數據刪除能力不可少
除了節省存儲空間外,重復數據刪除技術與遠程復制相結合,則可以消除通過網絡執行遠程備份時,一再傳送重復數據而造成的帶寬浪費的問題,進而達到廣域網優化的功效。用戶不需要投資昂貴的專線,就能建立兩地之間的異地備份。對于許多有分公司、遠程辦公室或分支機構的企業來說,還能借此建立多網站遠程集中備份,可兼具節省帶寬和存儲空間的雙重效果,這也是重復數據刪除技術之所以吸引這么多廠商的重要因素。但是,并不是所有廠商現在都能提供足夠成熟的技術,因此,大部分重復數據刪除+遠程復制方案仍有限制。
某些的重復數據刪除方案本身并不具備遠程復制技術,數據經過處理后必須利用其他軟件或磁盤陣列的復制功能,才能將數據傳送到災備中心。這不僅要求用戶必須購買更多的設備才能實現異地備份,如果用戶具備多個遠程站點需要進行集中備份受到的限制則更多,徒增項目實施的復雜程度與成本。
飛康FDS采用了只有企業級VTL才有的全局重復數據刪除(Global Deduplication)技術,是市場上少數完全整合重復數據刪除與遠程復制的方案,不僅支持一對一、多對一遠程集中備份環境,遠程網站和數據中心的FDS通過比對單一存儲區內有無相同數據,僅復制和傳送單一數據,在20:1的重復數據刪除比率下,可以節省95%的網絡帶寬占用。在數據中心,用戶可以采用能夠外接不同廠商磁盤陣列的FDS網關設備,利用超大容量的單一存儲區和高速磁盤存取優勢,徹底消除遠程網站之間備份的重復數據,充分發揮重復數據刪除技術的同時,節省成本、提升性能。
關鍵詞:重復數據刪除
閱讀本文后您有什么感想? 已有 人給出評價!
- 0
- 0
- 0
- 0
- 0
- 0