Deduplikacja

Deduplikacja

Czym jest deduplikacja?

Deduplikacja danych to proces, który eliminuje nadmierne ilości kopii danych, znacząco zmniejszając wymagania pojemności storage.

Proces ten może być realizowany w momencie zapisywania danych do systemu (deduplikacja inline), lub jako proces dziejący się w tle, który eliminuje duplikaty już po zapisie danych na dyski.

W NetApp, deduplikacja jest technologią z zerową utratą danych, która może działać jednocześnie jako proces inline, oraz postprocesingowo po zapisie, aby zmaksymalizować ilość deduplikowanych danych.

Macierze NetApp All Flash, mają domyślnie włączoną deduplikację – wydajność macierzy gwarantuje deduplikację inline bez jakiejkolwiek utraty płynności działania systemów produkcyjnych.

Obciążenie wydajności związane z deduplikacją jest minimalne, ponieważ działa ona w dedykowanej dla siebie domenie, która jest całkowicie oddzielona od systemów klienta, niezależnie od tego jaka aplikacja jest na nich uruchomiona, lub w jaki sposób dane są udostępniane (NAS/SAN).

Jak działa deduplikacja?

Deduplikaja pracuje na blokach 4KB, na przestrzeni całego volumenu FlexVol oraz wszystkich agregatów w volumenie, pozostawiając wyłącznie unikalne dane. Opiera się ona na jednostkowych podpisach cyfrowych dla wszystkich bloków danych 4KB.

Gdy dane są zapisywane w systemie, wbudowany mechanizm deduplikacji skanuje przychodzące bloki, tworzy cyfrowy podpis i zapisuje go w specjalnej strukturze danych w pamięci.

Podpis zostaje później sprawdzany w strukturze i pamięci podręcznej i jeśli jest odnaleziony, zostaje przeprowadzone porównanie między obecnym blokiem, a blokiem dawcy, aby upewnić się, że dopasowanie jest dokładne. Podczas weryfikacji bloki zostają przypisane w metadanych jako współdzielone.

Jakie korzyści niesie za sobą deduplikacja?

  • Działa na urządzeniach NetApp oraz urządzeniach firm trzecich
  • Niezależna od aplikacji
  • Niezależna od protokołu
  • Minimalne obciążenie
  • Działa na macierzach NetApp AFFFAS, hybrid
  • Sprawdzanie bezstratne Byte-by-byte
  • Może być stosowana dla nowych danych, lub danych już wcześniej przechowywanych na macierzy
  • Może być przeprowadzana w godzinach mniejszeo obciążenia
  • Zintegrowana z innymi technologiami wydajności pamięci NetApp
  • Bezpłatna

Kiedy użyć deduplikacji?

Deduplikacja jest przydatna niezależnie od typu obciążenia. Maksymalne korzyści można zaobserwować w środowiskach wirtualnych, w których wiele maszyn wirtualnych jest używanych do testowania i wdrażania aplikacji.

VDI to kolejny przykład bardzo dobrego środowiska do korzystania z deduplikacji, ponieważ ilość zduplikowane dane między komputerami jest bardzo wysoka.

Niewielki współczynnik deduplikacji uzyskamy w niektórych bazach danych takich jak Oracle i SQL, ponieważ klucze często mają unikalne klucze, przez co nie można zidentyfikować ich jako duplikatów.

Oczywiście nie wszystkie dane dają się tak samo łatwo deduplikować. Np. dane uprzednio skompresowane – zip, rar – mają bardzo niski współczynnik deduplikacji. Podobnie jest w przypdaku zdjęć JPG, oraz plików wideo mpg, div-x itp.

Share this post