Deduplikacja

Czym jest deduplikacja?

Deduplikacja danych to proces, który eliminuje nadmierne ilości kopii danych, znacząco zmniejszając wymagania pojemności storage.

Proces ten może być realizowany w momencie zapisywania danych do systemu (deduplikacja inline), lub jako proces dziejący się w tle, który eliminuje duplikaty już po zapisie danych na dyski.

W NetApp, deduplikacja jest technologią z zerową utratą danych, która może działać jednocześnie jako proces inline, oraz postprocesingowo po zapisie, aby zmaksymalizować ilość deduplikowanych danych.

Macierze NetApp All Flash, mają domyślnie włączoną deduplikację – wydajność macierzy gwarantuje deduplikację inline bez jakiejkolwiek utraty płynności działania systemów produkcyjnych.

Obciążenie wydajności związane z deduplikacją jest minimalne, ponieważ działa ona w dedykowanej dla siebie domenie, która jest całkowicie oddzielona od systemów klienta, niezależnie od tego jaka aplikacja jest na nich uruchomiona, lub w jaki sposób dane są udostępniane (NAS/SAN).

Jak działa deduplikacja?

Deduplikaja pracuje na blokach 4KB, na przestrzeni całego volumenu FlexVol oraz wszystkich agregatów w volumenie, pozostawiając wyłącznie unikalne dane. Opiera się ona na jednostkowych podpisach cyfrowych dla wszystkich bloków danych 4KB.

Gdy dane są zapisywane w systemie, wbudowany mechanizm deduplikacji skanuje przychodzące bloki, tworzy cyfrowy podpis i zapisuje go w specjalnej strukturze danych w pamięci.

Podpis zostaje później sprawdzany w strukturze i pamięci podręcznej i jeśli jest odnaleziony, zostaje przeprowadzone porównanie między obecnym blokiem, a blokiem dawcy, aby upewnić się, że dopasowanie jest dokładne. Podczas weryfikacji bloki zostają przypisane w metadanych jako współdzielone.

Jakie korzyści niesie za sobą deduplikacja?

Działa na urządzeniach NetApp oraz urządzeniach firm trzecich
Niezależna od aplikacji
Niezależna od protokołu
Minimalne obciążenie
Działa na macierzach NetApp AFF, FAS, hybrid
Sprawdzanie bezstratne Byte-by-byte
Może być stosowana dla nowych danych, lub danych już wcześniej przechowywanych na macierzy
Może być przeprowadzana w godzinach mniejszeo obciążenia
Zintegrowana z innymi technologiami wydajności pamięci NetApp
Bezpłatna

Kiedy użyć deduplikacji?

Deduplikacja jest przydatna niezależnie od typu obciążenia. Maksymalne korzyści można zaobserwować w środowiskach wirtualnych, w których wiele maszyn wirtualnych jest używanych do testowania i wdrażania aplikacji.

VDI to kolejny przykład bardzo dobrego środowiska do korzystania z deduplikacji, ponieważ ilość zduplikowane dane między komputerami jest bardzo wysoka.

Niewielki współczynnik deduplikacji uzyskamy w niektórych bazach danych takich jak Oracle i SQL, ponieważ klucze często mają unikalne klucze, przez co nie można zidentyfikować ich jako duplikatów.

Oczywiście nie wszystkie dane dają się tak samo łatwo deduplikować. Np. dane uprzednio skompresowane – zip, rar – mają bardzo niski współczynnik deduplikacji. Podobnie jest w przypdaku zdjęć JPG, oraz plików wideo mpg, div-x itp.

Dla początkujących

DLA KLIENTÓW

Szkolenia NetApp

Szkolenia i warsztaty prowadzone przez najlepszych inżynierów w Polsce

SERIA FAS

SERIA AFF

SERIA ASA

SERIA E

SERIA EF

SERIA CAPACITY

Rozwiązania CLOUD

SERIA FAS

Seria E

Spis treści

Czym jest deduplikacja?

Jak działa deduplikacja?

Jakie korzyści niesie za sobą deduplikacja?

Kiedy użyć deduplikacji?

Piotr Fuz

Szkolenia i warsztaty prowadzone przez najlepszych inżynierów w Polsce

Deduplikacja

Spis treści

Czym jest deduplikacja?

Jak działa deduplikacja?

Jakie korzyści niesie za sobą deduplikacja?

Kiedy użyć deduplikacji?

Piotr Fuz

Czytaj również