Duplikointi on prosessi, jota käytetään poistamaan tarpeettomat tiedot. Prosessin aikana tietokoneen kiintolevyltä etsitään suuria tietosarjoja vertailuikkunoista. Kun skannataan päällekkäisiä tietoja, kahdeksan kilotavun tai suurempia jaksoja poimitaan yleensä. Jos sekvenssi löytyy muualta tallennusjärjestelmästä, päällekkäiseen tiedostoon viitataan eikä tallenneta uudelleen.
Onnistunut poistaminen voi poistaa useita kilotavuja tietoja tietokoneelta, mikä johtaa ilmeisiin etuihin. Tietojen päällekkäisyys vie turhaa tilaa järjestelmässä, ja kun vieraat tiedot poistetaan, käyttäjälle jää enemmän tallennustilaa tietokoneessa. Tämän ansiosta järjestelmä voi toimia nopeammin ja tehokkaammin, koska se ei ole jumissa ylimääräisten tietojen kanssa. Lisäksi kaistanleveyden paraneminen on aina havaittavissa, kun tietokoneessa on enemmän vapaata tilaa.
Päällekkäisyyteen liittyy suuren tietomäärän viittaaminen ensimmäiseen sijaintiin ja tietojen ylimääräisten kopioiden poistaminen, jotka kuitenkin indeksoidaan, jos niitä tarvitaan. Usein samat tarkat tiedot voidaan tallentaa jopa 100 eri paikkaan kiintolevylle. Jos jokainen vie yhden megatavun tilaa, deduplikointi vähentää kiintolevyn tilan 100 megatavusta vain yhteen. Prosessi toimii arkistoimalla tiedot, ja lisättävä tila on erittäin hyödyllinen tietokoneen kiintolevylle.
Duplikoinnin lisäetuja ovat tarvittavan varmuuskopiointitilan vähentäminen jopa 90 prosentilla, kustannusten, kuten tehon, tilan ja jäähdytyksen, vähentäminen, korkeamman palvelutason palauttaminen, monenlaisten virheiden poistaminen ja tietojen palauttaminen useista eri kohdat. Duplikoinnin haittapuoli on, että se tunnistaa päällekkäiset tiedot käyttämällä salaushajautusfunktioita, jotka voivat olla epäluotettavia, ja törmäys tai muu virhe johtaa tietojen menetykseen. Jos menettelyn valtuuttanut henkilö ei ole tietoinen redundanssin vähennyksestä, se voi vaikuttaa haitallisesti tietokoneen luotettavuuteen.
Tietojen poistaminen toimii segmentoimalla ensin kaikki käsiteltävät tiedot. Jokainen segmentti tunnistetaan ja sitä verrataan tietoihin, jotka ovat jo järjestelmässä. Jos tiedot ovat ainutlaatuisia, ne tallennetaan levylle. Jos se on kaksoiskappale, sen sijaan luodaan viite. Duplikointi voidaan toteuttaa käyttämällä Data Domain -nimistä ohjelmistoa, joka toimii data- ja tallennusjärjestelmien kanssa suodattaakseen tietoja, viittaamalla, poistamalla tai tallentamalla jokaisen tavun tarpeen mukaan.