Mikä on tietojen kuuraus?

Tietojen pesu, jota joskus kutsutaan tietojen puhdistukseksi, on prosessi, jossa havaitaan ja poistetaan tai korjataan tietokannassa olevat tiedot, joissa on jonkinlainen virhe. Tämä virhe voi johtua siitä, että tiedot ovat vääriä, puutteellisia, muotoiltu väärin tai ne ovat kaksoiskappale toisesta merkinnästä. Monet tietointensiiviset liiketoiminta-alueet, kuten pankki, vakuutus, vähittäiskauppa, kuljetus ja televiestintä, voivat käyttää näitä kehittyneitä ohjelmistosovelluksia tietokannan tietojen puhdistamiseen.

Tietokannoissa olevat virheet voivat johtua inhimillisestä virheestä tietojen syöttämisessä, kahden tietokannan yhdistämisestä, koko yrityksen tai alan laajuisten tietojen koodausstandardien puutteesta tai vanhoista järjestelmistä, jotka sisältävät epätarkkoja tai vanhentuneita tietoja. Ennen kuin tietokoneilla oli mahdollisuudet lajitella ja puhdistaa tietoja, suurin osa pesusta tehtiin käsin. Tämä ei ollut vain aikaa vievää ja kallista, vaan se johti usein vielä enemmän inhimillisiin erehdyksiin.

Tietojen pesun tarve on selvä, kun otetaan huomioon, kuinka helposti virheitä voidaan tehdä. Esimerkiksi nimien ja osoitteiden tietokannassa yksi nimi voi olla Bobby Johnson Needhamista, MA, kun taas toinen on Bob Johnson Needhamista, MA. Tämä nimivaihtoehto on todennäköisesti virhe ja viittaa yhteen henkilöön. Tietokone yleensä käsittelee tietoja ikään kuin kaksi eri ihmistä. Erikoistunut tietojenkäsittelyohjelmisto pystyy erottamaan eron ja korjaamaan sen.

Vaikka nämä pienet virheet voivat tuntua vähäpätöiseltä ongelmalta, kun korruptoituneita tai virheellisiä tietoja yhdistetään useisiin tietokantoihin, ongelma voidaan moninkertaistaa. Tämä niin sanottu “likainen data” on ollut ongelma niin kauan kuin tietokoneita on ollut, mutta siitä tulee kriittisempi, kun yritykset monimutkaistuvat ja tietovarastot yhdistävät tietoja useista lähteistä. Ei ole mitään järkeä saada kattavaa tietokantaa, jos tietokanta on täynnä virheitä ja kiistanalaisia ​​tietoja.
Erikoisohjelmistoja käyttävät yritykset voivat joko kehittää sen itse tai ostaa sen useilta toimittajilta. Ohjelmisto ei ole halpa ja voi vaihdella missä tahansa 20,000 300,000 dollarista XNUMX XNUMX dollariin (USD). Se vaatii usein myös mukauttamista, jotta ohjelmisto toimii yrityksen erityistarpeiden mukaan. Se käy läpi prosessin, jossa käytetään algoritmeja tietojen standardoimiseen, korjaamiseen, täsmäämiseen ja yhdistämiseen, ja se pystyy toimimaan yksittäisten tai useiden tietojoukkojen kanssa.
Tietojen pesu ohitetaan joskus osana tietovaraston toteutusta, mutta se on yksi kriittisimmistä vaiheista hyvän ja tarkan lopputuotteen saamiseksi. Koska tietojen syöttämisessä tehdään aina virheitä, tätä prosessia tarvitaan aina.