Mitkä ovat tärkeimmät tiedon louhinnan käsitteet?

Tärkeimpiä tiedonlouhintakonsepteja käytetään kerättyjen tietojen analysointiin, erityisesti käyttäytymisen havainnointiin. Tuntemattomia vuorovaikutuksia tietojen välillä tutkitaan monin eri tavoin selvittääkseen kriittiset suhteet aiheiden ja koottujen tietojen välillä. Yksi tiedonlouhinnan haasteista on se, että varsinainen kerätty tieto ei ehkä muistuta koko aluetta. Tämän tosiasian ratkaisemiseksi tietojen välisiä korrelaatioita voidaan ohjata menetelmällisesti eri tiedonlouhintakonsepteilla.

Tiedonlouhintakonseptien standardeja valvoo Association for Computing Machineryin tiedon löytämisen ja tiedon louhinnan erityisryhmä (SIGKDD). Tämä organisaatio julkaisee ”International Journal of Information Technology and Decision Making” -lehden sekä SIGKDD Explorations -lehden. Tietojen louhinnan etiikan ja perusperiaatteiden noudattaminen pitää teollisuuden tehokkaana ja rajoitetuista oikeudellisista ongelmista.

Tietojen esikäsittely on yksi tiedon louhinnan tärkeimmistä näkökohdista. Raakatiedot on louhittava ja tulkittava. Tämän toiminnon suorittamiseksi on määritettävä prosessi, kohdetiedot on koottava ja mallit on löydettävä. Prosessi tunnetaan tietokannassa tietokannoissa, ja sen kehitti Gregory Piatetsky-Shapiro vuonna 1989.

Neljä eri luokkaa tiedonlouhintamallit mahdollistavat prosessin tapahtuvan. Klusterointi käyttää tietojen louhintaprosessista luotua algoritmia kootakseen kohteet samanlaisiin ryhmiin. Toisin kuin klusterointi, tietojen luokittelu tapahtuu, kun tiedot kootaan ennalta määriteltyihin ryhmiin ja analysoidaan. Yhdistys yrittää löytää suhteita muuttujien välillä ja määrittää, mitkä tietoryhmät liittyvät yleisesti. Lopullinen tiedonlouhintatyyppi on regressio, joka perustuu tiedonkeruun funktion tunnistamismenetelmään.

Tietojen validointi on viimeinen vaihe selvittää, mitä tiedonlouhintasovellus edustaa. Kun kaikki algoritmit eivät esitä kelvollista tietojoukkoa, esiintyvät mallit voivat johtaa tilanteeseen, jota kutsutaan ylikokoksi. Tämän ongelman ratkaisemiseksi dataa verrataan testisarjaan. Tämä on konsepti, jossa mittaukset kohdistetaan sarjaan algoritmeja, jotka tarjoavat uskottavan joukon tietojoukkoja. Jos hankitut tiedot eivät vastaa testijoukkoa, tietojen oletettujen kuvioiden on oltava epätarkkoja.

Jotkut tärkeimmistä tiedonlouhintakonsepteista esiintyvät eri toimialoilla. Pelit, liiketoiminta, markkinointi, tiede, tekniikka ja valvonta hyödyntävät tiedon louhintatekniikoita. Näitä tekniikoita käyttämällä jokainen kenttä voi määrittää parhaat käytännöt tai parempia tapoja löytää tuloksia.