Mikä on tiedonlouhintaprosessi?

Tietojen louhintaprosessi on työkalu paljastaa tilastollisesti merkittäviä malleja suuresta tietomäärästä. Se sisältää tyypillisesti viisi päävaihetta, joihin kuuluvat valmistelu, tietojen etsiminen, mallien luominen, käyttöönotto ja tarkastelu. Jokainen prosessin vaihe sisältää eri tekniikoita, mutta useimmat käyttävät jonkinlaista tilastollista analyysiä.

Ennen kuin tietojen louhintaprosessi voi alkaa, tutkijat asettavat tyypillisesti tutkimustavoitteet. Tämä valmisteluvaihe määrittää yleensä, millaisia ​​tietoja on tutkittava, mitä tiedonlouhintatekniikoita tulisi käyttää ja missä muodossa tulokset saadaan. Tämä prosessin ensimmäinen vaihe voi olla ratkaiseva hyödyllisen tiedon keräämisessä.

Seuraava vaihe tiedonlouhintaprosessissa on etsintä. Tämä vaihe sisältää yleensä vaadittujen tietojen keräämisen tietovarastosta tai keräysyksiköstä. Sitten kaivosasiantuntijat valmistelevat tyypillisesti raakatietojoukot analysointia varten. Tämä vaihe koostuu yleensä kaikkien tietojen keräämisestä, puhdistamisesta, järjestämisestä ja tarkistamisesta virheiden varalta.

Tämä valmisteltu data siirtyy yleensä tiedonsiirtoprosessin kolmanteen vaiheeseen, mallin rakentamiseen. Tämän saavuttamiseksi tutkijat ottavat tyypillisesti pieniä testinäytteitä tiedoista ja soveltavat niihin erilaisia ​​tiedonlouhintatekniikoita. Mallinnusvaihetta käytetään usein määrittämään paras tilastollisen analyysin menetelmä haluttujen tulosten saavuttamiseksi.

Tiedonlouhintaprosessissa voidaan soveltaa neljää päätekniikkaa. Ensimmäinen on luokittelu, joka järjestää tiedot ennalta määriteltyihin ryhmiin tai luokkiin. Toisessa tekniikassa, jota kutsutaan klusteroimiseksi, tutkijat sallivat tietokoneen järjestää tiedot ryhmiin halutessaan. Kolmas tiedonlouhintatekniikka etsii yhteyksiä muuttujien välillä. Neljäs etsii tyypillisesti tiedoista peräkkäisiä malleja, joita voidaan käyttää tulevien suuntausten ennustamiseen.
Viimeinen vaihe tiedonlouhintaprosessissa on käyttöönotto. Tätä varten mallissa valittuja tekniikoita sovelletaan laajempaan tietojoukkoon ja tulokset analysoidaan. Tästä vaiheesta tuleva raportti näyttää yleensä koko prosessin mallit, mukaan lukien kaikki tietojoukossa olevat luokitukset, klusterit, yhdistykset tai peräkkäiset mallit.
Tarkastelu on usein tärkeä viimeinen vaihe. Tämä prosessin vaihe sisältää yleensä kaivosmallien toistamisen uudella tietojoukolla sen varmistamiseksi, että pääjoukko edustaa koko tietojoukkoa. Tulokset eivät voi ennustaa suuremman väestön kehitystä, jos datanäyte ei edusta sitä tarkasti.