Mikä on tiedonlouhintaluokitus?

Tietojen louhinnan luokittelu on yksi vaihe tiedonlouhintaprosessissa. Sitä käytetään kohteiden ryhmittelyyn tiettyjen keskeisten ominaisuuksien perusteella. Tietojen louhinnan luokittelussa käytetään useita tekniikoita, mukaan lukien lähimmän naapurin luokitus, päätöspuun oppiminen ja tukivektorikoneet.

Tietojen louhinta on menetelmä, jota tutkijat käyttävät mallien poimimiseen tiedoista. Yleensä edustava näyte valitaan tietovarannosta ja sitä käsitellään ja analysoidaan mallien löytämiseksi. Tiedonlouhinnan luokittelun lisäksi tutkijat voivat käyttää tietojen ryhmittelyä, regressiota ja sääntöjen oppimista.

Tietojen louhinnan luokittelussa voidaan käyttää useita algoritmeja. Lähimmän naapurin luokitus on yksi yksinkertaisimmista tiedonlouhinnan luokittelualgoritmeista. Se perustuu harjoitussarjaan. Koulutusjoukko on joukko tietoja, joita käytetään tietokoneen kouluttamiseen kiinnittämään huomiota tiettyihin muuttujiin. Lähimmäisen naapuriluokituksen mukaan tietokone yksinkertaisesti luokittelee kaikki tiedot osaksi ryhmää, joka sisältää arvoltaan lähinnä syötettä.

Päätöspuun oppiminen käyttää haarautumismallia tietojen luokittelemiseen. Tietokone esittää periaatteessa sarjan kysymyksiä tiedoista. Jos vastaus ensimmäiseen kysymykseen on totta, se esittää kysymyksen 2a. Jos vastaus on väärä, se esittää kysymyksen 2b. Kun tämä menetelmä vedetään ulos, se muodostaa haarautuvien polkujen puun.

Naiivi Bayes -luokitus perustuu todennäköisyyteen. Se esittää sarjan kysymyksiä jokaisesta datasta ja käyttää sitten vastauksia määrittääkseen todennäköisyyden, että tiedot kuuluvat tiettyyn luokitukseen. Tämä eroaa päätöspuun oppimisesta, koska vastaus ensimmäiseen kysymykseen ei vaikuta seuraavaan kysymykseen.

Monimutkaisempia menetelmiä tiedonlouhinnan luokitteluun ovat hermoverkot ja tukivektorikoneet. Nämä menetelmät ovat tietokonepohjaisia ​​malleja, joita olisi vaikea tehdä käsin. Hermoverkkoja käytetään usein tekoälyn ohjelmoinnissa, koska ne matkivat ihmisen aivoja. Se suodattaa tiedot sarjan solmujen kautta, jotka löytävät kuvioita ja luokittelevat sitten tiedot.
Tukivektorikoneet käyttävät harjoitusnäytteitä rakentaakseen mallin, joka luokittelee tiedot, jotka yleensä visualisoidaan hajontakaaviona ja jossa on laaja tila luokkien välillä. Kun uutta tietoa syötetään koneeseen, se piirretään kaavioon. Tiedot luokitellaan sen perusteella, mitä luokkaa tiedot ovat lähinnä kaaviossa. Tämä menetelmä toimii vain, jos on kaksi vaihtoehtoa, joista valita.