Mikä on tiedonlouhinta?

Tietojen louhinta käyttää suhteellisen paljon laskentatehoa, joka toimii suurella datasarjalla, määrittääkseen säännöllisyydet ja datapisteiden väliset yhteydet. Algoritmeja, jotka käyttävät tilastotietoja, koneoppimista ja kuvioiden tunnistusta, käytetään suurten tietokantojen automaattiseen hakuun. Tietojen louhinta tunnetaan myös nimellä Knowledge-Discovery in Databases (KDD).

Kuten termi tekoäly, tiedonlouhinta on katto -termi, jota voidaan soveltaa useisiin eri toimintoihin. Yritysmaailmassa tiedon louhinta on useimmiten trendien suunnan määrittämiseen ja tulevaisuuden ennustamiseen. Sitä käytetään rakentamaan malleja ja päätöksenteon tukijärjestelmiä, jotka antavat ihmisille tietoja, joita he voivat käyttää. Tietojen louhinta on eturintamassa terrorismin vastaisessa taistelussa. Sitä käytettiin oletettavasti 9/11 -iskujen johtajan määrittämiseen.

Tietokaivostyöläiset ovat tilastotieteilijöitä, jotka käyttävät tekniikoita, joiden nimet ovat lähellä naapureita, k-keskusten klusterointi, pitotusmenetelmä, k-kertainen ristivalidointi, jättämätön menetelmä ja niin edelleen. Regressiotekniikoita käytetään vähentämään epäolennaisia ​​kuvioita, jättäen vain hyödyllistä tietoa. Termi Bayesian nähdään usein kentällä viitaten johtopäätösten luokkaan, joka ennustaa tulevien tapahtumien todennäköisyyden yhdistämällä aiemmat todennäköisyydet ja todennäköisyydet ehdollisten tapahtumien perusteella. Roskapostin suodatus on epäilemättä tiedon louhinnan muoto, joka tuo automaattisesti asiaankuuluvat viestit pintaan kaoottisesta tietojenkalasteluyritysten ja Viagra -paikkojen merestä.

Päätöspuita käytetään datavuorien suodattamiseen. Päätöspuussa kaikki data kulkee sisäänmenosolmun läpi, jossa se kohtaa suodattimen, joka erottaa tiedot virroiksi sen ominaisuuksien mukaan. Esimerkiksi kuluttajien käyttäytymistä koskevat tiedot suodatetaan todennäköisesti demografisten tekijöiden perusteella. Tietojen louhinta ei ole ensisijaisesti hienoja kaavioita ja visualisointitekniikoita, mutta se käyttää niitä osoittamaan löytämänsä. Tiedetään, että pystymme absorboimaan enemmän tilastotietoja visuaalisesti kuin sanallisesti, ja tämä esitysmuoto voi olla erittäin vakuuttava ja tehokas, jos sitä käytetään oikeassa yhteydessä.

Kun sivilisaatiomme tulee yhä enemmän dataa kyllästäväksi ja antureita levitetään joukkoina paikalliseen ympäristöön, huomaamme tahattomasti asioita, jotka saattavat jäädä paitsi ensimmäisellä kerralla. Tietojen louhinnan avulla voimme korjata nämä virheet ja löytää uusia oivalluksia aiempien tietojen pohjalta, mikä antaa meille enemmän panosta tietojen tallennukseen.