Tilastollinen tiedonlouhinta, joka tunnetaan myös nimellä tieto tai tiedon löytäminen, on tietokoneistettu menetelmä tietojen keräämiseen ja analysointiin. Tietojen louhintatyökalu kerää tietoja ja luokittelee tiedot löytääkseen malleja tai korrelaatioita, joita voidaan käyttää tärkeissä sovelluksissa, kuten lääketieteessä, tietokoneohjelmoinnissa, liiketoiminnan edistämisessä ja robottisuunnittelussa. Tilastolliset tiedonlouhintatekniikat käyttävät monimutkaista matematiikkaa ja monimutkaisia tilastollisia prosesseja analyysin luomiseen.
Tietojen louhinta käsittää viisi päävaihetta. Ensimmäinen tiedonlouhintasovellus kerää tilastotietoja ja sijoittaa tiedot varastotyyppiseen ohjelmaan. Seuraavaksi varaston tiedot järjestetään ja luodaan hallintajärjestelmä. Seuraava vaihe luo tavan käyttää hallittuja tietoja. Sitten neljäs vaihe kehittää ohjelmiston tietojen analysoimiseksi, joka tunnetaan myös nimellä tiedonlouhinnan regressio, kun taas viimeinen vaihe helpottaa tilastotietojen käyttöä tai tulkintaa käytännössä.
Yleensä tiedonlouhintatekniikat yhdistävät analyyttiset ja tapahtumatietojärjestelmät. Analyyttinen ohjelmisto lajittelee molempia tietojärjestelmätyyppejä käyttämällä avoimia käyttäjäkysymyksiä. Avoimet kysymykset antavat lukemattomia vastauksia, joten ohjelmoijat eivät vaikuta lajittelun tuloksiin. Ohjelmoijat luovat luetteloita kysymyksistä, jotka auttavat tietojen luokittelussa yleisen painopisteen avulla.
Lajittelu perustuu tällöin tietoluokkien ja -ryhmien kehittämiseen, tiedoista löytyviin assosiaatioihin ja yrityksiin määrittää malleja ja suuntauksia yhdistysten perusteella. Esimerkiksi Google kerää tietoja käyttäjien ostotottumuksista auttaakseen online -mainonnan sijoittamisessa. Tämän ostajatietojen lajittelussa käytetyt avoimet kysymykset keskittyvät Internet-käyttäjien osto-asetuksiin tai katselutottumuksiin.
Tietotekniikan tutkijat ja ohjelmoijat keskittyvät kerättyjen tilastotietojen analysointiin. Päätöspuiden luominen, keinotekoiset hermoverkot, lähimmän naapurin menetelmä, sääntöjen induktio, tietojen visualisointi ja geneettiset algoritmit käyttävät kaikki tilastollisesti louhittuja tietoja. Nämä luokitusjärjestelmät auttavat tulkitsemaan analyyttisten tieto -ohjelmien löytämiä assosiaatioita. Tilastollinen tiedonlouhinta sisältää pieniä projekteja, jotka voidaan tehdä pienessä mittakaavassa kotitietokoneella, mutta useimmat tiedonlouhintaliitossarjat ovat niin suuria ja tiedonlouhinnan regressio niin monimutkainen, että ne vaativat supertietokoneen tai nopeiden tietokoneiden verkon.
Tilastollinen tiedonlouhinta kerää kolmea yleistä tietoa, mukaan lukien toiminnalliset tiedot, ei-toiminnalliset tiedot ja metatiedot. Vaateliikkeessä operatiiviset tiedot ovat perustietoja, joita käytetään liiketoiminnan johtamiseen, kuten kirjanpito, myynti ja varastonhallinta. Ei-toiminnalliset tiedot, jotka liittyvät epäsuorasti liiketoimintaan, sisältävät arvioita tulevasta myynnistä ja yleistä tietoa kansallisista vaatemarkkinoista. Metatiedot koskevat itse tietoja. Metatietoja käyttävä ohjelma saattaa lajitella myymäläasiakkaat luokkiin vaatteiden ostajien sukupuolen tai maantieteellisen sijainnin tai asiakkaiden suosikkivärin perusteella, jos tiedot kerättiin.
Tiedonlouhintasovellus voi olla erittäin kehittynyt ja tilastollisella tiedonlouhintatyökalulla voi olla laajoja käytännön sovelluksia. Taudinpurkausten tutkimus on yksi esimerkki. Vuoden 2000 tiedonlouhintaprojekti analysoi Cryptosporidiumin taudinpurkausta Ontariossa, Kanadassa, selvittääkseen tautitapausten lisääntymisen syyt. Tietojen louhinnan tulokset auttoivat yhdistämään bakteeripesäkkeen paikallisiin vesiolosuhteisiin ja kunnallisen vedenkäsittelyn puutteeseen. “Biosurveillance” -kenttä tunnistaa epidemiologisen tiedon louhinnan yksittäisen taudin puhkeamisen tunnistamiseksi.
Tietokoneohjelmoijat ja suunnittelijat käyttävät myös todennäköisyys- ja tilastotietoanalyysin tutkimusta kehittääkseen koneita ja tietokoneohjelmia. Googlen Internet -hakukone on suunniteltu tilastollisen tiedon louhinnan avulla. Google kerää ja käyttää edelleen datan louhintaa ohjelmien päivitysten ja sovellusten luomiseen.