Mitä Web Data Mining on?

Enemmän kuin koskaan entiteetit ja yksityishenkilöt käyttävät World Wide Webiä useiden liike- ja henkilökohtaisten tapahtumien suorittamiseen. Tämän seurauksena yritykset käyttävät yhä enemmän Web -tiedonlouhintatyökaluja ja -tekniikoita löytääkseen tapoja parantaa tuloksiaan ja kasvattaa asiakaskuntaansa. Verkkotiedon louhinta sisältää tietojen keräämisen ja yhteenvedon Web -sivuston hyperlinkkirakenteesta, sivun sisällöstä tai käyttölokista kuvioiden tunnistamiseksi. Verkkotiedon louhinnan avulla yritys voi tunnistaa mahdollisen kilpailijan, parantaa asiakaspalvelua tai kohdistaa asiakkaiden tarpeisiin ja odotuksiin. Valtion virasto voi myös pyrkiä paljastamaan terroriuhkia tai muuta rikollista toimintaa käyttämällä Web -kaivosovellusta.

Joitakin yleisiä Web -tiedon louhintatekniikoita ovat Web -sisällön louhinta, Web -käytön louhinta ja Web -rakenteen louhinta. Verkkosisällön louhinta tutkii Web -sivuston aihetta. Verkkosisällön louhijat voivat esimerkiksi analysoida sivuston ääni-, teksti-, kuvia- ja video -ominaisuuksia. Verkkosisällön louhijat keskittyvät yleensä sivuston tekstitietoihin enemmän kuin muut sivuston ominaisuudet. Luonnollinen kielenkäsittely ja tiedonhaku ovat kaksi tiedonlouhintatekniikkaa, joita web -sisällön louhijat käyttävät usein.

Verkkokäytön louhinta on yleensä automatisoitu prosessi, jossa verkkopalvelimet keräävät ja raportoivat käyttäjien käyttötavat palvelimen käyttölokeista. Yritys voi esimerkiksi käyttää Web -käyttötietojen louhintatyökalua raportoidakseen palvelimen käyttölokeista ja käyttäjien rekisteröintitiedoista tehokkaamman Web -sivuston rakenteen luomiseksi. Web -rakenteen louhinta tutkii verkkosivustojen solmu- ja yhteysrakennetta. Siitä voi olla hyötyä samankaltaisuuksien ja suhteiden tunnistamisessa eri verkkosivustojen välillä. Verkkorakenteen louhintaan liittyy usein kuvioiden paljastamista hyperlinkkeistä tai asiakirjarakenteiden vetämistä Web -sivulta.

Kaksi yleistä tiedonlouhintatekniikkaa, joita Web -datan kaivostyöläiset voivat käyttää, ovat tiedonlouhinnan assosiaatioanalyysi ja tiedonlouhinnan regressio. Tietojen louhinnan assosiaatioanalyysi auttaa paljastamaan huomattavia suhteita, jotka on haudattu suuriin tietojoukkoihin. Tietojen louhinnan regressio on tilastollinen tekniikka, jossa matemaattisia kaavoja käytetään ennustamaan tulevia tuloksia, kuten voittomarginaaleja, talon arvoja tai myyntilukuja.

Tiedonlouhintaohjelmistojen toimittajat tarjoavat Web -tiedonlouhintatyökaluja, jotka voivat saada ennustavia tietoja suurista tietomääristä. Yritykset käyttävät usein näitä ohjelmistojen louhintatyökaluja analysoidakseen tiettyjä kuluttajakäyttäytymistä koskevia tietojoukkoja. Tietoanalyysin tulosten perusteella yritykset voivat ennustaa liiketoiminnan tulevia suuntauksia.