Mitä on tekstin louhinta?

Tekstin louhinta on prosessi, jossa käytetään tietotekniikkaa tekstidokumenttien selaamiseen tutkimusta ja analysointia varten. Sitä pidetään usein hyvin samankaltaisena kuin prosessia, joka tunnetaan tiedon louhinta, mutta se perustuu erityiseen ohjelmointiin etsimään luokittelematonta tekstiä ja löytämään merkitystä tai malleja sen sijaan, että analysoitaisiin ennalta luokiteltuja tietokantatietoja. Tekstin louhinnassa on monia sovelluksia esimerkiksi tieteessä, markkinoinnissa ja tiedon organisoinnissa.

Sanojen järjestäminen kielelle on monimutkaista tietokoneiden käsiteltäväksi, mutta tutkijat ovat tehneet kovasti töitä parantaakseen tällaista ohjelmointia. On kehitetty monia menetelmiä, joiden avulla tiedemiehet voivat tunnistaa lauseita ja löytää tosiasioita tekstistä. Tämä ei yleensä ole sama kuin merkityksen täydellinen tulkinta, mutta se mahdollistaa pikavalintoja, joilla saavutetaan monia samoja tavoitteita. Tekstin louhinta hyödyntää joitakin näistä tekniikoista, ja kun tämä tekniikka paranee, myös tekstin louhinnan odotetaan yleensä paranevan.

Asiantuntijat käyttävät tekstitietoanalyysiä ensisijaisesti tutkiessaan kirjallisia asiakirjoja. Suuria määriä kirjallisia tietoja voi olla vaikea analysoida valtavan määrän ajan vuoksi. Tietokoneet voivat käydä tämän tekstin läpi paljon nopeammin, mutta eivät ymmärrä sitä. Tekstinlouhintatekniikoiden avulla tietokoneet voivat löytää hyödyllisiä suuntauksia tekstistä ja esittää tiedot tavalla, joka saattaa paljastaa uusia faktoja tai antaa asiantuntijoiden tehdä löytöjä.

Esimerkki tämän tekniikan käytöstä olisi markkinatutkimus. Asiantuntijat voisivat analysoida hakutuloksia tuotteen nimellä ja pyytää ohjelmaa etsimään ilmauksia, jotka ilmaisevat käyttäjien tunteita. Tällä tavalla he voivat saada erittäin yksityiskohtaisesti selville, miten ihmiset todella ajattelevat tuotteestaan. He voivat myös yksinkertaisesti etsiä tuotteitaan ja nähdä, mitkä lauseet ilmestyvät useimmin, ja tämä voi auttaa heitä kehittämään uusia ideoita siitä, miten miellyttää asiakkaitaan.

Toinen käyttö kaivostekstissä on tieteellisten asiakirjojen analysointi vastaavista aiheista etsien uusia suuntauksia tai sopimuksia. Tämä on antanut joidenkin tutkijoiden tehdä ennustavia oletuksia, jotka ovat osoittautuneet hyödyllisiksi esimerkiksi proteiinianalyysin aloilla. Jotkut asiantuntijat ajattelevat, että tällaiset sovellukset voivat lopulta tarjota odottamattomia löytöjä.

Tietojen louhimiseksi kutsuttu prosessi on itse asiassa melko samanlainen kuin tekstin louhinta, mutta se on yleensä vähemmän monimutkainen tehtävä, koska se perustuu tekstiin, joka on jo muotoiltu luokkiin. Ohjelmisto voisi esimerkiksi käydä läpi kaikki työnhakijoiden tiedot tietokannassa ja etsiä trendejä. Tekstin louhinta on tietokoneille vaikeampaa, koska puhdasta tekstiä on vaikeampi analysoida kuin tietoja luokilla.