Mikä on tiedon poiminta?

Tiedon poimiminen (IE), jota joskus kutsutaan tiedonhauksi, on prosessi, jota käytetään tietokonejärjestelmien kanssa, jotta asiaankuuluvat tiedot voidaan poimia suuremmista tietokokonaisuuksista käyttämällä joitakin ennalta määriteltyjä kriteerejä. Tietojen keräämisen ajatuksena on mahdollistaa tiettyyn toimintaan liittyvien tietojen helppo tunnistaminen ja omaksuminen ilman tarvetta manuaalisesti käydä läpi suuria tietomääriä tarvittavien tietojen löytämiseksi. Prosessi on samanlainen kuin konseptikaivostoiminta tai web -kaavinta, koska kaikilla näillä lähestymistavoilla pyritään keräämään hyödyllistä tietoa laajemmasta saatavilla olevasta datasta.

Yleinen lähestymistapa tiedon poimintaan edellyttää ohjelmointia, joka kykenee skannaamaan koneluettaviksi katsottuja tietolähteitä. Tämä voi sisältää paperikopioita, jotka on skannattu jonkinlaisiin sähköisiin tiedostoihin, laskentataulukoiksi tai tekstinkäsittelyasiakirjoiksi laadittuja asiakirjoja tai jopa tietokannan luettavissa oleviin kenttiin sisältyviä tietoja. Tyypillisesti asetetaan parametrit, joiden avulla ohjelmisto voi saada pääsyn näihin tietolähteisiin ja skannata ne nopeasti käyttämällä tiettyjä ehtoja tietyntyyppisten tietojen priorisoimiseksi ja poistamiseksi käytettävissä olevasta poolista. Tämä prosessi on tyypillisesti erilainen kuin yksinkertainen hakuprosessi, koska menetelmä vaatii, ettei tiettyjä sanoja tai lauseita ole sovitettu sinänsä, vaan käyttää sen sijaan prosessia nimeltä luonnollinen kielenkäsittely, joka auttaa paitsi arvioimaan todellisia sanoja myös kontekstin ja tämän kontekstin antama merkitys.

Tietojen hankintaan liittyvät monimutkaisuudet vaikeuttavat tämän lähestymistavan käyttöä globaalissa mittakaavassa, vaikka on olemassa IE -työkaluja, jotka toimivat erittäin hyvin vain rajoitetun datamäärän kanssa, kuten tietolähteet, jotka liittyvät yrityksen palvelin tai jopa joukko lähteitä, joihin liittyy rajoitettu määrä uutissyötteitä. Tällä lähestymistavalla on mahdollista tunnistaa jokin tapahtumatyyppi, mahdollisesti jopa rajoittaa palautukset tietyn osallistujamäärän sisällyttämiseen tapahtumaan ja järjestää tiedot päivämäärän mukaan.

Kuten monien tekniikan muotojen kohdalla, tietojen hankinnassa käytettäviä työkaluja kehitetään jatkuvasti. 21-luvun alusta lähtien kyky asettaa parametreja ja hyödyntää jatkuvasti kasvavia sähköisiä tietoja osana olennaisen tiedon etsintää on lisääntynyt merkittävästi. Tämä sisältää kyvyn käsitellä suuria määriä strukturoimatonta dataa ja käyttää näitä parametreja tuodakseen järjestykseen tai rakenteeseen tietoja, mikä tekee siitä entistä hyödyllisemmän tulevia hakuja varten.