Mikä on optinen merkkintunnistus (OCR)?

Optinen merkintunnistus (OCR) on prosessi, jolla tulostetut materiaalit muunnetaan tekstiksi tai tekstinkäsittelytiedostoiksi, joita voidaan helposti muokata ja tallentaa. Tekniikka on mahdollistanut tällaisten materiaalien varastoinnin käyttämällä paljon vähemmän tallennustilaa kuin painetut materiaalit. OCR -tekniikalla on ollut suuri vaikutus tietojen tallentamiseen, jakamiseen ja muokkaamiseen. Jos joku halusi muuttaa kirjan tekstinkäsittelytiedostoksi ennen jokaista hahmon tunnistusta, jokainen sivu on kirjoitettava sanasta sanaan.

OCR -tekniikka vaatii sekä laitteistoa että ohjelmistoa. Lisäksi kehittyneet tekstintunnistusjärjestelmät vaativat prosessin loppuun saattamiseksi lisäpiirilevyn tietokoneessa. Optinen skanneri skannaa sivun tekstin ja jakaa sitten fontit bittikartta -pisteiksi. Ohjelmisto voi lukea yleisimmät fontit ja erottaa rivien alku- ja loppukohdat. Tämä bittikartta käännetään tietokoneen tekstiksi.

Vaikka optinen merkkien tunnistus on edistynyt valtavasti viime vuosina, se ei edelleenkään aina tunnista hyvin käsinkirjoitusta tai käsinkirjoituksen näköisiä fontteja. Pankkisektorilla on järjestelmiä, jotka käyttävät tekstintunnistustekniikkaa yrittäessään lukea käsin kirjoitetuista shekeistä saadut summat ja seurata tietokoneen kykyä lukea reititys- ja tilinumeroita.

Jotta saataisiin käsitys tekstintunnistuksen voimasta, se voi auttaa katsomaan todellista esimerkkiä. Kuvittele poliisiosasto, jonka kaikki rikosrekisterit on tallennettu suuriin arkistoihin. Vaikka miljoonien sivujen skannaaminen olisi kallista ja aikaa vievää, hyödyt ovat valtavat.

Kun tekstintunnistusjärjestelmä on muuttanut sivut tietokoneella luettavaksi tekstiksi, esimerkiksi etsivä voi etsiä koko historian muutamassa sekunnissa. Tietyn tietueen löytäminen manuaalisesti ei ehkä ole liian vaikeaa, mutta kuvittele, että etsivä yrittää etsiä kaikkia rikoksia, jotka on tehty tietyssä risteyksessä kello 8–00. Tämä esimerkki vain naarmuttaa haettavan tekstin voiman pintaa, ja se on vain yksi syy siihen, että monet yritykset ja laitokset käyttävät miljoonia dollareita vanhojen tietojensa tunnistamiseen.