Miten valitsen parhaan tekstintunnistusohjelmiston?

OCR (Optical Character Recognition) -ohjelmisto on ohjelmisto, joka on suunniteltu kääntämään tekstikuvat todelliseksi tekstiksi, jota tietokone voi lukea. Yleensä sitä käytetään sen jälkeen, kun kuva on skannattu tietokoneeseen, vaikka muita tulomuotoja voidaan myös käyttää. OCR -ohjelmisto toimii parhaiten jo kirjoitetulle tekstille, joko silloin, kun alkuperäinen tuloste on kadonnut, tai skannausarkkeille, jotka on kirjoitettu kirjoituskoneella. Hyvä ohjelmisto voi kuitenkin pystyä kääntämään myös käsinkirjoitettua tekstiä, vaikka tällaisen muuntamisen virhetaso on yleensä paljon suurempi.

Varsinainen termi OCR -ohjelmisto on hieman harhaanjohtava, koska useimmat nykyaikaiset versiot eivät itse asiassa käytä optista merkkien tunnistusta, vaan käyttävät itse asiassa digitaalista merkkien tunnistusta. Tämä johtuu siitä, että muutama vuosi sitten kentät yhdistettiin tehokkaasti ja molemmat kentät ottivat houkuttelevamman termin optinen merkkien tunnistus. Tekstintunnistusohjelmisto on kehittynyt paljon viime vuosina, ja nykyaikaiset ohjelmat ovat huomattavasti edeltäjiään paremmin tunnistavia.

Itse asiassa varhainen tekstintunnistusohjelmisto vaati ohjelman kouluttamista tietylle kirjasimelle ennen kuin se voitiin syöttää tarkasti. Samoin käsinkirjoitusta syötettäessä ohjelma olisi koulutettava, mikä voi viedä uskomattoman aikaa. Menetelmät ovat kuitenkin parantuneet, ja älykkäämmät järjestelmät ovat nyt normi. Käytetyt menetelmät ovat nyt suhteellisen staattisia, ja vain vähän tutkimusta kehitetään kokonaan uusiin menetelmiin, ja useimmat tutkimukset menevät nykyisten menettelyjen tarkentamiseen. Ohjelmistojen varhaisia versioita käytettiin monenlaisissa sovelluksissa. Suuryritykset käyttivät niitä lukemaan luottokorttien jälkiä 1950-luvulla ja Yhdysvaltain postipalvelu käytti niitä postin lajitteluun 1960-luvun puolivälistä lähtien.

Kymmenen vuotta sitten tekstintunnistusohjelmiston valitseminen oli vaikeaa, koska monet ohjelmat olivat melko huonoja tietyissä tehtävissä ja kohtuullisen hyviä toisissa. Nykyään kenttä on kuitenkin pääosin tasaantunut. Tarkkuusprosentit kaikissa kirjoitetuissa latinalaisten skriptien kääntämiseen tarkoitetuissa hyvissä ohjelmistoissa ovat yli 99%. Käsinkirjoituksen tai monimutkaisempien kirjasintyyppien syöttämisessä OCR -ohjelmistolla on silti suhteellisen suuri alue.

Myös tekstintunnistusohjelmiston hinta vaihtelee suuresti, usein suhteessa sen tarkkuuteen. Löytyy kohtuullinen määrä ilmaista ohjelmistoa, joka soveltuu painotuotteiden syöttämiseen, ja jotkut löytyvät, jotka ovat suhteellisen hyviä käsinkirjoituksen havaitsemiseen, etenkin jonkin koulutuksen avulla. Kalliimmissa ohjelmistopaketeissa, kuten OmniPage -paketissa, joka maksaa noin 100 dollaria (USD) kotiversiossa ja noin 450 dollaria ammattilaisversiossa, on vaikuttava valikoima ominaisuuksia ja yleensä korkeammat onnistumisprosentit.
Valitettavasti täydellistä tekstintunnistusohjelmistoa ei edelleenkään ole, joten ostettavan ohjelman valitseminen voi silti olla suurelta osin turhauttavaa. Jopa parhailla ohjelmilla on luultavasti vaikeita käsinkirjoituksia, ja virheet hiipivät väistämättä läpi, jopa alhaisilla tasoilla. Useimmiten ostettavan ohjelman valitseminen johtuu lisäominaisuuksista: monikielinen tuki, yhden kosketuksen skannaus ja muuntaminen, automaattinen PDF-muunnos ja koko sanan tunnistus eri erikoisaloilla, kuten oikeus- ja lääketieteen aloilla.

Miten valitsen parhaan avoimen lähdekoodin tekstintunnistusohjelmiston?

Mikä on optinen merkkintunnistus (OCR)?

Mikä on kynätietokone?

Miten valitsen parhaan avoimen lähdekoodin skannausohjelmiston?

Miten valitsen parhaan kotitoimistoskannerin?

Mikä on magneettimusteen merkkien tunnistus?