Mikä on äänentunnistus?

Puheentunnistus tai puheentunnistus on tietotekniikka, joka käyttää äänituloa tietojen syöttämiseen näppäimistön sijasta. Esimerkiksi mikrofoniin puhuminen tuottaa saman tuloksen kuin sanojen kirjoittaminen manuaalisesti näppäimistöllä. Yksinkertaisesti sanottuna puheentunnistusohjelmisto on suunniteltu sisäiseen tietokantaan tunnistettavista sanoista tai lauseista. Ohjelma yhdistää puheen äänimerkin vastaaviin tietokantaan.

Vaikka puheen muuttaminen tekstiksi saattaa kuulostaa helpolta, se on erittäin vaikea tehtävä. Ongelma on käytännössä ääretön joukko yksittäisiä puhekuvioita ja aksentteja, joita pahentaa ihmisen luonnollinen taipumus ajaa sanoja yhteen.

Erilaisia ​​puheentunnistusohjelmistomalleja käytetään useisiin sovelluksiin henkilökohtaisesta sanelusta kaupalliseen automaattiseen puheluiden reititykseen, vammaisten avustamisesta urheilu- ja uutistapahtumien tekstitykseen. Jokainen malli käyttäytyy eri tavalla ja sillä on omat ominaisuutensa ja rajat.

Äänentunnistusohjelmia, jotka vaativat käyttäjää “kouluttamaan” ohjelmiston tunnistamaan tietyt tyyliteltyjen puhekuvioidensa, kutsutaan kaiutinriippuvaisiksi järjestelmiksi. Yksilöt käyttävät yleensä tällaisia ​​ohjelmia kotona tai toimistossa. Sähköposti, muistio, kirjeet, data ja teksti voidaan syöttää puhumalla mikrofoniin.

Jotkut äänentunnistusjärjestelmät, joita kutsutaan erillisiksi puhejärjestelmiksi, vaativat käyttäjää puhumaan selkeästi ja hitaasti ja erottamaan sanat. Jatkuva puhejärjestelmä on suunniteltu ymmärtämään luonnollisempi puhetapa.
Erillisiä puhejärjestelmiä käytetään laajalti asiakaspalvelun reititykseen. Järjestelmä on kaiuttimesta riippumaton, mutta ymmärtää vain pienen joukon sanoja tai lauseita. Soittajalla on mahdollisuus vastata kysymykseen, yleensä “kyllä” tai “ei”. Saatuaan vastauksen järjestelmä nostaa soittajan seuraavalle tasolle. Jos soittaja vastaa ainutlaatuisella vastauksella, automaattinen vastaus on yleensä: ”Anteeksi, en ymmärtänyt sinua; Yritä uudelleen ”, toistamalla kysymys ja saatavilla olevat vastaukset. Tämän tyyppistä puheentunnistusta kutsutaan myös kielioppirajoitetuksi tunnistukseksi.

Jatkuva puhe on kehittyneempi puheentunnistusohjelmiston muoto, jossa soittaja voi puhua luonnollisesti selittääkseen ongelman tai pyytääkseen palvelua. Tämä ohjelma on suunniteltu poimimaan avainsanat tai lauseet ja tekemään tilastollisen parhaan arvion siitä, mitä asiakas haluaa. Selkeä puhuminen auttaa ohjelmaa tunnistamaan tarpeen. Tämän tyyppisellä järjestelmällä on paljon intensiivisempi tietokanta kuin huomaamattomilla puhejärjestelmillä, ja sitä kutsutaan myös luonnollisen kielen tunnistukseksi.

Automaattinen puheentunnistus (ASR) on sanelulle suunniteltu puheentunnistusmalli. Tämä ohjelmisto eroaa aiemmista malleista siinä mielessä, että se ei pyri ymmärtämään, mitä sanotaan, vaan tunnistaa puhutut sanat. Koska monet englanninkieliset sanat kuulostavat samalta, virheitä on helppo tehdä. ASR -ohjelmisto löytyy usein digitaalisista nauhureista.