Mikä on akustinen malli?

Akustinen malli on lähinnä äänen kartta suhteessa painettuihin sanasarjoihin. Tätä tekniikkaa käytetään puheentunnistusohjelmissa auttamaan tietokonetta oppimaan tunnistamaan henkilön puhekuviot. Akustinen malli on yksi kahdesta päätiedostosta, joita tarvitaan puheentunnistusohjelman suorittamiseen; Toinen on kielimalli, joka osoittaa todennäköiset sanat ja puhekuviot, joita puhuja voi käyttää. Nämä mallit luodaan vertaamalla puhutun äänitiedoston äänitietoja puhuttujen sanojen tekstiin.

Puheentunnistusohjelmisto on ohjelmisto, joka on suunniteltu tunnistamaan ja transkriptoimaan henkilön sanat tai vastaamaan niihin. Monissa käyttöjärjestelmissä on sisäänrakennetut peruspuheentunnistusominaisuudet, jotka käyttäjä voi kytkeä päälle ja pois. Puheentunnistusominaisuudet käyttöjärjestelmissä antavat käyttäjälle yleensä mahdollisuuden hallita tietokonetta ja kirjoittaa sanoja näytöllä äänensä avulla.

Päästäkseen puheentunnistusohjelmistoon käyttäjä tarvitsee mikrofonin saadakseen äänensä tietokoneelle sekä ohjelman, joka käsittelee ääntä. Vaikka monissa tietokoneissa on sisäänrakennetut mikrofonit, ulkoinen kuulokemikrofoni antaa käyttäjälle mahdollisuuden saada selkeämpi ääni ja vapaus liikkua huoneessa puhuessaan. Erillisiä puheentunnistusohjelmistomerkkejä ovat LumenVox®, Loquendo® ja Dragon®.

Useimmissa puheentunnistusohjelmissa on akustinen malliohjelmointi, jonka avulla ohjelma tunnistaa ääntämisen vaihtelut. He käyttävät kuvioita puhujan äänen äänessä tunnistaakseen sanat puheessa. Monet on suunniteltu asennusohjelmistolla, joka auttaa käyttäjää luomaan akustisen mallin, joka on suunniteltu tulkitsemaan omaa ääntään. Jotkut kehittyneet puheentunnistusohjelmat voivat tunnistaa ja tulkita useita kieliä, usein pienellä määrällä äänitietoja. Mitä kehittyneempi puheentunnistusohjelma, sitä todennäköisemmin se tulkitsee sanat tarkasti niiden kontekstin perusteella, mukaan lukien missä lauseessa sana puhutaan.

Puheentunnistustekniikkaa kehittävää opintoaluetta kutsutaan laskennalliseksi kielitieteeksi. Laskennallinen kielitiede sisältää opiskelua ja suunnittelua, joka luo ohjelmiston, joka on ohjelmoitu ymmärtämään ihmisen puhetta. Tämä kenttä sisältää usein psykologian tutkimuksen tietoja akustisten mallien luomiseksi, jotka voivat tulkita puhetta tarkemmin.

Sana “akustinen” viittaa yleensä kaikkeen, mikä liittyy ääneen. Vaikka akustisia malleja käytetään useimmiten puheentunnistuksessa, niitä voidaan käyttää myös musiikissa. Musiikkiraidan akustinen malli voi tunnistaa ominaisuuksia, kuten lyöntejä minuutissa, musiikilliset näppäimet tai hallitsevat sävelmät musiikissa. Tietokoneohjelma voi käyttää näitä tietoja musiikkikappaleen tunnistamiseen tai niiden avulla voidaan määrittää löyhästi genre, johon musiikki todennäköisesti luokitellaan. Akustisia malleja käytetään myös psykoakustiikkaan kuuluvalla tutkimusalueella, jossa tutkijat toivovat oppivansa rakentamaan musiikkia, joka vaikuttaa ennustettavasti aivoihin.