Äänitranskriptio on prosessi, jossa puhutut sanat otetaan ja muutetaan kirjalliseksi tekstiksi. Aiemmin ihminen istui ja kirjoitti sanoja niiden puhuttua. Nyt on olemassa erityyppisiä äänitallenteita ja useita transkriptiotapoja. Analogisten ja digitaalisten tallennusmenetelmien avulla henkilö, joka ei ole läsnä puhumisen aikana, voi edelleen kirjoittaa tekstin. Lisäksi monet ohjelmistopaketit lukevat äänitiedostoja ja muuttavat ne nopeasti tekstiksi ilman, että niitä tarvitsee toistaa.
Äänitranskriptio oli monien vuosien ajan erikoistunut ja tylsä ammatti. Ihmisten, jotka kirjoittivat puheen, oli oltava läsnä puhuessaan, mikä tarkoittaa usein sitä, että yritysten olisi palkattava ihmisiä, jotka ovat koulutettuja kehittyneisiin tekniikoihin, kuten pikavalintaan. Tämä rajoitti myös transkriptiopalvelut vain niille, joilla oli pääsy koulutettuun transkriptoijaan.
Äänitallenteiden keksimisen myötä tämä ala muuttui dramaattisesti. Tallennuksella transkriptori voi työskennellä mistä tahansa, missä tallenne voidaan toimittaa. Lisäksi transkriptio ei enää vaadi pikakirjoitusta, koska tallenne voidaan kääntää ja kuunnella useita kertoja. Yksi transkriptoija voisi työskennellä myös monien asiakkaiden parissa samanaikaisesti, koska hänen ei enää tarvinnut olla läsnä puheissa.
Tietokoneiden käytön ja Internetin nopeuden kasvaessa äänen transkription ala pysyi pitkälti samana. Tiedostot nauhojen sijaan lähetettiin usein sähköpostitse sen sijaan, että ne lähetettäisiin normaalilla postilla. Prosessin nopeus kasvoi, mutta menetelmät eivät.
Tämä muuttui 90 -luvun lopulla, kun puheentunnistus- ja saneluohjelmistoja käytettiin yhä enemmän. Uudelleenkirjoitustyö eteni yhä enemmän tietokoneavustukseen ja sitten täyteen automaatioon. Ohjelmistopaketteja tuli, jotka pystyivät lukemaan äänitiedoston sisältämät tiedot ja käyttämään puhujan aaltokuvioita puon tekstiversion rakentamiseen. Tämä kestää sekunteja eikä ihmisen transkriptoijan minuutteja tai tunteja.
Tietokoneella automatisoidussa äänen transkriptiossa on muutamia vaikeita korjattavia puutteita, joista suurin on korjaavan puheen suhteellinen puute. Kun ihmisen kirjoittaja kuuntelee tekstiä, hän voi korjata puheessa olevat pienet virheet, jotta se olisi luettavampi. Vaikka osa transkriptioista on sanatarkkoja, eli se on täsmälleen mitä henkilö sanoi, suurin osa ei ole. Ilman korjaavaa puhetta ihmisen on usein tarkistettava transkriptio virheiden varalta ennen sen käyttöä.
Toinen tietokonepohjaisen äänen transkription yleinen virhe on ihmisten puhe. Koska ihmisillä on valtava valikoima ääniä ja kuvioita puhuessaan, on erittäin vaikeaa luoda tietokoneohjelma, joka pystyy lukemaan ja kääntämään koko alueen. Tämä tarkoittaa, että tietty määrä virheitä on yleinen lähes kaikissa transkriptio -ohjelmistoissa. Yleisin tapa kiertää tämä virhe on oppitun puheen avulla, jossa ohjelma ja yksi puhuja toimivat yhdessä niin paljon, että ohjelma keskittyy yksittäisen henkilön malleihin.