Puhekorpus, joka tunnetaan myös nimellä puhuttu korpus, on kokoelma puheita, jotka on tallennettu ääni- tai tekstimuodossa. Nämä kokoelmat ovat hyödyllisiä puheohjelmistojen kehittämisessä ja kielellisten tutkimusten tekemisessä. Puhekorpuksen kaksi lajiketta ovat spontaani puhe ja lukupuhe.
On tärkeää määritellä, mitä sanat “puhe” ja “korpus” tarkoittavat. Puhe koostuu ajatuksien ja tosiasioiden kokoelmista, yleensä puhutussa muodossa. Mitä tahansa puhuttua lausuntoa voidaan myös pitää puheena. Korpus puolestaan viittaa muodolliseen kokoelmaan erilaisia tietoja.
Käyttäjät luovat yleensä puhekokoelman joko äänitallenteiden tai tekstipohjaisten transkriptioiden avulla. Tallenteet voidaan tehdä äänitallennustekniikoilla ja tallentaa – usein MP3 -tiedostoina sähköisiin tietokantoihin – korpusen luomiseksi. Transkriptoija puolestaan muuntaa puhutun puheen kirjalliseksi muotoksi, joka sitten kootaan muiden transkriptioiden kanssa.
Mitä tahansa puhetyyppiä voidaan löytää puhekokoelmasta, mutta tällaiset tietokannat on yleensä jaettu kahteen luokkaan. Ensimmäinen, spontaani puhe sisältää epävirallisia puheita, joita henkilö voi pitää, kuten keskustelussa tai suullisessa tarinankerronnassa. Lukupuheilla on kuitenkin muodollisempi ja ennalta suunniteltu rakenne. Esimerkkejä voivat olla poliittiset puheenvuorot, uutislähetykset ja äänikirjojen lukeminen. Jotkut lajikkeet voivat olla riippuvaisia erityisestä kontekstista, kuten haastattelut.
Yksi puhepohjaisten työkalujen suuri etu on niiden käytännöllinen hyödyllisyys puhepohjaisten ohjelmistojen luomisessa. Esimerkiksi monet tietokoneet ja muut elektroniset laitteet tarjoavat puheentunnistusominaisuuksia lisävarusteena, kuten kirjoitetun tekstin lukeminen, puhuttujen sanojen muuttaminen tekstiksi tai puhujan tunnistaminen ainutlaatuisilla ääniominaisuuksilla. Poiminnat puhekorpusista voivat auttaa parantamaan tätä tekniikkaa soveltamalla matemaattisesti perustuvia tilastosarjoja, joita kutsutaan akustisiksi malleiksi, jokaiselle yksittäiselle äänelle. Lisäksi tietokannat voivat auttaa kielenoppimisääninauhojen kehittämisessä.
Nämä toiminnot liittyvät toiseen puhekokoelman sovellukseen. Nimittäin tutkijat voivat ottaa nämä säilytetyt ääni- tai kirjalliset tiedostot ja tutkia hienovaraisia kieliopillisia muunnelmia, jotka sisältävät kielen. Siksi puhekorpus voi toimia arvokkaana työkaluna ääntämisen, sanojen järjestyksen ja muiden kielimallien oppimiseen. Tutkijat voivat vertailla edelleen samankaltaisuuksia ja eroja eri alueellisissa murteissa ja kielissä, jos he luovat kokoelman, jossa on useita kieliä, tai monikielinen korpus. Puheeseen liittyvien korporaatioiden arviointi on erikoistunut tutkimuskeskittymä, joka tunnetaan nimellä korpuslingvistiikka, ja sen tietokoneistettua toteutusta kutsutaan laskennalliseksi lingvistiikaksi.
Monet transkriptitietokannat sisältävät merkintöjä tai tunnisteita, jotka sisältävät tietoja yksittäisistä osista tekstissä. Tätä prosessia kutsutaan huomautukseksi. Abstraktion aikana kielitieteilijät dokumentoivat ja kääntävät puheessaan erilaisia termejä. Tällainen panos voi olla hyödyllinen, jos henkilö haluaa oppia tuntemattomista sivilisaatioista tekstien kautta. Corpus -tutkimuksen viimeinen vaihe sisältää analyysin tai vertailujen ja teoreettisten ihanteiden johtamisen puhekomponenttien kokoelmasta.