Tekstikokoelma on kokoelma suullisia tai kirjoitettuja tekstejä, jotka muodostavat perustan korpuskielitieteelliselle tutkimukselle. Näiden suurten tekstipankkien tallentaminen antaa tutkijoille mahdollisuuden analysoida minkä tahansa kielen eri puolia. Tekstikokoelma on tehokas tapa tehdä tutkimusta, koska kun aineisto on koottu, sitä voidaan käyttää tutkimaan erilaisia kieleen liittyviä kysymyksiä, kuten morfologiaa, syntaksia, sanastoa ja pragmaattisuutta. Toisin kuin vanhemmat kielellisen tutkimuksen menetelmät, tekstikorpussa tutkijat voivat tarkastella kieltä sen mukaan, miten sitä todellisuudessa käytetään kontekstissa, eikä sen mukaan, miten sitä hypoteettisesti voitaisiin käyttää. Kielitieteilijöillä on tyypillisesti pääsy paljon suurempiin datanäytteisiin kuin silloin, kun heidän oli rajoituttava tietoihin, jotka he voisivat kerätä itsensä rajoitetun ajan rajoitetuilla taloudellisilla resursseilla.
Corporat tallennetaan tyypillisesti tietokoneeseen, joten tietokoneohjelmia voidaan luoda tutkimuksen helpottamiseksi. Yksi yleinen tapa käyttää tekstikorpusta on laskea tekstien sanojen kokonaismäärä ja laskea ja sijoittaa tiettyjen sanojen esiintymiskerrat. Suhde, joka luodaan sanojen kokonaismäärän ja tiettyjen sanojen välillä, tunnetaan Zipfin laina. Tämä suhde auttaa selittämään sanan taajuuden kielellä. Zipfin lain ymmärtäminen auttaa tietokoneohjelmoijia suunnittelemaan tietokoneohjelmistoja, jotka täyttävät tietyn kielen vaatimukset. He voivat laskea ja ennustaa, kuinka usein tiettyjä sanoja ja lauseita käytetään syöttönä.
Toinen tapa käyttää tekstikorpussi on merkitä siihen tietyt elementit, joita tutkija haluaa tutkia. Esimerkki siitä, miten tätä käytetään, on laskea, kuinka monta kertaa passiivinen ääni esiintyy eri tekstilajeissa. Tunnisteista on ollut hyötyä myös tietokoneohjelmien luomisessa, jotka auttavat ihmisiä heidän jokapäiväisessä elämässään. Osa puheesta -koodaus on ollut kriittinen puheentunnistusohjelmistojen kehittämiselle. Esimerkiksi englanniksi samalla sanalla voi olla useampi kuin yksi puheen osa. Monitavaisia sanoja korostetaan usein eri tavalla, mikä ilmaisee, mitä puheen osaa käytetään. Substantiivi “esine” painottaa ensimmäistä tavua, mutta verbi “esine” korostetaan toisessa tavussa. “Objektin” substantiivimuodon lisääminen auttaa tietokoneohjelmaa lukemaan sen ääneen oikein ja tunnistamaan sen, kun ihminen sanoo “esine”.
Tekstikokoelmat ovat hyödyllisiä sekä ihmisten kielitieteen että laskennallisen kielitieteen kannalta. Niiden avulla voidaan tehdä tutkimusta, joka auttaa ihmisiä ymmärtämään paremmin ihmisten käyttämää kieltä, mikä puolestaan auttaa kehittämään tietokoneiden käyttämää kieltä. Äänentunnistustekniikassa on tehty suuria harppauksia, joiden avulla kuluttajat voivat hallita suullisesti tietokoneita toimistoissaan, kodeissaan ja ajoneuvoissaan. Jatkuva kehitys antaa ihmisille mahdollisuuden kommunikoida tietokoneiden kanssa yhtä luonnollisesti kuin toistensa kanssa.