Mikä on Corpus Linguistics?

Korpuslingvistiikka kielentutkimusta tosielämän esimerkein. Se ei ole kielitieteen haara, vaan metodologia tai lähestymistapa. Corpus, latinankielinen sana “keho”, viittaa luonnollisten tekstien runkoon, ja lähestymistapaan sisältyy kielenkäyttömallien löytäminen korpusa analysoimalla. Korpuslingvistiikka on kokemassa paluun, kun tietokoneohjelmat ovat mullistaneet lähestymistavan.

Vanhempien päiväkirjat lapsen puheesta, kun hän ensimmäisen kerran oppii kielen, on yksinkertainen esimerkki korpuksesta, jota voidaan sitten tutkia kielimallien oppimiseksi. Vieraiden kielten opetuksessa 20-luvun alkupuoliskolla laadittiin opiskelijoille sanaluetteloita usein kohdekielen korpusista. Arvostettu kielitieteilijä Noam Chomsky ei pitänyt korpusten käyttöä pätevänä työkaluna, koska hän uskoi kielitaidon olevan tärkeämpi kuin suoritustiedot. Varhainen korpuslingvistiikka perustui suurelta osin olettamukseen, että luonnollisessa kielessä on rajallinen määrä lauseita ja että ne voidaan kerätä ja arvioida.

60- ja 70-lukujen suosion pudottua korpuslingvistiikka on elpymässä tietokoneen metodologisen käytön vuoksi. Concordance-ohjelma on kielitieteilijöiden yleisimmin käyttämän ohjelmiston nimi. Vaikka kuvioiden etsiminen miljoonien sanojen rungosta veisi ihmiseltä liian paljon aikaa ja tulokset olisivat vähemmän tarkkoja, tietokone voi etsiä ja hakea tietoa muutamassa sekunnissa. Se voi laskea taajuuden, lajitella tietoja ja hyödyntää korpuja tavoilla, jotka olivat aiemmin mahdottomia.

Korpuspohjaisella analyysillä voidaan tarkastella, kuinka rekisteri vaikuttaa kieleen; kielenkäyttömallit, kuten se, miten miehet ja naiset käyttävät tunnistekysymyksiä eri tavalla; kielimallien käyttöaste; ja kielenkäytön vaihteluun vaikuttavat tekijät. Opetus voi hyötyä korpuslingvistiikasta opetussuunnitelman suunnittelussa, käytettyjen materiaalien kehittämisessä ja luokkahuoneessa käytettävien toimintojen tyypeissä. Opiskelijat voisivat hyötyä lähestymistavasta, koska he pystyvät määrittelemään selkeämmin yleisten sanojen erilaiset käyttötavat ja merkitykset, kirjoitetun ja puhutun kielen luontaiset erot sekä hyödynnettävät ilmaukset ja kollokaatiot. Korpuksena olevaa tietojoukkoa päivitetään jatkuvasti ja se on todellisen sosiaalisen vuorovaikutuksen tulos. Korpuset ovat siis naturalistista tietoa, johon on helppo päästä käsiksi ja löydöksiä voidaan yleistää.