Mikä on jakauman hypoteesi?

Jakeluhypoteesi esittää ajatuksen siitä, että sanat, joilla on sama merkitys, on ryhmitelty teksteihin. Idea tutkii sanojen merkityksiä ja niiden jakautumista tekstissä. Tätä verrataan sitten samankaltaisten tai toisiinsa liittyvien sanojen jakaumiin. Tällaiset tutkimukset määrittävät, että sanat esiintyvät yhdessä kontekstissaan niiden samankaltaisten tai toisiinsa liittyvien merkitysten vuoksi.

Jakautumishypoteesia ehdotti ensimmäisenä brittiläinen kielitieteilijä JR Firth. Hänet tunnetaan kuuluisimmasta lainauksesta, joka koskee ajatusta ”Sinun tulee tietää sana sen yritykseltä, jonka se pitää.” Firth, joka tunnetaan myös prosodia koskevista tutkimuksistaan, uskoi, ettei kukaan järjestelmä koskaan selitä kielen toimintaa. Sen sijaan hän uskoi, että tarvitaan useita päällekkäisiä järjestelmiä.

Amerikkalainen kielitieteilijä Zellig Harris rakensi Firthin työtä. Hän halusi käyttää matematiikkaa kielellisen tiedon tutkimiseen ja analysointiin. Hänen ajatuksensa matematiikan panoksesta tällaisiin opintoihin ovat tärkeitä, mutta hän tunnetaan myös siitä, että hän kattaa laajan valikoiman kielellisiä ideoita elämänsä aikana.

Jakautumishypoteesin tutkimukset ovat osa kielitieteen tarkastelua. Matemaattisia ja tilastollisia menetelmiä, ei kielellisiä, käytetään suurten kielitietojen seulomiseen. Tämä tarkoittaa siis sitä, että jakautumishypoteesi on osa laskennallista kielitiedettä ja tilastollista semantiikkaa. Se liittyy myös kielitieteilijöiden ja kielifilosofien ajatuksiin äidinkielen kehityksestä lapsilla.

Tilastollinen semantiikka käyttää matemaattisia algoritmeja sanojen jakautumisen tutkimiseen. Nämä tulokset suodatetaan sitten merkityksen mukaan ja tutkitaan edelleen selvittääkseen merkitykseen liittyvien sanojen jakautumisen. Tilastollisessa semantiikassa on kaksi päämenetelmää: jakelu sanaryhmien ja tekstialueiden mukaan.

Sanojen jakautumisen tutkimista toisiinsa liittyvien merkitysryhmien mukaan kutsutaan nimellä Hyperspace Analog to Language (HAL). HAL tutkii tekstiin koottujen sanojen suhteita. Tämä voi olla lauseen sisäinen tai kappaleen sisäinen, mutta harvoin kauempana. Sanojen semanttinen jakautuminen määräytyy sen mukaan, kuinka usein sanat esiintyvät vierekkäin.
Koko tekstin tutkimukset käyttävät piilevää semanttista analyysiä (LENT). Tämä on luonnollisen kielen käsittelymenetelmä. Sanat, joilla on läheinen merkitys, esiintyvät lähellä toisiaan tekstissä. Tällaisia ​​tekstejä tutkitaan klustereita varten käyttämällä matemaattista menetelmää nimeltä Singular Value Decompression (SVD).

Jakautumishypoteesiin tehdyistä tutkimuksista kerättyjä tietoja käytetään semantiikan ja sanasuhteiden rakennuspalikoiden tutkimiseen. Struktralistisen lähestymistavan ulkopuolella hypoteesi voidaan soveltaa tekoälyyn (AI). Tämä auttaisi tietokoneohjelmia ymmärtämään paremmin sanojen suhteen ja jakautumisen. Sillä on myös vaikutuksia siihen, miten lapset käsittelevät sanoja ja luovat sanayhdistelmiä ja lauseita.