Leksinen tiheys viittaa sanaston ja toiminnallisten sanojen suhteeseen missä tahansa tekstissä tai tekstikokoelmissa. Se on laskennallisen kielitieteen ja kielellisen analyysin haara. Se liittyy sanastoon, jokaisen yksilön tunnettuihin sanoihin, ja sitä voidaan käyttää vertaamaan minkä tahansa henkilön puhuttua ja kirjoitettua sanastoa. Sanasto eroaa koko sanastosta, koska se ei sisällä toiminnallisia sanoja, kuten pronomineja ja hiukkasia.
Puheen tai tekstin tiheys lasketaan vertaamalla sanastojen ja funktionaalisten sanojen lukumäärää. Lyhyet lauseet ja pienet tekstit voidaan laskea käyttämällä henkistä laskutoimitusta tai yksinkertaista laskemista. Suuremmat vertailut, esimerkiksi Charles Dickens tai William Shakespeare, tehdään syöttämällä tiedot tietokoneohjelmaan. Ohjelma seuloo tekstin toiminnallisiksi ja leksikaalisiksi sanoiksi.
Tasapainoinen leksikaalinen tiheys on noin 50 prosenttia. Tämä tarkoittaa sitä, että puolet jokaisesta lauseesta koostuu sanastoista ja puolet toiminnallisista sanoista. Pienitiheyksisen tekstin suhde on alle 50:50 ja suuren tiheyden tekstissä on yli 50:50. Akateemiset tekstit ja hallitus, ammattikielillä täytetyt asiakirjat tuottavat yleensä suurimmat tiheydet.
Yksi virhe leksikaalisen tiheyden laskennassa on se, että siinä ei oteta huomioon muodostavien sanojen eri muotoja ja tapauksia. Tilastollisen analyysin tavoitteena on vain tutkia sanatyyppien suhdetta. Se ei tuota tutkimusta yksittäisen henkilön leksikaalisesta tiedosta. Jos näin olisi, leksikaalinen tiheysanalyysi erottaisi muodot, kuten “anna” ja “antoi”. Teoreettisesti leksuaalista tiheyttä voidaan soveltaa teksteihin tiettyjen leksisten yksiköiden taajuuden tutkimiseksi.
Henkilön kirjallista sanastoa voidaan auttaa sanakirjojen ja sanastojen avulla. Tällaiset työkalut tarjoavat vaihtoehtoisia sanoja ja selventävät merkityksiä. Puhuessaan henkilön on luotettava vain omaan sanastoonsa. Tämä tarkoittaa, että leksikaalista tiheyttä voidaan käyttää työkaluna puhutun ja kirjoitetun sanaston vertaamiseen. Puhuttujen kielten leksikaalinen tiheys on yleensä pienempi kuin kirjoitetun tekstin.
Laskennallinen kielitiede on kielellisen analyysin tilastollinen mallinnusalue. Se syntyi kylmän sodan ja Amerikan halusta käyttää tietokoneita tekstien kääntämiseen venäjästä englanniksi. Tämä edellytti matematiikan, tilastojen, tekoälyn ja tietokoneohjelmoinnin käyttöä. Suurin ongelma ohjelmoijille oli saada tietokone ymmärtämään monimutkainen kielioppi ja kielipraktika. Tästä syntyi China Room -teoria, jonka mukaan tietokoneet voivat kääntää sanoja kirjaimellisesti, mutta eivät lopulta ymmärrä kieliä.