Mikä on taajuusluettelo?

Taajuusluettelo on työkalu kvantitatiiviseen kielelliseen analyysiin, luettelo kaikesta, mikä näkyy valitussa tekstilohkassa ja kuinka usein sitä esiintyy. Kielellinen analyysi on monialainen kenttä, joka tutkii kielen rakennetta ja sen käyttöä. Yhdistämällä antropologian, matematiikan, tietojenkäsittelytieteen ja logiikan elementtejä kielellistä analyysiä käytetään projekteissa, kuten mekaaninen käännös, salaus ja muinaisten kirjoitusten tulkinta.

Taajuusluettelot voivat olla sanoja tai kirjaimia. Kirjaintaajuuksia käytetään tyypillisesti kryptografiassa. Yksi yksinkertaisimmista koodeista on korvaava salaus, jossa jokainen kirjain korvataan toisella kirjaimella tai symbolilla. Esimerkiksi viesti “hyökkäys aamunkoitteessa” voidaan koodata nimellä “zoozhl zo azqp”. Korvauskoodien etuna on, että ne eivät vaadi koodikirjaa, mutta heikkous on, että ne voidaan murtaa vertaamalla viestin kirjainten ja kirjainyhdistelmien taajuutta yleiseen käyttöön.

Arthur Conan Doylen Tanssivien miesten seikkailu -elokuvassa kuvitteellinen etsivä Sherlock Holmes käyttää taajuusanalyysiä korvatakseen korvauslaitteen. Historiallisesti koodintekijät yrittivät erilaisia ​​temppuja vaikeuttaakseen salakirjojensa murtamista taajuusluettelolla: rullaavat salaukset, joissa käytetty korvaus riippui kirjaimen sijainnista viestissä, poistamalla tai koodaamalla välilyöntejä, jotta sanataajuuksia ei voitu käyttää, viestien säilyttäminen lyhyt ja välttäen odotetut sanat, joten koodinmurtajilla ei olisi tarpeeksi näytettä taajuusanalyysiin. Lopulta mikä tahansa salaus voidaan rikkoa riittävän suurella näytteellä, minkä vuoksi kehittyneemmistä salausprotokollista on tullut vakio.

Sanojen ja sanatyyppien taajuusluetteloita käytetään myös muinaisissa kielitutkimuksissa. Kun Jean-Francois Champollion käänsi Rosettan kiven 1820-luvulla, hänen prosessissaan käytettiin sekoitusta taajuuksien ja translitraatioiden vertailusta hieroglyfisen kielen kokoamiseksi. Tutkimukset ovat osoittaneet, että muinaisilla kielillä, kuten nykyaikaisella englannilla, 1,500–2,000 sanan ytimen sanasto kattaa 85–90 prosenttia tavallisista teksteistä, jolloin lukija voi laajentaa sanastoaan kontekstista.

Zipfin laki, joka on nimetty Harvardin kielitieteen professori George Kingsley Zipfin mukaan, on empiirinen havainto taajuusluokitusten käyttäytymisestä. Siinä todetaan, että tapahtuman taajuus on kääntäen verrannollinen tapahtuman sijoitukseen. Tapahtuma on yleensä sana tai kirjain kielellisessä taajuusluettelossa, mutta Zipfin laki on yleistetty kattamaan muut ilmiöt, kuten kaupunkiväestö ja yritysten tulot.

Taajuusluettelo on tärkeä työkalu hankkeissa, jotka auttavat tietokoneita ymmärtämään puhuttua ja kirjoitettua kieltä. Mekaaninen kääntäminen – tietokoneiden käyttö asiakirjojen kääntämiseen kielestä toiselle – on yksi esimerkki. Toinen esimerkki on Watson, luonnollisen kielen supertietokone, joka esiteltiin kilpailijana televisiopeliohjelmassa Jeopardy! helmikuussa 2011. Sekä sanojen että käyttötyyppien taajuudet sisällytetään niiden ohjelmointiin työkaluna merkityksen löytämiseen.