Mikä on Word Sense -yksityiskohta?

Kielen tulkitsemiseen tarkoitettujen ohjelmistojen ytimessä on sanan tunteen erottelu (WSD). Epäselvät sanat tai lauseet voidaan ymmärtää monella tavalla, vaikka vain yksi merkitys on tarkoitettu. Yksinkertaistamisella pyritään selvittämään sanojen ja lauseiden tarkoitus. Tämä alue on äärimmäisen haastava ohjelmoijille, joiden tehtävänä on suunnitella tarkkoja rajapintoja puhe- ja kirjallisen kielen ja tietokoneella luotujen käännösten välisen kuilun kuromiseksi.

Ohjelmisto, joka on suunniteltu muuntamaan puhe tekstiksi, voi “kuunnella” käyttäjän puhuvan mikrofoniin ja kääntää puhutut sanat kirjoitetuiksi lauseiksi. Käyttäjä sanelee välimerkkejä ja välittää tarvittaessa sanoja, kuten “pilkku” ja “piste”. Tämä kuulostaa melko yksinkertaiselta, paitsi että monet sanat kuulostavat täsmälleen samalta.

Esimerkiksi tietää ja ei tai minä ja silmä ovat foneettisesti erottamattomia. Sanan aistinvaraisuus auttaa kääntämään “minun pitäisi tietää ensi viikolla” oikein käyttämällä käyttämällä periaatteessa “jos, niin” -sääntöjä, jotka ottavat sanan sijoittelun ja viereiset sanat huomioon aiotun sanan indikaattoreina. Tämäntyyppinen sanan merkityksen täsmennys tunnetaan ”matalana lähestymistapana”, ja se on melko tarkka, mutta siihen ei voi aina luottaa.

Toinen lähestymistapa on soveltaa “maailman tietämystä” tai sitä, mitä tietokone kielitiede kutsuu “syväksi lähestymistavaksi”. Tämä lähestymistapa perustuu sanakirjoihin, kuten sanakirjoihin ja tesaurukseen, sanan oikean merkityksen määrittämiseksi. Valitettavasti syvän lähestymistavan tietokannan suunnittelu, joka on riittävän kattava ja joka tarjoaa paremman tarkkuuden kuin matala lähestymistapa, ei ole helppo tehtävä.

Ohjelmisto, joka lukee tekstin ääneen (teksti puheeksi), vaatii myös sanan aistinvarauksen. Sana basso voi esimerkiksi tarkoittaa soitinta, nuottia tai kalaa. Jälkimmäisessä tapauksessa se lausutaan eri tavalla, jättäen WSD: n päätettäväksi, mitä ääntämistä käytetään. Jos kirjoitettu lause sattuu olemaan “Basso on raskas”, vain ympäröivien lauseiden skannaus saattaa paljastaa vihjeitä, kuten löytää sanat “kalastus”, “vene”, “telakka” tai päinvastoin “bändi” musiikki “tai” laulu “. Jos ohjelman sanamerkinnän täsmennys ei ole riittävän vankka tai jos muita vihjeitä ei ole, ohjelma voi tehdä virheitä käännöksessä.

Matalan lähestymistavan “jos, niin” -sääntöjen lisäksi oikeiden tulkintojen määrittämiseen käytetään myös algoritmeja. Yllä olevassa esimerkissä algoritmi saattaa löytää asiakirjasta avainsanoja, jotka viittaavat selvästi musiikilliseen tulkintaan, tai päinvastoin. WSD: ssä käytetään myös muita lähestymistapoja, jotka ovat pohjimmiltaan näiden perusmenetelmien tarkennuksia tai laajennuksia.
Sanan aistimisen selkeyttäminen on myös tärkeää näppäimistön korvaamiseen suunnitelluissa suullisissa komentorajapinnoissa – ei pelkästään yksinkertaisten käyttöjärjestelmäkomentojen välittämisessä, vaan myös sellaisissa monimutkaisissa tehtävissä kuin verkon tutkiminen. Muita alueita, joilla WSD: llä on rooli, ovat semanttisen verkon kehittäminen ja parannetut tekoälymallit. Itse asiassa kaikki tieteen alat, jotka tukeutuvat kielelliseen siltaan ihmisen ja koneen välillä, käyttävät sanan aistinvaraisuutta.