Mikä on luonnollisen kielen käsittely?

Natural language processing (NLP) on tapa kääntää tietokoneiden kielten ja ihmisten kielten välillä. Tämän kentän tavoitteena on antaa tietokoneiden ymmärtää tekstin sanomatta tarkkoja arvoja ja yhtälöitä tekstin sisältämille tiedoille. Pohjimmiltaan luonnollinen kielenkäsittely automatisoi käännösprosessin ihmisten ja tietokoneiden kielten välillä. Vaikka suuri osa tästä kentästä perustuu tilastoihin ja malleihin lauseen todennäköisten merkitysten määrittämiseksi, tähän ongelmaan on ja on ollut monia erilaisia ​​lähestymistapoja. Tämän alan havainnoilla on sovelluksia puheentunnistuksen, ihmiskielen kääntämisen, tiedonhaun ja jopa tekoälyn aloilla.

Tietojenkäsittelytieteen ja kielitieteen taustalta kehittyvä luonnollinen kielenkäsittely kohtaa monia ongelmia, koska kieli ei ole aina johdonmukaista eikä kaikki vihjeet merkitykseen sisälly itse kieleen. Jopa täydellinen selvitys kielen koko kieliopista, mukaan lukien kaikki poikkeukset, ei aina salli tietokoneen jäsentää tekstin sisältämiä tietoja. Jotkut lauseet ovat syntaktisesti epäselviä, sanoilla on usein useampi kuin yksi merkitys, ja jotkut ääni- tai symboliyhdistelmät muuttavat merkitystään sanojen rajoista riippuen – kaikki tämä voi olla ongelmia tietokoneelle, joka ei ymmärrä asiayhteyttä. Vielä tärkeämpää on, että suuri osa kielestä riippuu yhteydestä fyysiseen ja sosiaaliseen universumiin – jotkut lauseet, kuten puheteot, eivät välitä yhtä paljon tietoa kuin vaikuttavat maailmaan. Vaikka tietokone ymmärtää täydellisesti ihmiskielen syntaksin ja semantiikan, analysoitavassa tekstissä ei saa olla ihmislaitteita, kuten sarkasmia tai passiivista aggressiota, jotta tietokone voi todeta oikein, mitä teksti tarkoittaa.

Ideologisesti luonnollinen kielenkäsittely on ihmisen ja tietokoneen välisen vuorovaikutuksen järjestelmä, jota ohjaa ajatus siitä, että useimmat tietokoneen käyttäjät ovat mukavampia työskentelemään tietokoneiden kanssa jo tutulla ihmiskielellä kuin sopeutumaan tietokoneen kieleen. Siinä hyödynnetään myös sitä, että suuri osa ihmisten tietämyksestä on jo koodattu ihmiskielellä ja että tätä tietoa sisältävät tekstit voidaan kääntää loogisiksi rakenteiksi, joita voidaan virtaviivaistaa tietokoneelle. Vaikka monet tämän alan hankkeet pyrkivät poimimaan tietokoneella luettavia tietoja ihmiskielisistä teksteistä, luonnollisen kielen käsittelyä käytetään myös luomaan ihmisille luettavia tekstejä tietokoneesta. Sekä näitä ymmärtämis- että tuottamismahdollisuuksia voidaan käyttää samalla tekniikalla, kuten sovelluksissa, jotka kääntävät yhdeltä ihmiskieleltä toiselle dekoodaamalla tekstin ensin tietokoneen kielelle ja koodaamalla sen sitten toisella ihmiskielellä. Luonnollisen kielen prosessoinnissa saavutetut innovaatiot soveltuvat hämmästyttävän hyvin myös tekoälyhankkeisiin, koska ihmisen kaltainen älykkyys määritellään ihmiskehon monimutkaisuuden hallinnan mukaan.