Mikä on Lexical Analysis?

Leksinen analyysi on prosessi, jossa otetaan merkkijono – tai yksinkertaisemmin teksti – ja muutetaan se merkityksellisiksi ryhmiksi, joita kutsutaan tunnuksiksi. Tätä menetelmää voidaan käyttää monenlaisissa sovelluksissa tietokoneiden kielten tulkinnasta kirjojen analysointiin. Leksinen analyysi ei ole synonyymi jäsentämiselle; pikemminkin se on koko jäsennysprosessin ensimmäinen vaihe ja luo raaka -ainetta myöhempää käyttöä varten.

Tokenien rakennuspalikoita, joita kutsutaan myös lekseemeiksi, voidaan luoda monin tavoin leksikaalisen analyysin edellyttämän kieliopin mukaan. Yleinen esimerkki tästä on lauseiden jakaminen sanoiksi; tämä tehdään usein jakamalla lauseet välilyönnien ympärille. Jokainen ilman välilyöntejä luotu jatkuva merkkijono on lekseemi. Tekstimerkkijonot voidaan jakaa yhdelle tai useammalle merkkityypille, jolloin voidaan luoda useita erilaisia ​​leksemoja, joiden monimutkaisuus vaihtelee. Merkit luodaan sen jälkeen, kun jokainen lekseemi on arvioitu ja paritettu vastaavan arvon kanssa; Määritelmän mukaan tunnukset viittaavat tähän pariliitokseen, ei vain sanastoon.

Leksinen analyysi, hieman intuitiivisesti, poistaa tekstin merkkijonon kontekstistaan. Sen tarkoituksena on vain luoda rakennuspalikoita jatkotutkimuksia varten, ei määrittää, ovatko kyseiset kappaleet päteviä vai virheellisiä. Tietokoneen kielen tulkinnassa validointi suoritetaan syntaksi -analyysillä, ja tekstin validointi voidaan tehdä kontekstin tai sisällön kannalta. Jos syöttöjono on jaettu kokonaan sopiviksi lekseemeiksi ja jokaisella niistä on sopiva arvo, analyysin katsotaan onnistuneen.

Ilman kontekstia tai kykyä suorittaa validointia leksistä analyysiä ei voida luotettavasti käyttää syöttövirheiden löytämiseen. Leksisellä kieliopilla voi olla virhearvoja, jotka on määritetty tietyille lekseemeille, ja tällainen analyysi voi myös havaita laittomia tai epämuodostuneita tunnuksia. Vaikka laittoman tai väärin muotoillun tunnuksen löytäminen ilmoittaa virheellisestä syötteestä, sillä ei ole väliä muiden tunnusten kelvollisuudessa, joten se ei ole ehdottomasti validointityyppi.

Vaikka leksikaalinen analyysi on erottamaton osa monia algoritmeja, sitä on usein käytettävä yhdessä muiden menetelmien kanssa merkityksellisten tulosten luomiseksi. Esimerkiksi tekstimerkkijonon jakaminen sanoiksi taajuuksien määrittämiseksi käyttää lekseemien luomista, mutta sanaston luominen yksin ei voi valvoa, kuinka monta kertaa tietty sanasto esiintyy syötteessä. Leksinen analyysi voi olla hyödyllinen yksinään, jos sanat ovat itsessään huomionarvoisia, mutta suuret panokset voivat vaikeuttaa raakateksemien analysointia datamäärän vuoksi.