Mikä on merkkikoodaus?

Merkkikoodaus tietokoneohjelmoinnissa on menetelmä tai algoritmi, jota käytetään tavallisesti numeerisen esityksen löytämiseen merkistä, kuviosta tai symbolista. Merkkikoodauksen käyttö tietokoneissa on välttämätöntä, koska tieto tietokoneen muistiin ja tietokoneella luettavaan tietovälineeseen tallennetaan bittisarjoina tai numeroina. Tämä edellyttää koodauksen käyttämistä näyttöön tai ihmisen luettavaan tulostamiseen käytettävien ei-numeeristen merkkien kääntämiseen muotoon, jota tietokone voi käsitellä. Tarkemmassa sovelluksessa Web -selaimet luettavat HyperText Markup Language (HTML) -asiakirjat voivat määrittää käyttämänsä merkkikoodaustyypin, jotta selain tietää, mitä merkistöä käytetään asiakirjan tietojen näyttämisessä. Käytössä on useita koodausmalleja, vaikka monet näistä omistetuista ja vanhoista sarjoista korvataan hitaasti Unicode® -koodausstandardilla.

Tietokoneiden alkuaikoina, jolloin muistitilaa oli rajoitetusti, englanninkielisen aakkoston perusmerkit-mukaan lukien välimerkit ja numerot-tallennettiin 7-bittisiin jaksoihin, joissa oli 128 eri merkkiä. Tässä alkuperäisessä mallissa jokainen 7-bittinen tavu edusti yhtä englantilaisen aakkoston merkkiä, numeroitu järjestyksessä. Tämä merkkikoodaus oli tehokasta ja lopulta standardisoitiin ja sitä käytettiin useimmissa valmistetuissa tietokoneissa. Vaikka koodausjärjestelmä kehittyi Unicode® -koodausstandardiksi, konsepti pysyi samana. Nimittäin jokainen kielen yksittäinen merkki liittyy suoraan yksittäiseen numeroon suuressa vakiomerkistössä, ja tietokone käyttää tätä numeroa merkin tallentamiseen, käsittelyyn ja indeksointiin.

Muunlaisia ​​merkkikoodauksia kehitettiin eri syistä. Jotkut, jotka oli suunnattu nimenomaan englanninkielisille aakkosille ja jotka oli tarkoitettu käytettäviksi tekstiksi, kartoittivat merkkinsä vain 7-bittisiin sekvensseihin ja levittivät ne sitten 8-bittisille tavuille tai okteteille. Tämä vaikutti 1 bitin säästöön oktettia kohden käyttämällä tehokkaasti merkkikoodausta pakkaustyypinä. Muut koodausmenetelmät yrittivät tarjota perustietoja merkistä ja sitten lisämerkkejä, jotka edustavat erityisiä aksentteja, joita voitaisiin käyttää kirjoitettaessa eri kielellä, vaikkakin niistä suurelta osin luovuttiin yksinkertaisempien henkilökohtaisten koodausmenetelmien vuoksi.

HTML -asiakirjoissa merkkikoodaus on suunnilleen sama kuin laajempi käsite, paitsi että määritelty koodaus käsittää koko merkkijoukon. Tämä voi olla tärkeää paitsi vieraille kielille myös asiakirjoille, joissa käytetään erityisiä luonnontieteellisiä tai matematiikan symboleja, joita ei ole kaikissa merkistöissä. Se voi myös olla hyödyllinen välimerkkien ja muiden kuvioiden käyttämisessä, joita ei välttämättä ole tai jotka on kartoitettu eri tavalla koodausmalleissa. Asiakirjat, jotka eivät määrittele oikein epätyypillistä merkkikoodausta, voivat näkyä väärin tai olla täynnä järjettömiä merkkejä ja paikkamerkkejä luettavissa olevien tietojen sijasta.