Sisällön määrittäminen tapahtuu, kun henkilö, ryhmä tai ohjelma päättää, mitä tietoja tulisi sisällyttää tai sulkea pois asiakirjasta tai tekstistä. Se liittyy asiakirjojen jäsentämiseen liittyviin käsitteisiin. Se liittyy myös luonnollisen kielen luomiseen ja laskennalliseen kielitieteeseen. Kukin opintoalue käyttää sisällön määrittämistä tiedon valinnassa.
Kun mietitään, mitä asiakirjaan tai tekstiin lisätään, kääntäjä on tehnyt tutkimuksensa tai hänelle on annettu kaikki saatavilla olevat tiedot. Sisällön määrittäminen kattaa tapoja, joilla nämä tiedot sisällytetään lopulliseen asiakirjaan. Tämä tehdään määrittämällä, mikä on tekstin kulma tai tavoite ja mitkä tekstin tiedot liittyvät tähän.
Toinen näkökohta sisällön määrittämisessä on sen tyyli. Tämä riippuu yleensä kohdeyleisön luonteesta. Yleisön äly ja aiheeseen perehtyminen muuttavat jaettavan tiedon leksikaalista tiheyttä ja monimutkaisuutta. Akateemikot pyrkivät tuottamaan tiheämpiä tekstejä kuin esimerkiksi juorulehdet. Muita näkökohtia ovat muodon koko, olipa kyseessä kirja, artikkeli tai tekstiviesti.
Jokainen sisällön määrittämisen tila on ihmisen tekemä. On tutkija ja kirjoittaja, jotka ovat usein, mutta eivät aina, sama henkilö, ja sitten toimittaja tai toimittajat. Jokaisella tasolla on mielipide siitä, mikä sisältö liittyy tekstin tavoitteeseen. Laskennalliset kielitieteilijät ja tietokoneinsinöörit ovat etsineet keinoja tuottaa tämä järjestelmä uudelleen tietokoneohjelmien avulla ihmisten sijasta.
Tietokoneissa on kolme laskentatekniikkaa sisällön määrittämisessä. Skeematekniikka perustuu kirjallisten tekstien tarkasteluun. Se käyttää esitutkittuja tekstejä perustana sille, mitä tietoja sisällytetään tuotettavaan tekstiin. ‘Tilastollinen’ menetelmä määrittää sisällön automaattisesti useiden yleisten tilastojen perusteella. “Selkeät perustelut” käyttävät tekoälyä (AI) tietojen tutkimiseen ja suodattamiseen.
Sisällön määrittämisen yleisenä tavoitteena on ymmärtää, miten asiakirjat tuotetaan, jotta ne voidaan toistaa tietokoneella. Tällaisen menestyksen tuloksena on tietokone, joka pystyy vastaanottamaan tietoja, suodattamaan niitä ja tuottamaan yhteenvedot tärkeimmistä tiedoista. Tietokone perustaa tällaiset asiakirjat tietojen lisäksi myös tuotettavan tekstin tavoitteisiin. Kiina -huoneteorian mukaan tämä voi tarkoittaa sitä, että tietokone pystyy ymmärtämään tiedot sen sijaan, että se pystyisi toistamaan ja laskemaan.