Het CGN-lexicon

In versie 1.0 van het CGN is een versie van het CGN-lexicon opgenomen. Dit lexicon is binnen het project gebruikt voor controle van de spelling van de transcripties, de lemmatisering van de woordvormen en de toekenning van de woordsoortcodes. Ook zijn de lexicale gegevens aangewend om de afleiding van de fonetische transcripties en de verrijking met syntactische annotaties te ondersteunen.

Het CGN-lexicon is gebaseerd op de reeds bestaande elektronische bronnen CELEX, RBN, PAROLE, FONILEX, Van Dale, de Woordenlijst Nederlandse Taal (Groene Boekje) en het Corpus Uit den Boogaart, en verder aangepast aan en aangevuld met voor analyse van het CGN-corpus benodigde informatie.  Het bestaat uit twee delen: een standaardlexicon met aaneengeschreven woordvormen en een apart lexicon voor meerwoordsuitdrukkingen. Beide lexica vermelden alleen woorden of uitdrukkingen die in het corpus voorkomen. Ze sluiten corpuswoorden uit waarvoor uitgebreide lexicale informatie irrelevant is, zoals versprekingen en in de spraak afgebroken woorden. De lexiconfiles worden geleverd in twee formaten: plat ASCII (tekstformaat) en HTML voor consultatie een webbrowser. De bestanden zijn te vinden op deze DVD in de directories /data/lexicon/text/ en /data/lexicon/html/ Uitgebreide informatie over het standaard (enkelwoords) lexicon en het meerwoordslexicon is te vinden op resp. README_cgnlex7.htm en README_cgnmlex.htm

De lexica bevatten gegevens over woordvorm, woordsoort, lemma, syntax, orthografische status, uitspraak, morfologie en (dis)continuïteit van de meerwoordsuitdrukking.