Het CGN-Lexicon

1 maart 2004
 
Richard Piepenbrock
Mila Groot
Raffaela Vlot
Maarten Jansonius

Algemene informatie

Het CGN-Lexicon, zoals dat geleverd wordt als onderdeel van de Eindrelease (Versie 1.0) van het CGN-Corpus, bevat vrijwel alle types (unieke woordvormen) uit het corpus. Het lexicon vermeldt alleen woorden die in het corpus voorkomen en sluit die types uit, waarvoor uitgebreide lexicale informatie irrelevant is. Dat laatste geldt voor versprekingen, in de spraak afgebroken woorden, niet ingeburgerde vreemdtalige woorden, leestekens en onverstaanbare uitingen.

Dit lexicon bevat uitsluitend aaneengeschreven woordvormen; meerwoordsuitdrukkingen met spaties worden geleverd in een apart CGN-Meerwoordslexicon met als filenaam cgnmlex.txt. Wel zijn in dit lexicon alle losse delen van deze meerwoordsuitdrukkingen opgenomen.

Het CGN-Lexicon telt 14 kolommen, waarvan de eerste 4 (Id-Nummer Woordvorm, Orthografie Woordvorm, Woordsoort en Lemma) altijd gevuld zijn. De kolom Gebruik bevat slechts codes voor een regionale of stijlvariant, en de kolommen Syntax, Uitspraak (4 subkolommen), Morfologie en Definitie zijn voorzien van codes voor zover deze voorhanden zijn in de bronlexica CELEX (Centrum voor Lexicale Informatie) 1 en RBN (Referentiebestand Nederlands) 2, of gegenereerd op basis van de uitspraken in CELEX en FONILEX (Fonetisch Lexicon Vlaams) 3.
 

Formaat en inhoud van het CGN-Lexicon

Het lexicon wordt geleverd in twee fileformaten:
  1. Een standaard tekstfile (platte ASCII) met als naam cgnlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
  2. Een XML-file met als naam cgnlex.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) lex.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.
De lexiconfiles zijn geordend op Orthografie Woordvorm, Woordsoort en vervolgens op Lemma.
Aantal woordvormingangen (type-woordsoortparen) 181.579
Totaal aantal ingangen, inclusief syntaxpatronen 229.104
Aantal velden 14

Inhoud van de lexiconvelden

  1. CGN_LEXICON.Id-Nummer Woordvorm ::= [0-9]+

  2. Uniek volgnummer (Id = 'identificatie') voor elk woordvorm-tag-paar. Het is niet uniek per regel, omdat voor elke type-tag-combinatie meer dan één syntactisch complementatiepatroon voor kan komen. Orthografisch identieke woordvormen kunnen sowieso twee of meer keren vóórkomen indien zij behoren tot verschillende lemmata, of binnen één lemma indien zij over onderscheiden morfosyntactische codes kunnen beschikken, zoals 'vatten' als infinitiefvorm, tegenwoordige tijd meervoud en verleden tijd meervoud van het werkwoord 'vatten'.
  3. CGN_LEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

  4. Orthografische representatie van de woordvorm, oftewel het flexieparadigma behorend bij het lemma, voor zover die flexies voorkomen in het CGN-Corpus. Diakritische tekens worden weergegeven in SGML-formaat, in de volgende standaardsequentie:

    "&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

    In concreto:
    "&" +  "a" + "grave"  + ";" 
    "c"  "acute" (= aigu) 
    "e"  "circ" (= circonflexe) 
    "i"  "uml" (= trema) 
    "n"  "cedil" (= cedille) 
    "o"  "tilde" 
    "u"  "ring" (alleen in de namen 'Åkermans' en 'Ålesund') 
    "A" 
    "C" 
    "E" 
    "I" 
    "N" 
    "O" 
    "U" 
    b.v.  'inconveniëren' voor 'inconveniëren' 
    en 
    'Française' voor 'Française' 

    Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&' (ampersand).

  5. CGN_LEXICON.Woordsoort ::=
  6. "ADJ(" waarde ("," waarde)* ")" |
    "BW(" ("dial"|"") ")" |
    "LID(" waarde ("," waarde)* ") |
    "N(" waarde ("," waarde)* ")" |
    "SPEC(afgebr)" |
    "SPEC(deeleigen)" |
    "SPEC(meta)" |
    "SPEC(onverst)" |
    "SPEC(vreemd)" |
    "TSW(" ("dial"|"") ")" |
    "TW(" waarde ("," waarde)* ")" |
    "VG(" waarde ")" |
    "VNW(" waarde ("," waarde)* ")" |
    "VZ(" waarde ("," waarde)* ")" |
    "WW(" waarde ("," waarde)* ")"
    Waarden voor de open woordklassen volgens het document Part of Speech Tagging en Lemmatisering (Van Eynde 2003):
    ADJ
    adjectief
    BW
    bijwoord
    LID
    lidwoord
    N
    substantief
    SPEC(afgebr)
    code vrijwel alleen in lexicon gebruikt voor delen van meerledige samentrekkingen ('in- en uitvoer'); in het corpus ook gebruikt voor elk in spraak afgebroken woord
    SPEC(deeleigen)
    code voor deel van een meerledige eigennaam
    SPEC(meta)
    code voor woord in zelfnoemfunctie
    SPEC(onverst)
    code voor onverstaanbare uiting
    SPEC(vreemd)
    code voor uiting in vreemde taal of niet ingeburgerd leenwoord
    TSW
    tussenwerpsel
    TW
    telwoord
    VG
    voegwoord
    VNW
    voornaamwoord
    VZ
    voorzetsel
    WW
    werkwoord
  7. CGN_LEXICON.Lemma ::= ([0-9][A-Z][a-z][&'-;_])+

  8. Orthografische representatie van het lemma, d.w.z. het trefwoord dat dient ter karakterisering van het complete flexieparadigma. Diakritische tekens als bij woordvorm. Bij woordvormen met woordsoort 'SPEC' wordt standaard een underscore in plaats van een lemmawaarde toegekend.
  9. CGN_LEXICON.Id-Nummer Lemma: ::= [0-9]+

  10. Volgnummer (Id = 'identificatie') dat aangeeft welke woordvormen behoren tot één flexieparadigma. Het vóórkomen van orthografisch identieke lemmata met verschillende Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische eigenschappen, zoals verschillend genus bij 'het blik' en 'de blik', verschillende woordsoort bij 'het leven' en 'wij leven' en verschillende derivationele morfologie bij 'koker' ('cilinder' vs. 'iemand die kookt'), of onderscheiden uitspraak, zoals 'band' ('stof': /bAnt/ vs. 'muziekgroep': /bEnt/). Deze onderscheiden vormkenmerken dienen dan wel samen te gaan met een betekenisverschil; zodoende worden 'de matras' en 'het matras' gewoon behandeld als één lemma. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie.
  11. CGN_LEXICON.Syntax

  12. De mogelijke syntactische complementatiepatronen per woordvorm. Per woordvorm zijn meerdere patronen mogelijk, die dan in afzonderlijke records onder elkaar worden weergegeven met eenzelfde woordvorm-woordsoortcombinatie. De patronen zijn afgeleid uit de dwarsdoorsnede van CELEX en RBN. Patronen die na conversie alleen in CELEX of in RBN voorkwamen, zijn dus niet opgenomen. De gebruikte waarden zijn conform het document CGN Syntactische Annotatie (Hoekstra et al. 2004).
  13. CGN_LEXICON.Status ::= ("B" | "INF" | "*d" | "*u" | "*v" | "*x" | "*z")("," Status)* | NULL

  14. Status van woordvorm:
    B = Belgicisme
    INF = informeel
    *d = dialect
    *u = al dan niet opzettelijke verspreking
    *v = niet ingeburgerd vreemdtalig woord
    *x = slecht verstaanbaar woord
    *z = zwaar dialectisch uitgesproken woord, getranscribeerd in genormaliseerde spelling
  15. CGN_LEXICON.Uitspraak CGN Nederlands Normaal ::= [+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

  16. Canonieke (standaard) Nederlandse uitspraakrepresentatie gegenereerd met de CGN grafeem-foneemomzetter 4, getraind op de CELEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
  17. CGN_LEXICON.Uitspraak CGN Vlaams Normaal ::= [*+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

  18. Canonieke (standaard) Vlaamse uitspraakrepresentatie gegenereerd met de CGN grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
  19. CGN_LEXICON.Uitspraak CGN Vlaams Formeel ::= [+2:@AEGINOSYZ`abdefghijklmnoprstuvwxyz]*

  20. Zeer formele Vlaamse uitspraakrepresentatie gegenereerd met de CGN grafeem-foneemomzetter, getraind op de FONILEX-uitspraaktranscriptie. Deze representatie bevat geen syllabegrenzen of klemtoonmarkering.
  21. CGN_LEXICON.Uitspraak CELEX ::= ['+-2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

  22. Canonieke uitspraakrepresentatie van de woordvorm inclusief syllabegrenzen en hoofdklemtoon, voor zover voorhanden in het CELEX-bronlexicon. Deze representatie geeft alleen die assimilaties weer, welke leiden tot veranderingen op foneemniveau, zoals Auslautverhärtung ("paard": /'part/) en regressieve assimilatie en degeminatie ("inboedel": /'Im-bu-d@l/; "bloeddruk": /'blu-drYk/) en is daarom te kenschetsen als fonemisch, op een niveau tussen fonologisch en fonetisch in.

    De representatie is in de CGN-foneemset, inclusief de palatale nasaal /J/.

  23. CGN_LEXICON.Morfologie

  24. Hiërarchische morfologische segmentatie van het lemma. Deze representatie betreft het lemma, en omvat dus slechts derivationele en compositionele morfologie, en geen karakterisering van de inflectionele kenmerken van de woordvorm. De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische representatie van het lemma herhaald wordt. De verschillende niveaus van segmentatie, van het gehele lemma tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in combinatie met een punt voor het andere lid).

    Overzicht van de woordsoortcodes:

    De rol van het affix in de afleiding of samenstelling wordt weergegeven door een verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van de morfemen die dienen als input voor het morfologisch proces, en de woordsoort vóór de streep duidt op de woordsoort van de output van het morfologisch proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat '[N|A.]' bij 'arrogantie' voor het affigeringsproces waarbij een adjectief d.m.v. een achtervoegsel '-ie' tot een substantief kan worden omgevormd:
    ((arrogant)[A],(ie)[N|A.])[N]
    Voorbeelden van morfologische segmentatie:
    boek:
    (boek)[N] (nl. monomorfematisch)
    telraam:
    ((tel)[V],(raam)[N])[N]
    hondenhok:
    ((hond)[N],(en)[N|N.N],(hok)[N])[N]
    onmondig:
    ((on)[A|.A],((mond)[N],(ig)[A|N.])[A])[A]
    gehemelte:
    ((ge)[N|.Nx],(hemel)[N],(te)[N|xN.])[N]
    arbeidsovereenkomst:
    ((arbeid)[N],(s)[N|N.N],(((overeen)[B],(kom)[V])[V],(st)[N|V.])[N])[N]
  25. CGN_LEXICON.Corpus Status ::= ( "C" | "I" | "O" | "V" ) | NULL

  26. Code die de orthografische status aangeeft van het in het corpus aangetroffen type: Als de spelling van de woordvorm in het corpus in orde bevonden is, krijgt de lexiconingang de code V (gevalideerd). Bij een incorrecte spelling wordt de code I (incorrect) toegekend. Indien validatie van de woordvorm niet meer mogelijk was, wordt geen uitspraak gedaan over de correctheid en krijgt de woordvorm het neutrale label O (ongevalideerd). De code C (correct) wordt gebruikt voor alternatieve, correcte lemmatiseringen van de gevallen die als I, O of V zijn aangemerkt, zoals:
    396259\asielaanvragen\N(soort,mv,basis)\asielaanvrage\133817\C\
    392625\asielaanvragen\N(soort,mv,basis)\asielaanvraag\131545\V\
  27. CGN_LEXICON.Definitie

  28. Voor alle lemmata die meer dan eens met dezelfde woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken (zoals de morfosyntactische eigenschappen genus of derivationele morfologie), in combinatie met een betekenisverschil, is een bondige definitie opgenomen ter onderscheiding van de lemmata, bijvoorbeeld:
    73704\doorlopen\WW(inf,vrij,zonder)\doorlopen\23802\dor-'lo-p@\V\bewegen door, tot het einde volgen\
    73705\doorlopen\WW(inf,vrij,zonder)\doorlopen\501446\'dor-lo-p@\V\verder lopen, vermengen van kleuren\

1  Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

2  Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

3  FONILEX. Centre for Computational Linguistics, Katholieke Universiteit Leuven & Centrum voor Nederlandse Taal en Spraak, Universiteit Antwerpen & Vakgroep voor Electronica en Informatiesystemen, Universiteit Gent

4  CGN grafeem-foneemomzetter. Zie:
Véronique Hoste, Steven Gillis en Walter Daelemans (Universiteit Antwerpen), A Rule Induction Approach to Modeling Regional Pronunciation Variation. In: Proceedings of COLING 2000, Saarbrücken, Germany. San Francisco: Morgan Kaufman Publishers, 2000, pp. 327-333.
en:
Véronique Hoste, Steven Gillis en Walter Daelemans, Machine Learning for Modeling Dutch Pronunciation Variation. Proceedings of the tenth CLIN meeting, Utrecht, The Netherlands.