Het CGN-Meerwoordslexicon

1 maart 2004
 
Richard Piepenbrock
Mila Groot
Raffaela Vlot
Maarten Jansonius

Algemene informatie

Het CGN-Meerwoordslexicon, zoals dat geleverd wordt als onderdeel van de Eindrelease (versie 1.0) van het CGN-Corpus, is gebaseerd op een inventarisatie van alle meerwoordsuitdrukkingen die voorkomen in een reeks bronbestanden (CELEX 1, RBN 2, Woordenlijst Nederlandse Taal (Groene Boekje, 1995), Corpus Uit den Boogaart 3) en het Van Dale Groot Woordenboek der Nederlandse Taal 4), aangevuld met alle in het CGN-Corpus aangetroffen meerledige expressies. Het lexicon vermeldt alleen die meerwoordsuitdrukkingen die in het corpus voorkomen.
 
 

Formaat en inhoud van het CGN-Meerwoordslexicon

Het lexicon wordt geleverd in twee fileformaten:
  1. Een standaard tekstfile (platte ASCII) met als naam cgnmlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
  2. Een XML-file met als naam cgnmlex.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) mlex.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.
Het CGN-Meerwoordslexicon telt 11 kolommen. De beide lexiconfiles zijn geordend op Orthografie Meerwoord en vervolgens op Woordsoort Meerwoord, Id-Nummer Meerwoordslemma en Volgnummer van de leden binnen de meerwoordsuitdrukking.
Aantal unieke meerwoordsuitdrukkingen 23.567
Aantal unieke meerwoordslemmata 18.593
Totaal aantal meerwoordsingangen 53.704

Inhoud van de lexiconvelden

  1. CGN_MLEXICON.Orthografie Meerwoord ::= ([0-9][A-Z][a-z][ &'*-;])+

  2.  

     

    Orthografische representatie van de meerwoordsuitdrukking. Het flexieparadigma behorend bij het meerwoordslemma is hier opgenomen, voor zover die flexies voorkomen in het CGN-Corpus. Diakritische tekens worden weergegeven in SGML-formaat, in de volgende standaardsequentie:

    "&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

    In concreto:
    "&" +  "a" + "grave"  + ";" 
    "c"  "acute" (= aigu) 
    "e"  "circ" (= circonflexe) 
    "i"  "uml" (= trema) 
    "n"  "cedil" (= cedille) 
    "o"  "tilde" 
    "u"  "ring" 
    "A" 
    "C" 
    "E" 
    "I" 
    "N" 
    "O" 
    "U" 
    b.v.  'à la carte' voor 'à la carte' 
    en 
    'Gustaf Åkermans' voor 'Gustaf Åkermans' 

    Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&'.

  3. CGN_MLEXICON.Volgnummer ::= [1-9]+

  4. Dit nummer geeft de positie van de Woordvorm aan in de zin ten opzichte van de andere leden van de meerwoordsuitdrukking.
  5. CGN_MLEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

  6. Orthografische representatie van de woordvorm, d.w.z. de afzonderlijke leden van de meerwoordsuitdrukking. Diakritische tekens als bij woordvorm.
  7. CGN_MLEXICON.Woordsoort Woordvorm ::=

  8. De woordsoort van de woordvorm, d.w.z. van de afzonderlijke leden van de meerwoordsuitdrukking.
    "ADJ(" waarde ("," waarde)* ")" |
    "BW("")" |
    "LID(" waarde ("," waarde)* ") |
    "N(" waarde ("," waarde)* ")" |
    "SPEC(deeleigen)" |
    "SPEC(meta)" |
    "SPEC(onverst)" |
    "SPEC(vreemd)" |
    "TSW()" |
    "TW(" waarde ("," waarde)* ")" |
    "VG(" waarde ")" |
    "VNW(" waarde ("," waarde)* ")" |
    "VZ(" waarde ")" |
    "WW(" waarde ("," waarde)* ")"
    Waarden voor de open woordklassen volgens het document Part of Speech Tagging en Lemmatisering (Van Eynde 2003):
    ADJ
    adjectief
    BW
    bijwoord
    LID
    lidwoord
    N
    substantief
    SPEC(deeleigen)
    code voor deel van een meerledige eigennaam
    SPEC(meta)
    code voor woord in zelfnoemfunctie
    SPEC(onverst)
    code voor onverstaanbare uiting
    SPEC(vreemd)
    code voor uiting in vreemde taal of niet ingeburgerd leenwoord
    TSW
    tussenwerpsel
    TW
    telwoord
    VG
    voegwoord
    VNW
    voornaamwoord
    VZ
    voorzetsel
    WW
    werkwoord
  9. CGN_MLEXICON.Woordsoort Meerwoord ::=

  10. De woordsoort van de meerwoordsuitdrukking, indien men de gehele uitdrukking grammaticaal als één woord wenst te beschouwen. Waarden als bij de woordsoort van de woordvorm, met de volgende aanvulling:
    COMB(eigen)
    code voor meerledige eigennaam of meerledige titel
    Waarschuwing: dit veld is alleen opgenomen in de tekstversie cgnmlex.txt en niet in de XML-versie cgnmlex.lex. Het is daarmee een tentatieve code, die in de toekomst nog gewijzigd kan worden.
  11. CGN_LEXICON.Id-Nummer Meerwoordslemma: ::= [0-9]+

  12. Volgnummer (Id = 'identificatie') dat aangeeft welke meerwoordsuitdrukkingen kunnen beschouwd worden als behorend tot één flexieparadigma. Het onderscheid is alleen relevant voor scheidbaar samengestelde werkwoorden. Het vóórkomen van orthografisch identieke (meerwoords)lemmata met verschillende Id-Nummers impliceert dat het gaat om lemmata met onderscheiden morfosyntactische (b.v. sterke of zwakke vervoeging) of fonetische (b.v. klemtoon) eigenschappen, in combinatie met een betekenisverschil. Het betekenisonderscheid wordt bondig aangeduid in het veld Definitie Meerwoordslemma.
  13. CGN_MLEXICON.Meerwoordslemma ::= ([0-9][A-Z][a-z][&'*-;_])*

  14. Het lemma van meerwoordsuitdrukkingen, zoals 'uitademen' bij meerledige woordvormen als '(ik) adem uit'. Bij continue meerwoordsuitdrukkigen, namelijk meerledige ingeburgerde vreemdtalige expressies, meerledige eigennamen en titels, wordt een 'dummy' lemmavorm gepostuleerd die gelijk is aan de expressie, waarbij de delen verbonden zijn door underscores, als volgt:
    pro forma\1\pro\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
    pro forma\2\forma\SPEC(vreemd)\BW()\615782\pro_forma\\\N\J\
    Kim Clijsters\1\Kim\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J\
    Kim Clijsters\2\Clijsters\SPEC(deeleigen)\COMB(eigen)\608084\Kim_Clijsters\\\J\J
  15. CGN_LEXICON.Morfologie Meerwoordslemma

  16. Hiërarchische morfologische segmentatie van het meerwoordslemma. Deze representatie betreft het meerwoordslemma, en omvat dus slechts derivationele en compositionele morfologie, en geen karakterisering van de inflectionele kenmerken van de woordvorm. De morfologische segmentatie is alleen relevant voor scheidbaar samengestelde werkwoorden. De representatie is in zoverre redundant, dat voor elke woordvorm de morfologische representatie van het meerwoordslemma herhaald wordt. De verschillende niveaus van segmentatie, van het gehele meerwoordslemma tot op diens atomaire (ondeelbare) morfemen, worden weergegeven door elkaar omvattende paren van ronde haken, waarbij elk morfeem voorzien is van een woordsoortaanduiding tussen rechte haken. Gebonden morfemen (affixen) worden aangegeven door punten, of de letter 'x' in het geval van een discontinu affix (in combinatie met een punt voor het andere lid).

    Overzicht van de woordsoortcodes:

    De rol van het affix in de afleiding of samenstelling wordt weergegeven door een verticale streep, waarbij de woordsoort achter de streep duidt op de woordsoorten van de morfemen die dienen als input voor het morfologisch proces, en de woordsoort vóór de streep duidt op de woordsoort van de output van het morfologisch proces, m.a.w. de woordsoort van het uit de morfemen gevormde complexe morfeem. Zo staat '[V|.A]' bij 'voorverwarmen' voor het affigeringsproces waarbij een adjectief d.m.v. een voorvoegsel 'ver-' tot een werkwoord kan worden omgevormd:
    voorverwarmen ((voor)[B],((ver)[V|.A],(warm)[A])[V])[V]
    Voorbeelden van morfologische segmentatie:
    dichtmaken:
    ((dicht)[A],(maak)[V])[V]
    navertellen:
    ((na)[P],((ver)[V|.V],(tel)[V])[V])[V]
    achteruitdeinzen:
    (((achter)[B],(uit)[B])[B],(deins)[V])[V]
  17. CGN_LEXICON.Definitie Meerwoordslemma

  18. Voor alle meerwoordslemmata die meer dan eens met dezelfde woordsoort zijn opgenomen om reden van onderscheiden vormkenmerken (zoals morfosyntactische eigenschappen of klemtoon) in combinatie met een betekenisverschil, is een bondige definitie opgenomen ter onderscheiding van de lemmata. Dit veld is alleen relevant voor scheidbaar samengestelde werkwoorden. Gevallen van dergelijke ambiguïteit zullen niet binnen dit lexicon optreden, maar wel in vergelijking met het enkelwoordslexicon cgnlex.txt. Bijvoorbeeld:
    loopt door\WW(pv,tgw,met-t)\501446\doorlopen\((door)[B],(loop)[V])[V]\verder lopen, vermengen van kleuren\J\N\
  19. CGN_MLEXICON.Optioneel lid ::= "J" | "N"

  20. Als de Woordvorm optioneel deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'J'. Als de Woordvorm verplicht deel uitmaakt van een meerwoordsuitdrukking, dan bevat dit veld de waarde 'N'. Zodoende krijgt 'ademt' als lid van 'inademen' en 'uitademen' de waarde 'J', terwijl 'apen' als lid van 'na-apen' de waarde 'N' krijgt.
  21. CGN_MLEXICON.Continu meerwoord ::= "J" | "N"

  22. Als de meerwoordsuitdrukking niet onderbroken kan worden in de zin, zoals bij 'Tien Voor Taal' of 'per se', krijgt de meerwoordsuitdrukking als geheel hier de waarde 'J', anders 'N', zoals voor scheidbaar samengestelde werkwoordsvormen. Uiteraard is deze waarde niet absoluut op te vatten in een corpus van gesproken taal, waar onderbreking door gevocaliseerde pauzes of correcties altijd mogelijk is.

1  Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

2  Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

3  Boogaart, P.C. Uit den (1975). Woordfrequenties: in Geschreven en Gesproken Nederlands. Utrecht: Oosthoek, Scheltema & Holkema. Elektronische versie beschikbaar als deel van Eindhoven Corpus.

4  Geerts, G. & T. den Boon (1999). Van Dale Groot Woordenboek der Nederlandse Taal. Utrecht/Antwerpen: Van Dale Lexicografie.