Het CGN-Lexicon

	1 maart 2004

	Richard Piepenbrock
	Mila Groot
	Raffaela Vlot
	Maarten Jansonius

Algemene informatie

Het CGN-Lexicon, zoals dat geleverd wordt als onderdeel van de Eindrelease (Versie 1.0) van het CGN-Corpus, bevat vrijwel alle types (unieke woordvormen) uit het corpus. Het lexicon vermeldt alleen woorden die in het corpus voorkomen en sluit die types uit, waarvoor uitgebreide lexicale informatie irrelevant is. Dat laatste geldt voor versprekingen, in de spraak afgebroken woorden, niet ingeburgerde vreemdtalige woorden, leestekens en onverstaanbare uitingen.

Dit lexicon bevat uitsluitend aaneengeschreven woordvormen; meerwoordsuitdrukkingen met spaties worden geleverd in een apart CGN-Meerwoordslexicon met als filenaam cgnmlex.txt. Wel zijn in dit lexicon alle losse delen van deze meerwoordsuitdrukkingen opgenomen.

Het CGN-Lexicon telt 14 kolommen, waarvan de eerste 4 (Id-Nummer Woordvorm, Orthografie Woordvorm, Woordsoort en Lemma) altijd gevuld zijn. De kolom Gebruik bevat slechts codes voor een regionale of stijlvariant, en de kolommen Syntax, Uitspraak (4 subkolommen), Morfologie en Definitie zijn voorzien van codes voor zover deze voorhanden zijn in de bronlexica CELEX (Centrum voor Lexicale Informatie) ¹ en RBN (Referentiebestand Nederlands) ², of gegenereerd op basis van de uitspraken in CELEX en FONILEX (Fonetisch Lexicon Vlaams) ³.

Formaat en inhoud van het CGN-Lexicon

Het lexicon wordt geleverd in twee fileformaten:

Een standaard tekstfile (platte ASCII) met als naam cgnlex.txt. Als veldscheidingsteken wordt '\' gebruikt. Letters met diakritische tekens (accenten) worden weergegeven in SGML-formaat. Deze file kan met elke eenvoudige teksteditor worden gelezen, of op grond van de unieke veldscheidingstekens worden geladen in databasesystemen als Access, ORACLE of dBase.
Een XML-file met als naam cgnlex.lex. Deze file kan worden ingelezen in een willekeurige XML-browser of -editor, en daar worden doorzocht op bepaalde waarden. Ook de bijbehorende DTD (Document Type Definition) lex.dtd is meegeleverd, zodat een indruk kan worden gegeven van de structuur van de XML-file.

De lexiconfiles zijn geordend op Orthografie Woordvorm, Woordsoort en vervolgens op Lemma.

Aantal woordvormingangen (type-woordsoortparen)	181.579
Totaal aantal ingangen, inclusief syntaxpatronen	229.104
Aantal velden	14

Inhoud van de lexiconvelden

CGN_LEXICON.Id-Nummer Woordvorm ::= [0-9]+

CGN_LEXICON.Orthografie Woordvorm ::= ([0-9][A-Z][a-z][&'-;])+

"&" + hoofdletterteken/kleine letterteken + accentrepresentatie + ";"

In concreto:

"&" + "a" + "grave" + ";"

"c" "acute" (= aigu)

"e" "circ" (= circonflexe)

"i" "uml" (= trema)

"n" "cedil" (= cedille)

"o" "tilde"

"u" "ring" (alleen in de namen 'Åkermans' en 'Ålesund')

"A"

"C"

"E"

"I"

"N"

"O"

"U"

b.v. 'inconveniëren' voor 'inconveniëren'

en

'Française' voor 'Française'

Daarnaast wordt het SGML-symbool '&' gebruikt ter representatie van het leesteken '&' (ampersand).

CGN_LEXICON.Woordsoort ::=

"ADJ(" waarde ("," waarde)* ")" |

"BW(" ("dial"|"") ")" |

"LID(" waarde ("," waarde)* ") |

"N(" waarde ("," waarde)* ")" |

"SPEC(afgebr)" |

"SPEC(deeleigen)" |

"SPEC(meta)" |

"SPEC(onverst)" |

"SPEC(vreemd)" |

"TSW(" ("dial"|"") ")" |

"TW(" waarde ("," waarde)* ")" |

"VG(" waarde ")" |

"VNW(" waarde ("," waarde)* ")" |

"VZ(" waarde ("," waarde)* ")" |

"WW(" waarde ("," waarde)* ")"

Part of Speech Tagging en Lemmatisering

ADJ

adjectief

BW

bijwoord

LID

lidwoord

N

substantief

SPEC(afgebr)

code vrijwel alleen in lexicon gebruikt voor delen van meerledige samentrekkingen ('in- en uitvoer'); in het corpus ook gebruikt voor elk in spraak afgebroken woord

SPEC(deeleigen)

code voor deel van een meerledige eigennaam

SPEC(meta)

code voor woord in zelfnoemfunctie

SPEC(onverst)

code voor onverstaanbare uiting

SPEC(vreemd)

code voor uiting in vreemde taal of niet ingeburgerd leenwoord

TSW

tussenwerpsel

TW

telwoord

VG

voegwoord

VNW

voornaamwoord

VZ

voorzetsel

WW

werkwoord

CGN_LEXICON.Lemma ::= ([0-9][A-Z][a-z][&'-;_])+

CGN_LEXICON.Id-Nummer Lemma: ::= [0-9]+

Definitie

CGN_LEXICON.Syntax

CGN Syntactische Annotatie

CGN_LEXICON.Status ::= ("B" | "INF" | "*d" | "*u" | "*v" | "*x" | "*z")("," Status)* | NULL

B = Belgicisme
INF = informeel
*d = dialect
*u = al dan niet opzettelijke verspreking
*v = niet ingeburgerd vreemdtalig woord
*x = slecht verstaanbaar woord
*z = zwaar dialectisch uitgesproken woord, getranscribeerd in genormaliseerde spelling

'B' is een code oorspronkelijk afkomstig uit het RBN-Lexicon voor woorden die beschouwd kunnen worden als 'karakteristiek voor de Vlaamse woordenschat'. Dat kan zowel slaan op woorden die alleen in Vlaanderen gangbaar zijn, zoals 'frigo' en 'jobstudent', als op woorden die gewoon Algemeen Nederlands zijn, maar in Vlaanderen in een andere dan voor het gehele taalgebied gangbare betekenis worden gebruikt, zoals 'aardig' (vreemd) en 'afschrijven' (spieken).
'INF' wordt gebruikt voor woorden die vanuit de papieren bronnen (zoals Van Dale), volgens de CGN-protocollen of het oordeel van medewerkers als behorend tot de algemene woordenschat worden beschouwd, maar toch gezien zouden kunnen worden als informeel, idiosyncratisch of regionaal gemarkeerd. In de huidige versie worden de diminutiefvormen eindigend op '-ie(s)' (Noord-Nederlands) en '-ke(n)(s)' (Vlaams) niet aangemerkt als dialectisch, maar houden ze wel de code 'INF':

bakkie\N(soort,ev,dim,onz,stan)\bakkie\INF\
beessie\N(soort,ev,dim,onz,stan)\beest\INF\

'*d' wordt gebruikt voor woorden die door de transcribeurs en de lexicologen zeker als dialect worden aangemerkt. Voorbeeld:

benne\WW(pv,tgw,mv)\zijn\*d\

CGN_LEXICON.Uitspraak CGN Nederlands Normaal ::= [+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

⁴

CGN_LEXICON.Uitspraak CGN Vlaams Normaal ::= [*+2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

CGN_LEXICON.Uitspraak CGN Vlaams Formeel ::= [+2:@AEGINOSYZ`abdefghijklmnoprstuvwxyz]*

CGN_LEXICON.Uitspraak CELEX ::= ['+-2:@AEGIJNOSYZabdefghijklmnoprstuvwxyz~]*

De representatie is in de CGN-foneemset, inclusief de palatale nasaal /J/.

CGN_LEXICON.Morfologie

Overzicht van de woordsoortcodes:

N = substantief
A = adjectief
Q = telwoord
V = werkwoord
D = lidwoord
O = voornaamwoord
B = bijwoord
P = voorzetsel
C = voegwoord
I = tussenwerpsel
X = restcategorie
. = affix
x = deel van discontinu affix

((arrogant)[A],(ie)[N|A.])[N]

boek:

(boek)[N] (nl. monomorfematisch)

telraam:

((tel)[V],(raam)[N])[N]

hondenhok:

((hond)[N],(en)[N|N.N],(hok)[N])[N]

onmondig:

((on)[A|.A],((mond)[N],(ig)[A|N.])[A])[A]

gehemelte:

((ge)[N|.Nx],(hemel)[N],(te)[N|xN.])[N]

arbeidsovereenkomst:

((arbeid)[N],(s)[N|N.N],(((overeen)[B],(kom)[V])[V],(st)[N|V.])[N])[N]

CGN_LEXICON.Corpus Status ::= ( "C" | "I" | "O" | "V" ) | NULL

C = correcte spelling van corpustype
I = incorrecte spelling van corpustype
O = ongevalideerde spelling van corpustype
V = gevalideerde spelling van corpustype

396259\asielaanvragen\N(soort,mv,basis)\asielaanvrage\133817\C\
392625\asielaanvragen\N(soort,mv,basis)\asielaanvraag\131545\V\

CGN_LEXICON.Definitie

met dezelfde woordsoort

73704\doorlopen\WW(inf,vrij,zonder)\doorlopen\23802\dor-'lo-p@\V\bewegen door, tot het einde volgen\
73705\doorlopen\WW(inf,vrij,zonder)\doorlopen\501446\'dor-lo-p@\V\verder lopen, vermengen van kleuren\

¹ Centrum voor Lexicale Informatie. Interfacultaire Werkgroep Taal en Spraak, Universiteit van Nijmegen & Max Planck Instituut voor Psycholinguïstiek, Nijmegen.

² Referentiebestand Nederlands. Vakgroep Lexicologie, Vrije Universiteit Amsterdam & Instituut voor Nederlandse Lexicologie, Leiden & Departement Linguïstiek, Katholieke Universiteit Leuven & Vakgroep Nederlands, Universiteit Utrecht.

³ FONILEX. Centre for Computational Linguistics, Katholieke Universiteit Leuven & Centrum voor Nederlandse Taal en Spraak, Universiteit Antwerpen & Vakgroep voor Electronica en Informatiesystemen, Universiteit Gent

⁴ CGN grafeem-foneemomzetter. Zie:
Véronique Hoste, Steven Gillis en Walter Daelemans (Universiteit Antwerpen), A Rule Induction Approach to Modeling Regional Pronunciation Variation. In: Proceedings of COLING 2000, Saarbrücken, Germany. San Francisco: Morgan Kaufman Publishers, 2000, pp. 327-333.
en:
Véronique Hoste, Steven Gillis en Walter Daelemans, Machine Learning for Modeling Dutch Pronunciation Variation. Proceedings of the tenth CLIN meeting, Utrecht, The Netherlands.

"&" +	"a" +	"grave"	+ ";"
	"c"	"acute" (= aigu)
	"e"	"circ" (= circonflexe)
	"i"	"uml" (= trema)
	"n"	"cedil" (= cedille)
	"o"	"tilde"
	"u"	"ring" (alleen in de namen 'Åkermans' en 'Ålesund')
	"A"
	"C"
	"E"
	"I"
	"N"
	"O"
	"U"
b.v.	'inconveniëren' voor 'inconveniëren'
	en
	'Française' voor 'Française'