Lemmatisering

Lemmatisering

Het volledige corpus werd gelemmatiseerd. Voor het lemmatiseren werd gebruik gemaakt van een lemmatiser. De uitvoer hiervan werd handmatig gecorrigeerd.

Hieronder wordt nader ingegaan op de lemmatisering van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data
frequentie-informatie

Doel en motivatie

Het aanbrengen van lemma-informatie bij de afzonderlijke tokens in het corpus had tot doel het zoeken naar verwante tokens te vereenvoudigen. In het lemmatiseringsproces golden de orthografische tokens als eenheid van annotatie. Er werd geen poging gedaan de delen van scheidbare werkwoorden of preposities aan elkaar te relateren, en ook de delen van eigennamen ook al volgden deze onmiddellijk op elkaar werden als afzonderlijke items gelemmatiseerd.

Terug naar het begin van deze pagina.

Werkwijze

Om het lemmatiseringsproces te vereenvoudigen werd gebruik gemaakt van een lemmatiser die aan de Universiteit van Tilburg werd ontwikkeld. De output van de lemmatiser werd waar nodig handmatig gecorrigeerd.

Terug naar het begin van deze pagina.

Protocol

Voor het lemmatiseren is geen afzonderlijk protocol beschikbaar. Er is één protocol beschikbaar waarin zowel de POS-tagging als lemmatisering beschreven wordt:

Van Eynde, F. 2003. Protocol voor POS tagging en lemmatisering. (Hier beschikbaar in .pdf-formaat.)

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De lemmatisering is samen met de POS-tagging opgeslagen in de volgende bestanden:

bestanden van het type .plk. Hierbij gaat het om een ASCII-formaat. Deze bestanden zijn te vinden in de directory /data/annot/text/plk/ van de annotatie-DVD die deel uitmaakt van versie 1.0.
bestanden van het type .tag. Deze bestanden hebben een XML-formaat. Deze bestanden zijn te vinden in de directory /data/annot/xml/tag/ van de annotatie-DVD die deel uitmaakt van versie 1.0

Voor bovengenoemde formaten, zie de afzonderlijke beschijvingen van het plk-formaat en het tag-formaat.

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data

Component Totaal aantal
woorden

VL NL

a.
Spontane conversaties ('face-to-face')
2.626.172
878.383 1.747.789

b.
Interviews met leraren Nederlands
565.433
315.554 249.879

c.
Telefoondialogen opgenomen m.b.v. platform
1.208.633

465.096

743.537

d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
853.371
343.167
510.204

e.
Zakelijke onderhandelingen
136.461
0 136.461

f. Interviews en discussie uitgezonden op radio en televisie
790.269
250.708 539.561

g.
Discussie, debatten, vergaderingen (m.n. politieke)
360.328

138.819
221.509

h.
Lessen
405.409

105.436

299.973

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
78.022 130.377

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
95.206 90.866

k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
82.855 285.298

l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
65.386 80.167

m.
Missen, lezingen, plechtige toespraken
18.075
12.510 5.565

n.
Colleges, voordrachten, lezingen
140.901
79.067 61.834

o.
Voorgelezen teksten 903.043 351.419 551.624

Totaal
8.916.272
3.261.628 5.654.644

Component	Totaal aantal woorden
VL	NL
a.	Spontane conversaties ('face-to-face')	2.626.172	878.383	1.747.789
b.	Interviews met leraren Nederlands	565.433	315.554	249.879
c.	Telefoondialogen opgenomen m.b.v. platform	1.208.633	465.096	743.537
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder	853.371	343.167	510.204
e.	Zakelijke onderhandelingen	136.461	0	136.461
f.	Interviews en discussie uitgezonden op radio en televisie	790.269	250.708	539.561
g.	Discussie, debatten, vergaderingen (m.n. politieke)	360.328	138.819	221.509
h.	Lessen	405.409	105.436	299.973
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	208.399	78.022	130.377
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	186.072	95.206	90.866
k.	Nieuwsbulletins uitgezonden op radio en televisie	368.153	82.855	285.298
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	145.553	65.386	80.167
m.	Missen, lezingen, plechtige toespraken	18.075	12.510	5.565
n.	Colleges, voordrachten, lezingen	140.901	79.067	61.834
o.	Voorgelezen teksten	903.043	351.419	551.624
Totaal	8.916.272	3.261.628	5.654.644

Terug naar het begin van deze pagina.

Frequentie-informatie

Op basis van de lemmatisering van het corpus is een alfabetische frequentielijst gemaakt die inzicht geeft in de frequentie waarmee bepaalde lemmata voorkomen en de woordvormen en POS-tags die daarmee geassocieerd worden. De frequentielijst (lemalph.frq) is te vinden in de directory /data/lexicon/freqlists van de annotatie-DVD die deel uitmaakt van Versie 1.0. Een beschrijving van de wijze waarop informatie in deze lijst is weergegeven is te vinden op ../../lexicon/freq_lst.htm

Terug naar het begin van deze pagina.