Het volledige corpus werd gelemmatiseerd. Voor het lemmatiseren werd gebruik gemaakt van een lemmatiser. De uitvoer hiervan werd handmatig gecorrigeerd.
Hieronder wordt nader ingegaan op de lemmatisering van de data in het
CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed
aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven,
en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot
wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar
zijn.
Lees verder over
Het aanbrengen van lemma-informatie bij de afzonderlijke
tokens in het corpus had tot doel het zoeken naar verwante tokens te vereenvoudigen.
In het lemmatiseringsproces golden de orthografische tokens als eenheid
van annotatie. Er werd geen poging gedaan de delen van scheidbare werkwoorden
of preposities aan elkaar te relateren, en ook de delen van eigennamen
ook al volgden deze onmiddellijk op elkaar werden als afzonderlijke items
gelemmatiseerd.
Om het lemmatiseringsproces te vereenvoudigen werd gebruik gemaakt van
een lemmatiser die aan de Universiteit van Tilburg werd ontwikkeld. De
output van de lemmatiser werd waar nodig handmatig gecorrigeerd.
Voor het lemmatiseren is geen afzonderlijk protocol beschikbaar. Er is één protocol beschikbaar waarin zowel de POS-tagging als lemmatisering beschreven wordt:
Van Eynde, F. 2003. Protocol voor POS tagging en lemmatisering. (Hier
beschikbaar in .pdf-formaat.)
De lemmatisering is samen met de POS-tagging opgeslagen in de volgende bestanden:
In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0
van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp
dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor,
verwijzen we naar de beschrijving
van de corpusopbouw.
Tabel 1. Overzicht van beschikbare data
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383 | 1.747.789 |
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554 | 249.879 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.208.633
|
465.096
|
743.537
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
853.371
|
343.167 |
510.204
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0 | 136.461 |
f. | Interviews en discussie uitgezonden op radio en televisie |
790.269
|
250.708 | 539.561 |
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509 |
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022 | 130.377 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206 | 90.866 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855 | 285.298 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386 | 80.167 |
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510 | 5.565 |
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067 | 61.834 |
o.
|
Voorgelezen teksten | 903.043 | 351.419 | 551.624 |
Totaal |
8.916.272
|
3.261.628 | 5.654.644 |
Op basis van de lemmatisering van het corpus is een alfabetische frequentielijst
gemaakt die inzicht geeft in de frequentie waarmee bepaalde lemmata voorkomen
en de woordvormen en POS-tags die daarmee geassocieerd worden. De frequentielijst
(lemalph.frq) is te vinden in de directory /data/lexicon/freqlists van
de annotatie-DVD die deel uitmaakt van Versie 1.0. Een beschrijving van
de wijze waarop informatie in deze lijst is weergegeven is te vinden op
../../lexicon/freq_lst.htm