Het volledige corpus werd getagd. Binnen het project werd hiervoor een eigen CGN-tagset gedefinieerd die 316 tags omvat en die aansluit bij de praktijk van de ANS (Haeseryn et al., 1997). De tagset is conform de EAGLES-richtlijnen die daarvoor opgesteld zijn in het kader van de internationale standaardisering en wordt beschreven in Van Eynde (2003; hier beschikbaar in .pdf-formaat).
Voor het taggen werd gebruik gemaakt van een tagger die aan elk woord de meest waarschijnlijke tag toekende. De tagger output werd gecontroleerd en waar nodig handmatig gecorrigeerd.
Hieronder wordt nader ingegaan op de part-of-speech tagging in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.
Lees verder over
De verrijking van het corpus met woordsoortinformatie is een van de weinige vormen van annotatie die voor het volledige corpus beschikbaar is. De toevoeging van POS tags maakt het mogelijk het gebruik van woorden (d.w.z. orthografische woorden, of beter gezegd woordvormen of tokens) meer specifiek te duiden. Waar veel woordvormen in isolatie ambigu blijken, is dit in een gegeven context zelden het geval. Neem bijvoorbeeld de vorm werk. Dit kan een noun zijn, maar even goed een werkwoord. In de context het was zwaar werk is het zonder meer duidelijk dat de noun interpretatie de enig juiste is, terwijl in een zin als ik werk altijd hard de toekenning van de werkwoordtag vereist is. Door het corpus van POS tags te voorzien wordt de onderzoeker in staat gesteld het corpus niet alleen te doorzoeken op letterlijke voorkomens, maar daarbij tevens onderscheid te maken naar de specifieke woordsoort(en) en bepaalde morfosyntactische kenmerken (o.a. getal, geslacht, graadaanduiding). Uiteraard is het dankzij de POS tagging ook mogelijk zoekacties te verrichten waarbij de zoekvraag zich richt op (sub)klassen van woorden die door middel van hun tags kunnen worden aangeduid. Zo kan bijvoorbeeld een zoekvraag zich specifiek richten op het doorzoeken van het corpus op voorkomens van postnominale adjectiva.
De tagset sluit aan bij de tien woordsoorten die gewoonlijk voor het Nederlands worden onderscheiden (zie b.v. de Algemene Nederlandse Spraakkunst). Als gevolg van het aanbrengen van een grote mate aan detail omvat de tagset in totaal 316 verschillende tags.
Literatuurverwijzing
Haeseryn, W., K. Romijn, G. Geerts, J. de Rooij & M. van den Toorn. 1997. Algemene Nederlandse Spraakkunst. Groningen: Nijhoff en Deurne: Wolters Plantyn.
Bij het toekennen van de tags aan de woorden werden de volgende principes gehanteerd:
Alle output werd handmatig gecontroleerd en waar noodzakelijk gecorrigeerd. Daarbij werd gebruik gemaakt van een tagselectieprogramma dat door de Universiteit van Nijmegen beschikbaar werd gesteld. Dit tagselectieprogramma stelde correctoren in staat de tagger output te bekijken en eventueel te corrigeren. Wanneer geconstateerd werd dat een woord verkeerd getagd was, kon uit de set alternatieve tags die via een menu werden aangeboden de juiste tag worden geselecteerd. Door eenvoudig deze tag aan te klikken werd de foutieve tag automatisch door de goede vervangen. Het gebruik van dit tagselectieprogramma bevorderde de snelheid waarmee de controle en correctie kon plaatsvinden en voorkwam dat er onnodig fouten werden geïntroduceerd.
Literatuurverwijzing
Van Eynde, F., J. Zavrel & W.
Daelemans. 2000. Part-of-Speech Tagging and Lemmatization for the Spoken
Dutch Corpus. In M. Gravilidou et al. (eds.), Proceedings of the Second
International Conference on Language Resources and Evaluation. 1427-1433.
Athens.
De CGN-tagset en de richtlijnen voor de toepassing ervan zijn vastgelegd in een protocol:
Van Eynde, F. 2003. Protocol voor
POS tagging en lemmatisering. (Hier beschikbaar in .pdf-formaat.)
De POS tagging is samen met de lemmatisering opgeslagen in de volgende bestanden:
In Tabel 1 wordt een overzicht gegeven
van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een
nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft
gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving
van de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data
| Component | Totaal aantal
woorden |
|||
|---|---|---|---|---|
|
|
|
|||
|
a.
|
Spontane conversaties ('face-to-face') |
2.626.172
|
878.383 | 1.747.789 |
|
b.
|
Interviews met leraren Nederlands |
565.433
|
315.554 | 249.879 |
|
c.
|
Telefoondialogen opgenomen m.b.v. platform |
1.208.633
|
465.096
|
743.537
|
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
853.371
|
343.167 |
510.204
|
|
e.
|
Zakelijke onderhandelingen |
136.461
|
0 | 136.461 |
| f. | Interviews en discussie uitgezonden op radio en televisie |
790.269
|
250.708 | 539.561 |
|
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
360.328
|
138.819
|
221.509 |
|
h.
|
Lessen |
405.409
|
105.436
|
299.973
|
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
208.399
|
78.022 | 130.377 |
|
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
186.072
|
95.206 | 90.866 |
|
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
368.153
|
82.855 | 285.298 |
|
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
145.553
|
65.386 | 80.167 |
|
m.
|
Missen, lezingen, plechtige toespraken |
18.075
|
12.510 | 5.565 |
|
n.
|
Colleges, voordrachten, lezingen |
140.901
|
79.067 | 61.834 |
|
o.
|
Voorgelezen teksten | 903.043 | 351.419 | 551.624 |
| Totaal |
8.916.272
|
3.261.628 | 5.654.644 | |
Op basis van de POS-tagging van het
corpus is een alfabetische frequentielijst gemaakt die inzicht geeft in
de frequentie waarmee bepaalde tags aan specifieke woorden zijn toegekend.
De frequentielijst (tagalph.frq) is te vinden in de directory /data/lexicon/
van de annotatie-DVD die deel uitmaakt van versie 1.0. Een beschrijving
van de wijze waarop informatie in deze lijst is weergegeven is te vinden
op ../../lexicon/freq_lst.htm