Hieronder wordt nader ingegaan op
de syntactische annotatie van de data in het CGN en de doelstellingen die
werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld,
wordt in het kort de werkwijze beschreven, en wordt informatie gegeven
over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven
van de data die in versie 1.0 beschikbaar zijn.
Lees verder over
Aan het syntactisch annoteren van
de data lag de volgende basisfilosofie ten grondslag (vgl. Hoekstra et
al. 2003: 4): Input: Aan
de inputkant wilde men de gehanteerde annotatieschema's zo eenvoudig mogelijk
houden, om daarmee de werklast van de annotatie- en correctieprocedure
te minimaliseren.
Output: Aan de outputkant wilde
men een zo rijk mogelijke annotatie-informatie aanbieden, in een formaat
dat voor verschillende gebruikersgroepen verschillende vormen kan aannemen.
Om dit doel te realiseren werd uitgegaan
van een zo theorie-neutraal mogelijk primair annotatieniveau in termen
van dependentiestructuren. Die primaire annotatie kan worden verrijkt met
informatie uit de POS-tagging en, via de lexicologische koppeling, uit
het CGN-lexicon. De combinatie van deze drie informatiebronnen leidt dan
tot een aantal uitvoerformaten toegesneden op de wensen van verschillende
gebruikersgroepen.
Om het annotatieproces te vereenvoudigen
werd gebruik gemaakt van het programma Annotate dat aan de Universiteit
van Saarbrücken werd ontwikkeld. De Vlaamse data werden geannoteerd
in Leuven (CCL), in Nederland werd de syntactische annotatie uitgevoerd
door het OTS te Utrecht. Alle data werden meerdere keren onder de loep
genomen: nadat er een eerste annotatie was gemaakt volgde er nog diverse
correctieslagen. Hierin werd tevens gecontroleerd op consistentie.
Voor de syntactische annotatie van
het CGN werd een handleiding ontwikkeld:
Hoekstra` H., M. Moortgat, B. Renmans,
M. Schouppe, I. Schuurman & T. van der Wouden. 2003. CGN Syntactische
annotatie (Hier beschikbaar in .pdf-formaat.)
De syntactische annotaties zijn opgeslagen in de volgende bestanden:
In Tabel 1 wordt een overzicht gegeven
van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een
nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft
gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving
van de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data voorzien van een syntactische annotatie
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
447.113
|
146.745 | 300.368 |
b.
|
Interviews met leraren Nederlands |
59.751
|
34.064 | 25.687 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
89.819
|
19.886
|
69.933
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
6.257
|
6.257 |
0
|
e.
|
Zakelijke onderhandelingen |
25.485
|
0 | 25.485 |
f. | Interviews en discussie uitgezonden op radio en televisie |
100.250
|
25.144 | 75.106 |
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
34.126
|
9.009
|
25.117 |
h.
|
Lessen |
36.064
|
10.103
|
25.961
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
35.116
|
10.130 | 24.986 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
32.744
|
7.679 | 25.065 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
32.689
|
7.305 | 25.384 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
32.502
|
7.431 | 25.071 |
m.
|
Missen, lezingen, plechtige toespraken |
7.077
|
1.893 | 5.184 |
n.
|
Colleges, voordrachten, lezingen |
23.056
|
8.143 | 14.913 |
o.
|
Voorgelezen teksten | 44.144 | 44.144 | 0 |
Totaal |
1.006.193
|
337.933 | 668.260 |