Syntax

Een deel van het corpus werd voorzien van een syntactische annotatie. Daarbij werd gebruik gemaakt van het aan de Universiteit van Saarbrücken ontwikkelde programma Annotate.

Hieronder wordt nader ingegaan op de syntactische annotatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.
 

Lees verder over




Doel en motivatie

Aan het syntactisch annoteren van de data lag de volgende basisfilosofie ten grondslag (vgl. Hoekstra et al. 2003: 4): Input: Aan de inputkant wilde men de gehanteerde annotatieschema's zo eenvoudig mogelijk houden, om daarmee de werklast van de annotatie- en correctieprocedure te minimaliseren.
Output: Aan de outputkant wilde men een zo rijk mogelijke annotatie-informatie aanbieden, in een formaat dat voor verschillende gebruikersgroepen verschillende vormen kan aannemen.

Om dit doel te realiseren werd uitgegaan van een zo theorie-neutraal mogelijk primair annotatieniveau in termen van dependentiestructuren. Die primaire annotatie kan worden verrijkt met informatie uit de POS-tagging en, via de lexicologische koppeling, uit het CGN-lexicon. De combinatie van deze drie informatiebronnen leidt dan tot een aantal uitvoerformaten toegesneden op de wensen van verschillende gebruikersgroepen.
 
 

Terug naar het begin van deze pagina.


Werkwijze

Om het annotatieproces te vereenvoudigen werd gebruik gemaakt van het programma Annotate dat aan de Universiteit van Saarbrücken werd ontwikkeld. De Vlaamse data werden geannoteerd in Leuven (CCL), in Nederland werd de syntactische annotatie uitgevoerd door het OTS te Utrecht. Alle data werden meerdere keren onder de loep genomen: nadat er een eerste annotatie was gemaakt volgde er nog diverse correctieslagen. Hierin werd tevens gecontroleerd op consistentie.
 
 

Terug naar het begin van deze pagina.

Protocol

Voor de syntactische annotatie van het CGN werd een handleiding ontwikkeld:
 

Hoekstra` H., M. Moortgat, B. Renmans, M. Schouppe, I. Schuurman & T. van der Wouden. 2003. CGN Syntactische annotatie (Hier beschikbaar in .pdf-formaat.)
 
 

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De syntactische annotaties zijn opgeslagen in de volgende bestanden:

Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het syn-formaat en het tig-formaat.
 
 
Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
 

Tabel 1. Overzicht van beschikbare data voorzien van een syntactische annotatie
 
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
447.113
 146.745 300.368
b.
Interviews met leraren Nederlands
59.751
 34.064 25.687
c.
Telefoondialogen opgenomen m.b.v. platform
89.819
19.886
69.933
  d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
 6.257
0
  e.
Zakelijke onderhandelingen
25.485
 0  25.485
  f. Interviews en discussie uitgezonden op radio en televisie
100.250
25.144  75.106
  g.
Discussie, debatten, vergaderingen (m.n. politieke)
34.126
9.009
 25.117
h.
Lessen
36.064
10.103
25.961
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
35.116
10.130  24.986
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
32.744
 7.679  25.065
k.
Nieuwsbulletins uitgezonden op radio en televisie
32.689
 7.305  25.384
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
32.502
 7.431  25.071
m.
Missen, lezingen, plechtige toespraken
7.077
1.893  5.184
n.
Colleges, voordrachten, lezingen
23.056
 8.143  14.913
o.
Voorgelezen teksten  44.144   44.144 0
Totaal
1.006.193
337.933 668.260

 
 

Terug naar het begin van deze pagina.