Syntax

Syntax
Een deel van het corpus werd voorzien van een syntactische annotatie. Daarbij werd gebruik gemaakt van het aan de Universiteit van Saarbrücken ontwikkelde programma Annotate.

Hieronder wordt nader ingegaan op de syntactische annotatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data

Doel en motivatie

Aan het syntactisch annoteren van de data lag de volgende basisfilosofie ten grondslag (vgl. Hoekstra et al. 2003: 4): Input: Aan de inputkant wilde men de gehanteerde annotatieschema's zo eenvoudig mogelijk houden, om daarmee de werklast van de annotatie- en correctieprocedure te minimaliseren.
Output: Aan de outputkant wilde men een zo rijk mogelijke annotatie-informatie aanbieden, in een formaat dat voor verschillende gebruikersgroepen verschillende vormen kan aannemen.

Om dit doel te realiseren werd uitgegaan van een zo theorie-neutraal mogelijk primair annotatieniveau in termen van dependentiestructuren. Die primaire annotatie kan worden verrijkt met informatie uit de POS-tagging en, via de lexicologische koppeling, uit het CGN-lexicon. De combinatie van deze drie informatiebronnen leidt dan tot een aantal uitvoerformaten toegesneden op de wensen van verschillende gebruikersgroepen.

Terug naar het begin van deze pagina.

Werkwijze

Om het annotatieproces te vereenvoudigen werd gebruik gemaakt van het programma Annotate dat aan de Universiteit van Saarbrücken werd ontwikkeld. De Vlaamse data werden geannoteerd in Leuven (CCL), in Nederland werd de syntactische annotatie uitgevoerd door het OTS te Utrecht. Alle data werden meerdere keren onder de loep genomen: nadat er een eerste annotatie was gemaakt volgde er nog diverse correctieslagen. Hierin werd tevens gecontroleerd op consistentie.

Terug naar het begin van deze pagina.

Protocol

Voor de syntactische annotatie van het CGN werd een handleiding ontwikkeld:

Hoekstra` H., M. Moortgat, B. Renmans, M. Schouppe, I. Schuurman & T. van der Wouden. 2003. CGN Syntactische annotatie (Hier beschikbaar in .pdf-formaat.)

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De syntactische annotaties zijn opgeslagen in de volgende bestanden:

bestanden van het type .syn. Hierbij gaat het om een ASCII-formaat. Deze bestanden zijn te vinden in de directory /data/annot/text/syn/ van de annotatie-DVD die deel uitmaakt van versie 1.0
bestanden van het type .tig. Deze bestanden hebben een XML-formaat. Deze bestanden zijn te vinden in de directory /data/annot/xml/tig/ van de annotatie-DVD die deel uitmaakt van versie 1.0

Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het syn-formaat en het tig-formaat.

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data voorzien van een syntactische annotatie

Component Totaal aantal
woorden

VL NL

a.
Spontane conversaties ('face-to-face')
447.113
146.745 300.368

b.
Interviews met leraren Nederlands
59.751
34.064 25.687

c.
Telefoondialogen opgenomen m.b.v. platform
89.819

19.886

69.933

d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
6.257
0

e.
Zakelijke onderhandelingen
25.485
0 25.485

f. Interviews en discussie uitgezonden op radio en televisie
100.250
25.144 75.106

g.
Discussie, debatten, vergaderingen (m.n. politieke)
34.126

9.009
25.117

h.
Lessen
36.064

10.103

25.961

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
35.116
10.130 24.986

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
32.744
7.679 25.065

k.
Nieuwsbulletins uitgezonden op radio en televisie
32.689
7.305 25.384

l.
Beschouwingen en commentaren uitgezonden op radio en televisie
32.502
7.431 25.071

m.
Missen, lezingen, plechtige toespraken
7.077
1.893 5.184

n.
Colleges, voordrachten, lezingen
23.056
8.143 14.913

o.
Voorgelezen teksten 44.144 44.144 0

Totaal
1.006.193
337.933 668.260

Component	Totaal aantal woorden
VL	NL
a.	Spontane conversaties ('face-to-face')	447.113	146.745	300.368
b.	Interviews met leraren Nederlands	59.751	34.064	25.687
c.	Telefoondialogen opgenomen m.b.v. platform	89.819	19.886	69.933
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder	6.257	6.257	0
e.	Zakelijke onderhandelingen	25.485	0	25.485
f.	Interviews en discussie uitgezonden op radio en televisie	100.250	25.144	75.106
g.	Discussie, debatten, vergaderingen (m.n. politieke)	34.126	9.009	25.117
h.	Lessen	36.064	10.103	25.961
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	35.116	10.130	24.986
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	32.744	7.679	25.065
k.	Nieuwsbulletins uitgezonden op radio en televisie	32.689	7.305	25.384
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	32.502	7.431	25.071
m.	Missen, lezingen, plechtige toespraken	7.077	1.893	5.184
n.	Colleges, voordrachten, lezingen	23.056	8.143	14.913
o.	Voorgelezen teksten	44.144	44.144	0
Totaal	1.006.193	337.933	668.260

Terug naar het begin van deze pagina.