Versie 1.0

In deze uitgave zijn de eindresultaten beschikbaar zoals die zijn voortgekomen uit het project Corpus Gesproken Nederlands. Deze resultaten omvatten onder meer de geluidsfragmenten en alle bijbehorende transcripties en annotaties, documentatie, het CGN-lexicon en het exploitatieprogramma COREX.

Hieronder volgt een overzicht van de data die voor de verschillende componenten van het corpus in deze versie beschikbaar zijn.

Overzicht van beschikbare data: Basiscorpus

Tabel 1 geeft een overzicht van de data die men in het basiscorpus aantreft. Voor alle data is een orthografische transcriptie beschikbaar. Daarnaast heeft er een verrijking plaatsgevonden met woordsoortinformatie (vervat in POS tags), worden de lemmata aangeduid, is er een automatisch gegenereerde fonetische transcriptie beschikbaar, en zijn het signaal en de orthografische transcriptie automatisch gekoppeld op woordniveau.
 
Tabel 1. Overzicht van data in het basiscorpus 
Component Totaal aantal woorden VL NL
a.
Spontane conversaties ('face-to-face')
2.626.172
878.383
1.747.789
b.
Interviews met leraren Nederlands
565.433
315.554
249.879
c.
Telefoondialogen opgenomen m.b.v. platform
1.208.633
465.096
743.537
d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
853.371
343.167
510.204
e.
Zakelijke onderhandelingen
136.461
0
136.461
f.
Interviews en discussie uitgezonden op radio en televisie
790.269
250.708
539.561
g.
Discussie, debatten, vergaderingen (m.n. politieke)
360.328
138.819
221.509
h.
Lessen
405.409
105.436
299.973
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
78.022
130.377
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
95.206
90.866
k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
82.855
285.298
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
65.386
80.167
m.
Missen, lezingen, plechtige toespraken
18.075
12.510
5.565
n.
Colleges, voordrachten, lezingen
140.901
79.067
61.834
o.
Voorgelezen teksten
903.043
351.419
551.624
Totaal
8.916.272
3.261.628
5.654.644

Voor meer informatie over

Overzicht van beschikbare data: Kerncorpora

In Tabel 2a en 2b wordt een overzicht gegeven van de additionele transcripties en/of annotaties die voor de verschillende fragmenten beschikbaar zijn. Voor dat deel van de data waarvoor een handmatig geverifeerd fonetisch transcript beschikbaar is, is tevens de koppeling op woordniveau van het orthografisch transcript aan het geluidssignaal handmatig geverifieerd. Tabel 2a heeft betrekking op de Nederlandse data, Tabel 2b geeft een overzicht van de Vlaamse data. Voor verdere details zie onder meta-data (fragmentgegevens).

Voor meer informatie over

Tabel 2a. Additionele transcripties en annotaties (Nederland) 
Component
Hoeveelheid materiaal voorzien van een
fonetisch transcript
syntactische annotatie
prosodische annotatie
a.
Spontane conversaties ('face-to-face')
106.182
300.368
37.406
b.
Interviews met leraren Nederlands
25.687
25.687
7.596
c.
Telefoondialogen opgenomen m.b.v. platform
201.141
69.933
20.070
d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
0
0
0
e.
Zakelijke onderhandelingen
25.485
25.485
7.485
f.
Interviews en discussies uitgezonden op radio en televisie
75.106
75.106
7.537
g.
Discussies, debatten, vergaderingen (m.n. politieke)
25.117
25.117
7.678
h.
Lessen
25.961
25.961
0
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
24.986
24.986
5.866
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
25.065
25.065
5.617
k.
Nieuwsbulletins uitgezonden op radio en televisie
25.296
25.384
7.437
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
25.071
25.071
7.541
m.
Missen, lezingen en plechtige toespraken
5.184
5.184
978
n.
Colleges, voordrachten, lezingen
14.913
14.913
6.577
o.
Voorgelezen teksten
70.223
0
0
Totaal
675.417
668.260
121.788

 
 
Tabel 2b. Additionele transcripties en annotaties (Vlaanderen) 
Component
Hoeveelheid materiaal voorzien van een
fonetisch transcript
syntactische annotatie
prosodische annotatie
a.
Spontane conversaties ('face-to-face')
70.945
146.745
49.988
b.
Interviews met leraren Nederlands
34.064
34.064
7.667
c.
Telefoondialogen opgenomen m.b.v. platform
68.886
19.886
19.874
d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
6.257
0
e.
Zakelijke onderhandelingen
0
0
0
f.
Interviews en discussies uitgezonden op radio en televisie
25.144
25.144
10.007
g.
Discussies, debatten, vergaderingen (m.n. politieke)
9.009
9.009
5.414
h.
Lessen
10.103
10.103
0
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
10.130
10.130
6.002
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
7.679
7.679
6.054
k.
Nieuwsbulletins uitgezonden op radio en televisie
7.305
7.305
6.248
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
7.431
7.431
5.998
m.
Missen, lezingen en plechtige toespraken
1.893
1.893
1.124
n.
Colleges, voordrachten, lezingen
8.143
8.143
3.880
o.
Voorgelezen teksten
64.848
44.144
0
Totaal
331.837
337.933
122.256