Corpusopbouw

Het project had tot doel een corpus samen te stellen dat een plausibele steekproef zou vormen van het hedendaags Nederlands zoals dat gesproken wordt in Vlaanderen en Nederland. Eenderde van het materiaal werd in Vlaanderen verzameld en tweederde in Nederland. Er werd onderscheid gemaakt tussen het basiscorpus enerzijds en het kerncorpus/de kerncorpora anderzijds. De term basiscorpus verwijst naar het volledige corpus. Hiervan zijn niet alleen opnames beschikbaar, ook werd al het materiaal orthografisch getranscribeerd. In de orthografische transcriptie werden bovendien korte stukjes van circa 3 seconden spraak aangeduid en gelinkt met het geluidssignaal. Al het materiaal werd tevens gelemmatiseerd en verrijkt met woordsoortinformatie. Voor een deel van het corpus, aangeduid met de term kerncorpus, is een verdere verrijking van de data beschikbaar. Dit omvat een brede fonetische transcriptie, een segmentatie op woordniveau en/of een syntactische en/of prosodische annotatie.
 

Het basiscorpus

Idealiter is een corpus zoals het CGN zo samengesteld en van een zodanige omvang dat het optimaal bruikbaar is voor de diverse doelstellingen zoals die in de verschillende onderzoeksdisciplines en toepassingsgebieden worden nagestreefd. In de praktijk doen zich daarbij echter een aantal complicaties voor. Allereerst kan worden opgemerkt dat het gesproken Nederlands wordt gekenmerkt door een grote mate aan diversiteit en blijken de interesses van verschillende gebruikersgroepen en de daaruit voortvloeiende vereisten ten aanzien van het corpus op een aantal punten nogal uiteenlopend. Verder hebben we te maken met een aantal beperkende factoren die het ons onmogelijk maken in principe ongelimiteerd spraakdata te verzamelen, te annoteren en te distribueren. Onder die factoren zijn de volgende:

In het CGN-project is er derhalve gekozen voor een ontwerp zodanig dat het resulterende corpus beschouwd kan worden als een noodzakelijkerwijs beperkte doch plausibele steekproef van het hedendaags Nederlands, waarbij tevens zoveel mogelijk tegemoet gekomen wordt aan de wensen en behoeften van de verschillende groepen potentiële gebruikers. Ook is rekening gehouden met de databestanden die voor het Nederlands reeds beschikbaar zijn, dit om duplicatie te voorkomen en de beschikbare middelen optimaal in te zetten.

Voor nadere informatie over het ontwerp van het basiscorpus en de motivatie daarvoor, zie hieronder.
 
 

Ontwerp en motivatie

Bij het ontwerp voor de opbouw van het Corpus Gesproken Nederlands is uitgegaan van een getrapte sampling. Daarbij werd om te beginnen op basis van een aantal situationele parameters een veertiental taalvariëteiten onderscheiden die aanvankelijk elk een component in het corpus vormden. Binnen elke component werd vervolgens een verdere detaillering aangebracht waarbij naast aanvullende situationele parameters ook sprekerkenmerken een rol speelden.

Het oorspronkelijke, globale ontwerp van het basiscorpus kan schematisch worden weergegeven als in Tabel 1. In deze tabel wordt tevens de toen beoogde omvang (in aantal woorden) per component weergegeven, totaal en afzonderlijk voor Vlaanderen en Nederland. Een toelichting hierop wordt verderop gegeven.

Tabel 1. Het oorspronkelijke ontwerp van het basiscorpus (najaar 1998)
 

Component

VL

NL

dialoog /
multiloog
8.110.000
privé
6.635.000
spontaan
6.635.000
'direct'
   3.460.000
1: conversaties ('face-to-face') 
3.000.000
1.000.000
2.000.000
2: interviews 
460.000
230.000
230.000
'distanced'
   3.175.000
3: telefoondialogen
3.000.000
1.000.000
2.000.000
4: zakelijke onderhandelingen
175.000
0
175.000
publiek
1.475.000
uitgezonden
750.000
min of meer voorbereid
750.000
5: interviews en discussies 
750.000
230.000
520.000
niet uitgezonden
725.000
spontaan
725.000
6: discussies, debatten, vergaderingen
375.000
130.000
245.000
7: lessen
350.000
110.000
240.000
monoloog
1.890.000
privé
40.000
min of meer voorbereid
40.000
8: beschrijving van route of plaatjes
40.000
40.000
0
publiek
1.850.000
uitgezonden
950.000
spontaan
250.000
9: spontaan commentaar
250.000
70.000
180.000
min of meer voorbereid
700.000
10: actualiteitenrubrieken, reportages
250.000
80.000
170.000
11: nieuwsbulletins
250.000
80.000
170.000
12: beschouwingen, commentaren
200.000
60.000
140.000
niet uitgezonden
900.000
min of meer voorbereid
900.000
13: lezingen, toespraken
275.000
95.000
180.000
14: voorgelezen tekst
625.000 (+375.000)
210.000
(+125.000)
415.000
(+250.000)

In de opbouw van het corpus werd op basis van het aantal sprekers een onderscheid gemaakt tussen monologen enerzijds en dialogen/multilogen anderzijds. De verdere onderverdeling tussen privé en publiek was van toepassing op beide.
       Het hier gehanteerde onderscheid tussen privé en publiek was gebaseerd op het al dan niet aanwezig zijn van toehoorders. Dialogen of gesprekken tussen meerdere personen die enkel bestemd waren voor en gevoerd werden ten behoeve van de participanten - hoewel ze mogelijkerwijs gehoord konden worden door anderen die niet aan het gesprek deelnemen - werden aangeduid als privé. De als publiek aangeduide dialogen of gesprekken werden gevoerd door de gesprekspartners, maar waren nadrukkelijk bedoeld gehoord te worden door anderen. In het laatste geval was het gespreksonderwerp veelal vooraf vastgesteld en bekend bij de gesprekspartners. Dit in tegenstelling tot als privé aangemerkte dialogen of gesprekken waarin het onderwerp kon variëren.
        Het onderscheid tussen 'direct' en 'distanced' had betrekking op het gegeven of de gesprekspartner al dan niet toegang had tot gebaren die door de ander tijdens het spreken gemaakt werden, kennis van de omgeving waarin hun gesprekspartner zich bevond, e.d. Tot de 'distanced' dialogen werden bijvoorbeeld dialogen via de telefoon gerekend.

Uitgaande van de globale opbouw zoals geschetst in Tabel 1, werd voor elk van de componenten van het corpus een verdere specificatie gemaakt waarbij onder andere aanvullende situationele parameters en sprekerkenmerken werden ingebracht daar waar dat zinvol was. De hier gehanteerde benadering bood een maximum aan flexibiliteit. Steekproefgroottes, sprekeraantallen, demografische spreiding, etc. konden per component nader worden bepaald. In het algemeen kan gesteld worden dat een ruime mate van spreiding werd nagestreefd in de selectie van sprekers, gespreksonderwerpen, gesprekssituaties, etc.

De totale omvang van de componenten werd vastgesteld op basis van de volgende overwegingen:

De omvang van de component 'voorgelezen tekst' behoeft enige toelichting. Bij de start van het project was voorzien dat het corpus tien miljoen woorden min of meer spontaan gesproken Nederlands zou omvatten. Vanwege de aard van de in deze component aangeduide data - het betreft hier voorgelezen spraak die haar oorsprong vindt in geschreven teksten die bedoeld zijn gelezen te worden - was er weinig reden dit materiaal in het corpus op te nemen. Onder druk van de grote behoefte die er onder spraaktechnologen bestaat aan dergelijke data werd echter besloten toch een component van die aard op te nemen. Daarbij vormde vervolgens de vereiste omvang van tenminste één miljoen woorden een probleem. Teneinde uit de impasse te geraken werd overeengekomen 625.000 woorden als regulier deel van het corpus op te nemen, en een additionele 375.000 woorden bovenop de tien miljoen te realiseren (een en ander uiteraard voor zover de beschikbare middelen dit zouden toelaten).
 

Feitelijke realisatie

Hoewel gedurende het gehele CGN-project steeds van bovenstaand ontwerp en uitgangspunten werd uitgegaan, bleek de realisatie ervan vertraging op te lopen. Daarom werd tussentijds de omvang van enkele componenten die tot dan toe nog niet (volledig) gerealiseerd waren, bijgesteld. Ook kwam component 8 te vervallen. Bij de afsluiting van het project en de vaststelling van de definitieve structuur van het corpus werd geconstateerd dat een herschikking van gerealiseerde fragmenten en componenten beter zou aansluiten bij het toekomstig gebruik door diverse gebruikersgroepen. Dit resulteerde in het onderscheiden van de componenten zoals weergegeven in Tabel 2.

Tabel 2. In het corpus onderscheiden componenten (versie 1.0)
 
Componenten:
a.
Spontane conversaties ('face-to-face')
b.
Interviews met leraren Nederlands
c.
Telefoondialogen opgenomen m.b.v. platform
  d. Telefoondialogen opgenomen m.b.v. minidisc recorder
  e. Zakelijke onderhandelingen
  f. Interviews en discussie uitgezonden op radio en televisie
  g. Discussie, debatten, vergaderingen (m.n. politieke)
h.
Lessen
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
k.
Nieuwsbulletins uitgezonden op radio en televisie
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
m.
Missen, lezingen, plechtige toespraken
n.
Colleges, voordrachten, lezingen
o.
Voorgelezen teksten 

Het zou te ver voeren hier in detail in te gaan op de sampling procedure die voor elk van de componenten werd gevolgd. We beperken ons hier tot een kort overzicht van de verschillende sampling criteria en de (mogelijke) invulling die daaraan werd gegeven. Merk op dat niet voor alle componenten (in gelijke mate) gebruik gemaakt werd van alle hier genoemde criteria.

Steekproef: eenheid en omvang

Voor het gehele corpus geldt als minimale eenheid een fragment samenhangende discourse. De omvang van de fragmenten kan uiteenlopen. In een aantal gevallen, zoals bij de component 'voorgelezen tekst', is vanuit een specifiek toepassingsgebied een minimum omvang als vereiste opgelegd. Over het algemeen is gepoogd de fragmenten te laten samenvallen met hetgeen min of meer een natuurlijke eenheid vormt in een groter geheel. Daarbij werd gebruik gemaakt van voorgegeven breekpunten zoals de sprekerwisseling in een dialoog, de wisseling van item in een nieuwsbericht, etc.

Aantal sprekers per component

Het aantal sprekers per component is in principe variabel. Voor een aantal componenten, nl. de spontane conversaties (component a), de interviews (component b), de telefoondialogen (component c en d) en de voorgelezen tekst (component o), werd het minimum aantal sprekers vooraf nader gespecificeerd.

Sprekerkenmerken

De sprekerkenmerken die in meerdere of mindere mate, afhankelijk van de component, een rol speelden in het bepalen van de steekproef zijn de volgende: geslacht, leeftijd, geografische regio, sociaal-economische klasse en opleidingsniveau.

Kwaliteit van de opname

De kwaliteit van het signaal is wisselend. Uiteraard is gepoogd de kwaliteit in alle gevallen zo hoog mogelijk te laten zijn. Opnamecondities liepen echter nogal sterk uiteen, waardoor het niet altijd mogelijk is gebleken dezelfde goede kwaliteit te garanderen.Voor een overzicht van de data die in het basiscorpus beschikbaar zijn en de verdeling over de verschillende componenten verwijzen we naar het overzicht van beschikbare data.
 

Het kerncorpus

Het kerncorpus omvat een selectie van het materiaal dat deel uitmaakt van het basiscorpus. De gedachte slechts voor een deel van het totale materiaal een verdere verrijking aan te brengen werd ingegeven door de (uiteindelijk toch) beperkte hoeveelheid beschikbare middelen. Bij de bepaling van de samenstelling van het kerncorpus speelden naast de beschikbare tijd en financiële middelen de volgende overwegingen een rol:

Ten einde zoveel mogelijk tegemoet te komen aan de verschillende, op punten strijdige, overwegingen en belangen werd ervoor gekozen het niveau van verrijking als uitgangspunt te nemen bij het bepalen van de selectie. Daarbij werd steeds maximale overlap nagestreefd.  Voor een overzicht van de samenstelling van het kerncorpus, zie hieronder.

Samenstelling van het kerncorpus

De beoogde samenstelling van het kerncorpus kan schematisch worden weergegeven als in Tabel 3. Er werd uitgegaan van de veertien componenten die bij het oorspronkelijk ontwerp voor de samenstelling van het basiscorpus werden onderscheiden. Per component is vermeld welk deel ervan met welk type annotatie nader zou worden verrijkt. Merk op dat in de tabel enkel de omvang (in aantal woorden) van het te selecteren materiaal wordt aangeduid. De specifieke invulling zou uiteraard mede afhankelijk zijn van overwegingen zoals de kwaliteit van het spraaksignaal, de spreiding over verschillende situationele contexten, sprekers, onderwerpen, etc.
 

Tabel 3. Beoogde samenstelling van het kerncorpus (najaar 1998)
 
Component Totaal aantal 
woorden in 
basiscorpus
Hoeveelheid materiaal voorzien van een
fonetische transcriptie
en oplijning
syntactische 
annotatie
prosodische 
annotatie
1.
conversaties ('face-to-face')
3.000.000
150.000
550.000
100.000
2.
interviews
460.000
50.000
50.000
20.000
3.
telefoondialogen
3.000.000
300.000
100.000
50.000
  4. zakelijke onderhandelingen
175.000
15.000
15.000
10.000
  5. interviews en discussies
750.000
75.000
75.000
10.000
  6. discussies, debatten, vergaderingen
375.000
35.000
35.000
10.000
  7. lessen
350.000
35.000
35.000
0
8.
beschrijving van route of plaatjes
40.000
 5.000
5.000
0
9.
spontaan commentaar
250.000
27.500
27.500
10.000
10.
actualiteitenrubrieken, reportages
250.000
25.000
25.000
10.000
11.
nieuwsbulletins
250.000
27.500
27.500
10.000
12.
beschouwingen, commentaren
200.000
25.000
25.000
10.000
13.
lezingen, toespraken
275.000
30.000
30.000
10.000
14.
voorgelezen tekst
625.000 
(+ 375.000)
200.000
0
0
Totaal
10.000.000
1.000.000
1.000.000
250.000

 

Feitelijke realisatie

In het project zijn de beoogde doelstellingen m.b.t. het kerncorpus nagenoeg geheel gerealiseerd. Aangezien er een herschikking van fragmenten en componenten heeft plaatsgevonden, heeft dit uiteraard ook gevolgen gehad voor de indeling zoals die hierboven (Tabel 3) werd gepresenteerd. Voor een overzicht van de beschikbare data verwijzen we hier naar het overzicht van beschikbare data.