Prosodische annotatie

Een klein deel van het corpus werd voorzien van een prosodische annotatie.

Hieronder wordt nader ingegaan op de prosodische annotatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over




Doel en motivatie

Een deel van de data werd voorzien van een prosodische annotatie. Het doel hiervan was die aspecten (m.n. die die voorkomen in spontane spraak) te markeren die verwijzen naar een temporele groepering van woorden, de nadruk die op bepaalde woorden wordtgelegd, het voorkomen van effecten van spontane spraak (b.v. gevocaliseerde pauzes) die nog niet in de orthografische transcriptie zijn gecodeerd, de aanwezigheid van emoties, etc. Ten einde een annotatie te verkrijgen die nuttig zou zijn voor diverse soorten onderzoek, werd gekozen voor een annotatie die zoveel mogelijk theorie-neutraal was en die door naive luisteraard zou kunnen worden aangebracht. In plaats van voor een ToDI-achtige labelling (Gussenhoven et al. 1999) te kiezen, werd gekozen voor een perceptie-gebaseerde annotatie zoals die is voorgesteld door bijvoorbeeld Portele & Heuft (1997) en Grover et al. (1998).

De prosodische annotatie beoogde de aanduiding van drie soorten prosodische verschijnselen: (i) prominente lettergrepen, dit zijn lettergrepen die extra worden beklemtoond om een woord belangrijk te maken, of om het in contrast te plaatsen met een ander woord; (ii) prosodische grenzen, deze treden op daar waar perceptueel is vast te stellen dat de spraakstoom even onderbroken is. Er is onderscheid gemaakt tussen sterke en zwakke grenzen.; (iii) abnormale klankverlengingen, dit kan zowel bij klinkers als medeklinkers voorkomen zonder dat de lettergreep waarin dit voorkomt prominent wordt.

Er is een afweging gemaakt over de mate van detail in de prosodische annotatie gegeven de verwachte inter-transcribent consistentie en gegeven de benodigde transcriptietijd. Daarom is gekozen voor de annotatie van bovenstaande prosodische fenomenen, waarin maar één niveau van prominentie werd weergeven, twee soorten prosodische grenzen, en tot slot één niveau van klankverlenging, hoewel wellicht voor alle drie de fenomenen verschillende maten zijn waar te nemen.

De orthografische transcriptie was de basis waarin de bovenstaande prosodische markeringen moesten worden aangebracht. Hiervoor is gekozen zodat het werk kon worden uitgevoerd door zogenoemde naïeve luisteraars zonder aantoonbare kennis van fonologie of fonetiek en zonder een prosodische achtergrond, wat wel nodig zou zijn geweest als de fonetische transcriptie als basis zou zijn genomen. Bijkomend voordeel van deze beslissing was dat de prosodische annotatie onafhankelijk van de fonetische transcriptie tot stand kon komen.

Voorafgaand aan de feitelijke prosodische annotatie van een deel van het corpus werd een verkennende studie uitgevoerd (zie ook Buhmann et al. (2002).

Literatuurverwijzingen

Terug naar het begin van deze pagina.


Werkwijze

Om een zekere bias te voorkomen ten aanzien van het zetten van prosodische grensmarkeringen op syntactische grenzen, is voorafgaand aan de annotatie alle punctuatie uit de orthografische transcriptie verwijderd.

Er werd gebruik gemaakt van het programma PRAAT om de prosodische annotaties aan te brengen. Alle data werd door twee transcribenten onafhankelijk van elkaar voorzien van een prosodische annotatie. Het is aan de gebruiker te beslissen welke van de twee (of beide) annotaties te gebruiken.
 
 

Terug naar het begin van deze pagina.

Protocol

Voor de prosodische annotatie werd gebruik gemaakt van een protocol:

Martens, J.-P. 2002. Protocol voor prosodische annotatie. (Hier beschikbaar in .ps- en .pdf-formaat.)
 

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

Voor alle data die prosodisch werden geannoteerd, zijn twee versies beschikbaar, die onafhankelijk van elkaar door twee verschillende personen werden geproduceerd. De prosodische annotaties zijn opgeslagen in twee formaten: Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het pro-formaat en het prx-formaat.

Bestanden in het TextGrid-formaat zijn te vinden in resp. de directory /data/annot/text/pro1/ en /data/annot/text/pro2/ van de annotatie-DVD die deel uitmaakt van versie 1.0
De bestanden in het XML-formaat zijn te vinden in resp. de directory /data/annot/xml/prx1/ en /data/annot/xml/prx2/ van de annotatie-DVD die deel uitmaakt van versie 1.0
 

Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data voorzien van een prosodische annotatie
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
87.394
 49.988 37.406
b.
Interviews met leraren Nederlands
15.263
7.667 7.596
c.
Telefoondialogen opgenomen m.b.v. platform
39.944
19.874
20.070
d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
0
0
0
e.
Zakelijke onderhandelingen
7.485
 0  7.485
f. Interviews en discussie uitgezonden op radio en televisie
17.544
10.007  7.537
g.
Discussie, debatten, vergaderingen (m.n. politieke)
13.902
5.414
 7.678
h.
Lessen
0
0
0
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
11.868
 6.002  5.866
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
11.671
 6.054  5.617
k.
Nieuwsbulletins uitgezonden op radio en televisie
13.685
 6.248  7.437
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
13.539
 5.998  7.541
m.
Missen, lezingen, plechtige toespraken
2.102
 1.124  798
n.
Colleges, voordrachten, lezingen
010.457
 3.880  6.577
o.
Voorgelezen teksten  0 0 0
Totaal
244.044
122.256 121.788

Terug naar het begin van deze pagina.