Hieronder wordt nader ingegaan op de prosodische annotatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.
Lees verder over
De prosodische annotatie beoogde de aanduiding van drie soorten prosodische verschijnselen: (i) prominente lettergrepen, dit zijn lettergrepen die extra worden beklemtoond om een woord belangrijk te maken, of om het in contrast te plaatsen met een ander woord; (ii) prosodische grenzen, deze treden op daar waar perceptueel is vast te stellen dat de spraakstoom even onderbroken is. Er is onderscheid gemaakt tussen sterke en zwakke grenzen.; (iii) abnormale klankverlengingen, dit kan zowel bij klinkers als medeklinkers voorkomen zonder dat de lettergreep waarin dit voorkomt prominent wordt.
Er is een afweging gemaakt over de mate van detail in de prosodische annotatie gegeven de verwachte inter-transcribent consistentie en gegeven de benodigde transcriptietijd. Daarom is gekozen voor de annotatie van bovenstaande prosodische fenomenen, waarin maar één niveau van prominentie werd weergeven, twee soorten prosodische grenzen, en tot slot één niveau van klankverlenging, hoewel wellicht voor alle drie de fenomenen verschillende maten zijn waar te nemen.
De orthografische transcriptie was de basis waarin de bovenstaande prosodische markeringen moesten worden aangebracht. Hiervoor is gekozen zodat het werk kon worden uitgevoerd door zogenoemde naïeve luisteraars zonder aantoonbare kennis van fonologie of fonetiek en zonder een prosodische achtergrond, wat wel nodig zou zijn geweest als de fonetische transcriptie als basis zou zijn genomen. Bijkomend voordeel van deze beslissing was dat de prosodische annotatie onafhankelijk van de fonetische transcriptie tot stand kon komen.
Voorafgaand aan de feitelijke prosodische annotatie van een deel van het corpus werd een verkennende studie uitgevoerd (zie ook Buhmann et al. (2002).
Literatuurverwijzingen
Er werd gebruik gemaakt van het programma PRAAT om de prosodische annotaties
aan te brengen. Alle data werd door twee transcribenten onafhankelijk van
elkaar voorzien van een prosodische annotatie. Het is aan de gebruiker
te beslissen welke van de twee (of beide) annotaties te gebruiken.
Martens, J.-P. 2002. Protocol voor prosodische annotatie. (Hier
beschikbaar in .ps- en .pdf-formaat.)
Bestanden in het TextGrid-formaat zijn te vinden in resp. de directory
/data/annot/text/pro1/ en /data/annot/text/pro2/ van de annotatie-DVD die
deel uitmaakt van versie 1.0
De bestanden in het XML-formaat zijn te vinden in resp. de directory
/data/annot/xml/prx1/ en /data/annot/xml/prx2/ van de annotatie-DVD die
deel uitmaakt van versie 1.0
Tabel 1. Overzicht van beschikbare data voorzien van een prosodische annotatie
Component | Totaal aantal
woorden |
|||
---|---|---|---|---|
|
|
|||
a.
|
Spontane conversaties ('face-to-face') |
87.394
|
49.988 | 37.406 |
b.
|
Interviews met leraren Nederlands |
15.263
|
7.667 | 7.596 |
c.
|
Telefoondialogen opgenomen m.b.v. platform |
39.944
|
19.874
|
20.070
|
d.
|
Telefoondialogen opgenomen m.b.v. minidisc recorder |
0
|
0 |
0
|
e.
|
Zakelijke onderhandelingen |
7.485
|
0 | 7.485 |
f. | Interviews en discussie uitgezonden op radio en televisie |
17.544
|
10.007 | 7.537 |
g.
|
Discussie, debatten, vergaderingen (m.n. politieke) |
13.902
|
5.414
|
7.678 |
h.
|
Lessen |
0
|
0
|
0
|
i.
|
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie |
11.868
|
6.002 | 5.866 |
j.
|
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie |
11.671
|
6.054 | 5.617 |
k.
|
Nieuwsbulletins uitgezonden op radio en televisie |
13.685
|
6.248 | 7.437 |
l.
|
Beschouwingen en commentaren uitgezonden op radio en televisie |
13.539
|
5.998 | 7.541 |
m.
|
Missen, lezingen, plechtige toespraken |
2.102
|
1.124 | 798 |
n.
|
Colleges, voordrachten, lezingen |
010.457
|
3.880 | 6.577 |
o.
|
Voorgelezen teksten | 0 | 0 | 0 |
Totaal |
244.044
|
122.256 | 121.788 |