Brede fonetische transcriptie

 
Een deel van de data werd voorzien van een handmatig geverifieerde brede fonetische transcriptie. Dit houdt in dat een automatisch gegenereerde brede fonetische transcriptie aan de hand van het bijbehorende spraaksignaal werd geverifieerd en indien nodig gecorrigeerd. De transcripties zijn zogenoemde brede fonetische transcripties, hierbij wordt variatie van fonemen alleen gemarkeerd als dit binnen de gedefinieerde foneemset kan.

Hieronder wordt nader ingegaan op de fonetische transcriptie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over



Doel en motivatie

Het doel was het verkrijgen van een geverifieerde brede fonetische transcriptie van het gesproken materiaal die binnen de gedefinieerde foneemset blijft, waarin inserties, deleties en substituties van fonemen tot uiting komen. Graduele processen, zoals bijvoorbeeld mate van stemhebbendheid bij plosieven en fricatieven en zoals monoftongering of diftongering bij vocalen, worden niet getranscribeerd.

De motivatie met betrekking tot de gekozen foneemset is hier te vinden (als .ps-bestand of als .pdf-bestand).
 
 

Terug naar het begin van deze pagina.


Werkwijze

Om het transcriptieproces te vereenvoudigen maar zeker ook om de consistentie tussen transcribenten te bewaken werd een automatisch gegenereerde transcriptie voorgegeven. De taak van de transcribent bestond er vervolgens uit de transcriptie zo aan te passen dat deze aansloot bij de feitelijke uitspraak van hetgeen gezegd werd.

Voor de verificatie van de voorgegenereerde automatische transcriptie is gebruik gemaakt van het programma PRAAT. Hiermee werd het spraaksignaal en de fonetische voorbeeldtranscriptie tegelijkertijd weergegeven, en kan het spraaksignaal per gewenst subdeel herhaaldelijk worden beluisterd. Alleen de voorgegenereerde transcriptie was zichtbaar, dus niet de orthografie die eraan ten grondslag lag. Voor de moeilijkere soorten spraak is gekozen deze in twee slagen te laten transcriberen, dus eerst werd de voorgegenereerde transcriptie geverifieerd en gecorrigeerd waarna een andere transcribent dit resultaat nogmaals verifieerde en corrigeerde.

Meer informatie over de werkwijze en de uiteindelijke transcriptiekwaliteit is te vinden in Goddijn en Binnenpoorte (2003).

Literatuurverwijzing:

S. Goddijn & D. Binnenpoorte, 'Assessing Manually Corrected Broad Phonetic Transcriptions in the Spoken Dutch Corpus', in Proceedings of 15th ICPhS, Barcelona, Spain, pp. 1361-1364, 2003.
 
Terug naar het begin van deze pagina.

Protocol

De regels voor de brede fonetische transcriptie zijn vastgelegd in een protocol (Gillis 2001). In dit protocol wordt tevens de symbolenset beschreven die gebruikt werd. In dit protocol worden enkele transcriptieregels gesteld om een hoge consistentie in de uiteindelijke transcripties te verkrijgen. Een van de belangrijkste regels was niet te veel te vertrouwen op de voorbeeld transcriptie en deze veranderen als daar aanleiding voor was. Enkel in geval van twijfel mocht de voorbeeldtranscriptie blijven staan. Naast deze regels zijn een aantal aandachtspunten en speciale gevallen opgesomd.
 

Literatuurverwijzing:

Gillis, S. 2001. Protocol voor brede fonetische transcriptie. (Hier beschikbaar in .ps- en .pdf-formaat.)
 
 
Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De brede fonetische transcripties zijn opgeslagen in de volgende formaten:  

Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
 

Tabel 1. Overzicht van beschikbare data voorzien van een brede fonetische transcriptie
 
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
177.127
 70.945 106.182
b.
Interviews met leraren Nederlands
59.751
 34.064 25.687
c.
Telefoondialogen opgenomen m.b.v. platform
270.027
68.886
201.141
  d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
 6.257
0
  e.
Zakelijke onderhandelingen
25.485
 0  25.485
  f. Interviews en discussie uitgezonden op radio en televisie
100.250
25.144  75.106
  g.
Discussie, debatten, vergaderingen (m.n. politieke)
34.126
9.009
 25.117
h.
Lessen
36.064
10.103
25.961
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
35.116
10.130  24.986
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
32.744
 7.679  25.065
k.
Nieuwsbulletins uitgezonden op radio en televisie
32.601
 7.305  25.296
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
32.502
 7.431  25.071
m.
Missen, lezingen, plechtige toespraken
7.077
1.893  5.184
n.
Colleges, voordrachten, lezingen
23.056
 8.143  14.913
o.
Voorgelezen teksten  135.071   64.848 70.223
Totaal
1.007.254
331.837 675.417

Terug naar het begin van deze pagina.


Frequentie-informatie

Op basis van de handmatig geverifieerde data die beschikbaar zijn in versie 1.0 van het corpus is een frequentielijst gemaakt die inzicht geeft in de frequentie waarmee bepaalde fonetische transcripties voor de woorden in het kerncorpus voorkomen. Een beschrijving is te vinden op ../../lexicon/freq_lst.htm. De frequentielijst zelf (fonalph.frq) is te vinden in de directory /data/lexicon/freqlists van de annotatie-DVD die deel uitmaakt van versie 1.0.
 
 
Terug naar het begin van deze pagina.