Brede fonetische transcriptie

Brede fonetische transcriptie

Een deel van de data werd voorzien van een handmatig geverifieerde brede fonetische transcriptie. Dit houdt in dat een automatisch gegenereerde brede fonetische transcriptie aan de hand van het bijbehorende spraaksignaal werd geverifieerd en indien nodig gecorrigeerd. De transcripties zijn zogenoemde brede fonetische transcripties, hierbij wordt variatie van fonemen alleen gemarkeerd als dit binnen de gedefinieerde foneemset kan.

Hieronder wordt nader ingegaan op de fonetische transcriptie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over

doel en motivatie
werkwijze
protocol
bestandstypen en -formaten
overzicht van beschikbare data
frequentie-informatie

Doel en motivatie

Het doel was het verkrijgen van een geverifieerde brede fonetische transcriptie van het gesproken materiaal die binnen de gedefinieerde foneemset blijft, waarin inserties, deleties en substituties van fonemen tot uiting komen. Graduele processen, zoals bijvoorbeeld mate van stemhebbendheid bij plosieven en fricatieven en zoals monoftongering of diftongering bij vocalen, worden niet getranscribeerd.

De motivatie met betrekking tot de gekozen foneemset is hier te vinden (als .ps-bestand of als .pdf-bestand).

Terug naar het begin van deze pagina.

Werkwijze

Om het transcriptieproces te vereenvoudigen maar zeker ook om de consistentie tussen transcribenten te bewaken werd een automatisch gegenereerde transcriptie voorgegeven. De taak van de transcribent bestond er vervolgens uit de transcriptie zo aan te passen dat deze aansloot bij de feitelijke uitspraak van hetgeen gezegd werd.

Voor de verificatie van de voorgegenereerde automatische transcriptie is gebruik gemaakt van het programma PRAAT. Hiermee werd het spraaksignaal en de fonetische voorbeeldtranscriptie tegelijkertijd weergegeven, en kan het spraaksignaal per gewenst subdeel herhaaldelijk worden beluisterd. Alleen de voorgegenereerde transcriptie was zichtbaar, dus niet de orthografie die eraan ten grondslag lag. Voor de moeilijkere soorten spraak is gekozen deze in twee slagen te laten transcriberen, dus eerst werd de voorgegenereerde transcriptie geverifieerd en gecorrigeerd waarna een andere transcribent dit resultaat nogmaals verifieerde en corrigeerde.

Meer informatie over de werkwijze en de uiteindelijke transcriptiekwaliteit is te vinden in Goddijn en Binnenpoorte (2003).

Literatuurverwijzing:

S. Goddijn & D. Binnenpoorte, 'Assessing Manually Corrected Broad Phonetic Transcriptions in the Spoken Dutch Corpus', in Proceedings of 15th ICPhS, Barcelona, Spain, pp. 1361-1364, 2003.

Terug naar het begin van deze pagina.

Protocol

De regels voor de brede fonetische transcriptie zijn vastgelegd in een protocol (Gillis 2001). In dit protocol wordt tevens de symbolenset beschreven die gebruikt werd. In dit protocol worden enkele transcriptieregels gesteld om een hoge consistentie in de uiteindelijke transcripties te verkrijgen. Een van de belangrijkste regels was niet te veel te vertrouwen op de voorbeeld transcriptie en deze veranderen als daar aanleiding voor was. Enkel in geval van twijfel mocht de voorbeeldtranscriptie blijven staan. Naast deze regels zijn een aantal aandachtspunten en speciale gevallen opgesomd.

Literatuurverwijzing:

Gillis, S. 2001. Protocol voor brede fonetische transcriptie. (Hier beschikbaar in .ps- en .pdf-formaat.)

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De brede fonetische transcripties zijn opgeslagen in de volgende formaten:

De in Praat geverifieerde fonetische transcripties zijn opgeslagen als bestanden van het type .fon. Hierbij gaat het om een (short) TextGrid-formaat. Deze bestanden zijn te vinden in de directory /data/annot/text/fon/ van de annotatie-DVD die deel uitmaakt van versie 1.0
Van dit bestandstype is een XML-formaat gegeneerd. De koppeling tussen de orthografische en fonetische woorden en de spreker informatie is na beschikbaarheid van de handmatig geverifieerde woordsegmentatie opgeslagen in bestanden van het type .bpt. Deze bestanden zijn te vinden in de directory /data/annot/xml/bpt-fon/ van de annotatie-DVD die deel uitmaakt van versie 1.0.

Terug naar het begin van deze pagina.

Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.

Tabel 1. Overzicht van beschikbare data voorzien van een brede fonetische transcriptie

Component Totaal aantal
woorden

VL NL

a.
Spontane conversaties ('face-to-face')
177.127
70.945 106.182

b.
Interviews met leraren Nederlands
59.751
34.064 25.687

c.
Telefoondialogen opgenomen m.b.v. platform
270.027

68.886

201.141

d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
6.257
0

e.
Zakelijke onderhandelingen
25.485
0 25.485

f. Interviews en discussie uitgezonden op radio en televisie
100.250
25.144 75.106

g.
Discussie, debatten, vergaderingen (m.n. politieke)
34.126

9.009
25.117

h.
Lessen
36.064

10.103

25.961

i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
35.116
10.130 24.986

j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
32.744
7.679 25.065

k.
Nieuwsbulletins uitgezonden op radio en televisie
32.601
7.305 25.296

l.
Beschouwingen en commentaren uitgezonden op radio en televisie
32.502
7.431 25.071

m.
Missen, lezingen, plechtige toespraken
7.077
1.893 5.184

n.
Colleges, voordrachten, lezingen
23.056
8.143 14.913

o.
Voorgelezen teksten 135.071 64.848 70.223

Totaal
1.007.254
331.837 675.417

Component	Totaal aantal woorden
VL	NL
a.	Spontane conversaties ('face-to-face')	177.127	70.945	106.182
b.	Interviews met leraren Nederlands	59.751	34.064	25.687
c.	Telefoondialogen opgenomen m.b.v. platform	270.027	68.886	201.141
d.	Telefoondialogen opgenomen m.b.v. minidisc recorder	6.257	6.257	0
e.	Zakelijke onderhandelingen	25.485	0	25.485
f.	Interviews en discussie uitgezonden op radio en televisie	100.250	25.144	75.106
g.	Discussie, debatten, vergaderingen (m.n. politieke)	34.126	9.009	25.117
h.	Lessen	36.064	10.103	25.961
i.	Spontane commentaren (o.a. sport) uitgezonden op radio en televisie	35.116	10.130	24.986
j.	Actualiteitenrubrieken en reportages uitgezonden op radio en televisie	32.744	7.679	25.065
k.	Nieuwsbulletins uitgezonden op radio en televisie	32.601	7.305	25.296
l.	Beschouwingen en commentaren uitgezonden op radio en televisie	32.502	7.431	25.071
m.	Missen, lezingen, plechtige toespraken	7.077	1.893	5.184
n.	Colleges, voordrachten, lezingen	23.056	8.143	14.913
o.	Voorgelezen teksten	135.071	64.848	70.223
Totaal	1.007.254	331.837	675.417

Terug naar het begin van deze pagina.

Frequentie-informatie

Op basis van de handmatig geverifieerde data die beschikbaar zijn in versie 1.0 van het corpus is een frequentielijst gemaakt die inzicht geeft in de frequentie waarmee bepaalde fonetische transcripties voor de woorden in het kerncorpus voorkomen. Een beschrijving is te vinden op ../../lexicon/freq_lst.htm. De frequentielijst zelf (fonalph.frq) is te vinden in de directory /data/lexicon/freqlists van de annotatie-DVD die deel uitmaakt van versie 1.0.

Terug naar het begin van deze pagina.