Brede fonetische transcriptie
Een deel van de data werd voorzien van
een handmatig geverifieerde brede fonetische transcriptie. Dit houdt in
dat een automatisch gegenereerde brede fonetische transcriptie aan de hand
van het bijbehorende spraaksignaal werd geverifieerd en indien nodig gecorrigeerd.
De transcripties zijn zogenoemde brede fonetische transcripties, hierbij
wordt variatie van fonemen alleen gemarkeerd als dit binnen de gedefinieerde
foneemset kan.
Hieronder wordt nader ingegaan op
de fonetische transcriptie van de data in het CGN en de doelstellingen
die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd
ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie
gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht
gegeven van de data die in versie 1.0 beschikbaar zijn.
Lees verder over
Doel en motivatie
Het doel was het verkrijgen van een
geverifieerde brede fonetische transcriptie van het gesproken materiaal
die binnen de gedefinieerde foneemset blijft, waarin inserties, deleties
en substituties van fonemen tot uiting komen. Graduele processen, zoals
bijvoorbeeld mate van stemhebbendheid bij plosieven en fricatieven en zoals
monoftongering of diftongering bij vocalen, worden niet getranscribeerd.
De motivatie met betrekking tot de
gekozen foneemset is hier te vinden (als .ps-bestand
of als .pdf-bestand).
Werkwijze
Om het transcriptieproces te vereenvoudigen
maar zeker ook om de consistentie tussen transcribenten te bewaken werd
een automatisch gegenereerde transcriptie voorgegeven. De taak van de transcribent
bestond er vervolgens uit de transcriptie zo aan te passen dat deze aansloot
bij de feitelijke uitspraak van hetgeen gezegd werd.
Voor de verificatie van de voorgegenereerde
automatische transcriptie is gebruik gemaakt van het programma PRAAT.
Hiermee werd het spraaksignaal en de fonetische voorbeeldtranscriptie tegelijkertijd
weergegeven, en kan het spraaksignaal per gewenst subdeel herhaaldelijk
worden beluisterd. Alleen de voorgegenereerde transcriptie was zichtbaar,
dus niet de orthografie die eraan ten grondslag lag. Voor de moeilijkere
soorten spraak is gekozen deze in twee slagen te laten transcriberen, dus
eerst werd de voorgegenereerde transcriptie geverifieerd en gecorrigeerd
waarna een andere transcribent dit resultaat nogmaals verifieerde en corrigeerde.
Meer informatie over de werkwijze
en de uiteindelijke transcriptiekwaliteit is te vinden in Goddijn en Binnenpoorte
(2003).
Literatuurverwijzing:
S. Goddijn & D. Binnenpoorte, 'Assessing
Manually Corrected Broad Phonetic Transcriptions in the Spoken Dutch Corpus',
in Proceedings of 15th ICPhS, Barcelona, Spain, pp. 1361-1364, 2003.
Protocol
De regels voor de brede fonetische transcriptie
zijn vastgelegd in een protocol (Gillis 2001). In dit protocol wordt tevens
de symbolenset beschreven die gebruikt werd. In dit protocol worden enkele
transcriptieregels gesteld om een hoge consistentie in de uiteindelijke
transcripties te verkrijgen. Een van de belangrijkste regels was niet te
veel te vertrouwen op de voorbeeld transcriptie en deze veranderen als
daar aanleiding voor was. Enkel in geval van twijfel mocht de voorbeeldtranscriptie
blijven staan. Naast deze regels zijn een aantal aandachtspunten en speciale
gevallen opgesomd.
Literatuurverwijzing:
Gillis, S. 2001. Protocol voor brede
fonetische transcriptie. (Hier beschikbaar in .ps-
en .pdf-formaat.)
Bestandstypen en -formaten
De brede fonetische transcripties zijn
opgeslagen in de volgende formaten:
-
De in Praat geverifieerde fonetische
transcripties zijn opgeslagen als bestanden van het type .fon. Hierbij
gaat het om een (short) TextGrid-formaat. Deze bestanden zijn te vinden
in de directory /data/annot/text/fon/ van de annotatie-DVD die deel uitmaakt
van versie 1.0
-
Van dit bestandstype is een XML-formaat
gegeneerd. De koppeling tussen de orthografische en fonetische woorden
en de spreker informatie is na beschikbaarheid van de handmatig geverifieerde
woordsegmentatie opgeslagen in bestanden van het type .bpt. Deze bestanden
zijn te vinden in de directory /data/annot/xml/bpt-fon/ van de annotatie-DVD die deel uitmaakt van versie 1.0.
Overzicht van beschikbare data
In Tabel 1 wordt een overzicht gegeven
van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een
nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft
gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving
van de corpusopbouw.
Tabel 1. Overzicht van beschikbare
data voorzien van een brede fonetische transcriptie
Component |
Totaal aantal
woorden |
VL
|
NL
|
a.
|
Spontane conversaties ('face-to-face') |
177.127
|
70.945 |
106.182 |
b.
|
Interviews met leraren Nederlands |
59.751
|
34.064 |
25.687 |
c.
|
Telefoondialogen opgenomen m.b.v.
platform |
270.027
|
68.886
|
201.141
|
d.
|
Telefoondialogen opgenomen m.b.v.
minidisc recorder |
6.257
|
6.257 |
0
|
e.
|
Zakelijke onderhandelingen |
25.485
|
0 |
25.485 |
f. |
Interviews en discussie uitgezonden
op radio en televisie |
100.250
|
25.144 |
75.106 |
g.
|
Discussie, debatten, vergaderingen
(m.n. politieke) |
34.126
|
9.009
|
25.117 |
h.
|
Lessen |
36.064
|
10.103
|
25.961
|
i.
|
Spontane commentaren (o.a. sport)
uitgezonden op radio en televisie |
35.116
|
10.130 |
24.986 |
j.
|
Actualiteitenrubrieken en reportages
uitgezonden op radio en televisie |
32.744
|
7.679 |
25.065 |
k.
|
Nieuwsbulletins uitgezonden op radio
en televisie |
32.601
|
7.305 |
25.296 |
l.
|
Beschouwingen en commentaren uitgezonden
op radio en televisie |
32.502
|
7.431 |
25.071 |
m.
|
Missen, lezingen, plechtige toespraken |
7.077
|
1.893 |
5.184 |
n.
|
Colleges, voordrachten,
lezingen |
23.056
|
8.143 |
14.913 |
o.
|
Voorgelezen teksten |
135.071 |
64.848 |
70.223 |
Totaal |
1.007.254
|
331.837 |
675.417 |
Frequentie-informatie
Op basis van de handmatig geverifieerde
data die beschikbaar zijn in versie 1.0 van het corpus is een frequentielijst
gemaakt die inzicht geeft in de frequentie waarmee bepaalde fonetische
transcripties voor de woorden in het kerncorpus voorkomen. Een beschrijving
is te vinden op ../../lexicon/freq_lst.htm.
De frequentielijst zelf (fonalph.frq) is te vinden in de directory /data/lexicon/freqlists
van de annotatie-DVD die deel uitmaakt van versie 1.0.