Woordsegmentatie

Het volledige corpus werd automatisch gesegmenteerd op woordniveau. Dit betekent dat elk woord in het corpus wordt verbonden met een stukje spraaksignaal waarin dat woord is uitgesproken. Van alle data is ook een foneemsegmentatie beschikbaar. En voor een deel van de data waarvoor ook een handmatige fonetische transcriptie beschikbaar was, werd de automatische segmentatie tevens handmatig geverifieerd en gecorrigeerd. In dit deel is de oorspronkelijke foneemsegmentatie niet beschikbaar. Voor alle andere data, waarbij een automatische fonetische transcriptie ten grondslag lag, is deze informatie nog wel beschikbaar.

Hieronder wordt nader ingegaan op de woordsegmentatie van de data in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven, en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.
 

Lees verder over




Doel en motivatie

Het doel van deze annotatielaag is om woorden in verbonden spraak van elkaar te scheiden door grenzen, of markeringen, te plaatsen in het spraaksignaal. Deze grenzen moeten dusdanig geplaatst worden, zodat het stukje signaal dat omgeven is door die grenzen precies het bijbehorende woord bevat. De afzonderlijke woorden moeten akoestisch acceptabel klinken en dus als zodanig auditief herkenbaar zijn.

Een functie van de woordsegmentatie is om te dienen als een snelle manier om woorden en hun akoestische weergave daarvan in het corpus terug te vinden. Daarnaast levert vooral het handmatig geverifieerde deel een betrouwbaar subcorpus op, dat kan dienen als ontwikkelcorpus voor bijvoorbeeld het trainen van een automatische spraakherkenner waarbij de eerste segmentatiestap reeds is uitgevoerd. Tot slot levert de woordsegmentatie een 1-op-1 koppeling aan tussen een orthografisch woord en zijn fonetische transcriptie, waarbij de koppeling is vastgelegd door de grenzen in het signaal. Voor het handmatig geverifieerde deel geldt dat de fonetische transcripties ook handmatig zijn gecreëerd.
 
 

Terug naar het begin van deze pagina.


Werkwijze

De automatische segmentatie is ontstaan doordat een automatische spraakherkenner de klanksymbolen uit een fonetische transcriptie gekoppeld heeft aan de bijbehorende gedeelten van het geluidssignaal. Voor ieder foneem wordt een stukje signaal gevonden waarbij het hoort. Uit de foneemsegmentaties zijn de uiteindelijke woordgrenzen afgeleid, zowel fonetisch getranscribeerde woorden als orthografische. Voor meer informatie over het tot stand komen van de segmentatie, zie Martens et al. (2002).

Voor het deel dat handmatig geverifieerd en gecorrigeerd werd, is de onderliggende foneemsegmentatie niet opgeleverd. De basis voor de automatische segmentatie van dit deel was een handmatig gemaakte brede fonetische transcriptie (zie hier). Alle andere data werd voorzien van een automatische fonetische transcriptie (zie Demuynck et al. 2002 en Cucchiarini et al. 2001).

Tijdens de manuele verificatie van de automatische woordgrenzen is gebruik gemaakt van PRAAT, conform de werkwijze van de orthografische en fonetische transcripties. In PRAAT is het mogelijk om zowel het oscillogram van het spraaksignaal, als de tiers waarin de orthografische en fonetische woorden staan tegelijkertijd zichtbaar te maken en het signaal af te spelen tussen de automatisch gezette woordgrenzen. De grenzen waarmee de woorden zijn afgebakend zijn eenvoudigweg met de muis te ‘verslepen’ naar de gewenste positie.

Literatuurverwijzingen:

Martens, J.P. , D. Binnenpoorte, K. Demuynck, R. van Parys, T. Laureys, W. Goedertier & J. Duchateau 2002. Word Segmentation in the Spoken Dutch Corpus, in Proceedings of LREC2002, Las Palmas de Gran Canaria, Spain.

Demuynck, K., T. Laureys & S. Gillis. 2002. Automatic Generation of Phonetic Transcriptions for Large Speech Corpora.  In Proceedings International Conference on Spoken Language Processing. Vol. 1: 333-336. Denver, USA.

Cucchiarini, C., D. Binnenpoorte & S. Goddijn. 2001. Phonetic Transcriptions in the Spoken Dutch Corpus: how to combine efficiency and good transcription quality. In Proceedings Eurospeech 2001. Aalborg, Denmark. pp. 1679-1682
 
  


Terug naar het begin van deze pagina.

Protocol

Voor de handmatige verificatie van de woordsegmentaties werd gebruik gemaakt van een protocol (Binnenpoorte, 2002). Het belangrijkste uitgangspunt bij de handmatige verificatie was dat dit consistent gebeurde. Ten behoeve daarvan zijn enkele regels opgesteld in het protocol waarvan hieronder de belangrijkste: De spraakdata die in het corpus is verzameld, is verbonden spraak. In verbonden spraak zijn woorden niet van elkaar gescheiden door pauzes, zoals bijvoorbeeld spaties in geschreven taal, maar de klanken van de woorden lopen in één stroom door. Dit levert voor een aantal gevallen moeilijkheden op bij het bepalen van de grens tussen twee woorden. Dit is het geval als twee woorden een klank delen, de laatste klank van het eerste woord is dezelfde als de beginklank van het tweede woord en wordt als één, niet twee afzonderlijk te onderscheiden, klank uitgesproken. In het protocol is beschreven hoe dit is aangepakt.

Binnenpoorte, D. 2002. Protocol voor manuele verificatie van automatisch gegenereerde woordsegmentaties. (Hier beschikbaar in .ps- en .pdf-formaat
 

Terug naar het begin van deze pagina.

Bestandstypen en -formaten

De woordsegmentatie is opgeslagen in de volgende bestanden:
 


Voor bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het wrd-formaat en het awd-formaat, de bpt-formaten en de skp-formaten van deze annotatielaag.
 

Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
 
Tabel 1. Overzicht van beschikbare data voorzien van een manueel geverifieerde woordsegmentatie 
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
177.127
 70.945 106.182
b.
Interviews met leraren Nederlands
59.751
 34.064 25.687
c.
Telefoondialogen opgenomen m.b.v. platform
270.027
68.886
201.141
  d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
6.257
 6.257
0
  e.
Zakelijke onderhandelingen
25.485
 0  25.485
  f. Interviews en discussie uitgezonden op radio en televisie
100.250
25.144  75.106
  g.
Discussie, debatten, vergaderingen (m.n. politieke)
34.126
9.009
 25.117
h.
Lessen
36.064
10.103
25.961
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
35.116
10.130  24.986
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
32.744
 7.679  25.065
k.
Nieuwsbulletins uitgezonden op radio en televisie
32.601
 7.305  25.296
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
32.502
 7.431  25.071
m.
Missen, lezingen, plechtige toespraken
7.077
1.893  5.184
n.
Colleges, voordrachten, lezingen
23.056
 8.143  14.913
o.
Voorgelezen teksten  135.071   64.848 70.223
Totaal
1.007.254
331.837 675.417

Voor alle data in het corpus is zijn ook niet handmatig geverifieerde data beschikbaar, met daarin tevens een foneemsegmentatie. Gegevens over de hoeveelheid en de soort data kan worden gevonden in de tabel onder orthografische transcriptie.
 
 

Terug naar het begin van deze pagina.