Orthografische transcriptie

Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografische transcriptie is een woordelijke neerslag van wat er gezegd werd. Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in de transcriptie weergegeven.

Hieronder wordt nader ingegaan op de rol van de orthografische transcriptie in het CGN en de doelstellingen die werden beoogd. Ook wordt aandacht besteed aan het protocol dat werd ontwikkeld, wordt in het kort de werkwijze beschreven en wordt informatie gegeven over de bestandstypen en -formaten. Tot slot wordt een overzicht gegeven van de data die in versie 1.0 beschikbaar zijn.

Lees verder over



Doel en motivatie

Het doel van de orthografische transcriptie van de data in het CGN was tweeledig. Ten eerste werd daarmee beoogd gebruikers van het corpus te voorzien van uiterst waardevolle informatie. Door deze zeer eenvoudig symbolische representatie van het audiobestand is het bijvoorbeeld mogelijk eenvoudig door het corpus te navigeren, kunnen frequentietellingen worden gedaan, e.d. Samen met de POS tagging en lemmatisering is het de enige vorm van transcriptie/annotatie die én voor het gehele corpus beschikbaar is én bovendien handmatig geverifieerd is. Ten tweede vormt de orthografische transcriptie het uitgangspunt waarop alle overige transcripties en annotaties zijn gebaseerd.

Gezien het belang van de orthografische transcriptie is er in de beginfase van het project uitgebreid nagedacht over wat de aard van de transcriptie diende te zijn (wat wordt hoe weergegeven) en op welke wijze kwalitatief hoogwaardige transcripties zouden kunnen worden verkregen. De neerslag hiervan is te vinden in het protocol voor orthografische transcriptie. Bij de opstelling van dit protocol werden de volgende uitgangspunten gehanteerd:

Terug naar het begin van deze pagina.


Werkwijze

Om het transcriptieproces te vereenvoudigen werd gebruik gemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografische transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.

Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden zo veel mogelijk geplaatst in de natuurlijke pauzes tussen woorden (merk op: de markeringen  vallen niet noodzakelijkwijs samen met syntactische grenzen). In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.
 

Terug naar het begin van deze pagina.


Protocol

Gegeven de uitgangspunten die hierboven zijn weergegeven en daarbij de beschikbare tijd en middelen, werd een aantal criteria geformuleerd die vervolgens werden vastgelegd en de basis vormden voor het Protocol voor orthografische transcriptie (Goedertier & Goddijn 2000; hier beschikbaar in .ps- en .pdf-formaat). Dit zijn achtereenvolgens

Consistentie
De ervaringen opgedaan in een aantal andere projecten (o.a. Switchboard, SpeechDat) hebben laten zien dat het aanbeveling verdient zoveel mogelijk de gangbare spellingconventies aan te houden. Dit blijkt in het algemeen voor de transcribenten eenvoudiger en draagt op die manier bij aan het vergroten van de consistentie. Ook voor de orthografische transcriptie van het CGN werd de conventionele spelling zoveel mogelijk aangehouden om zoveel mogelijk consistent te kunnen zijn. Om diezelfde reden werd op een (klein) aantal punten besloten van de gangbare conventies juist af te wijken. Dit betreft dan met name de interpunctie en het gebruik van hoofd- en kleine letters.

Ten einde de orthografische transcriptie zo consistent mogelijk te laten zijn, werd de spelling van alle woorden tijdens het transcriptieproces on-line gecontroleerd met behulp van een electronische spellingchecker. Als er een vermoedelijke fout werd geconstateerd, werd de transcribent verondersteld het desbetreffende woord te corrigeren of het te markeren met behulp van één van de speciale symbolen die daartoe in het protocol waren vastgelegd. Zo werden in het protocol speciale markeringen voorzien voor nieuwe (d.w.z. tot dan toe niet in het lexicon opgenomen) woorden, maar ook bijvoorbeeld voor afgebroken woorden, dialectwoorden, dialectisch uitgesproken woorden en woorden afkomstig uit een vreemde taal. De gemarkeerde woorden werden door een lexicoloog beoordeeld en desgewenst aan het lexicon toegevoegd.

Accuraatheid
De procedure voor het vervaardigen van orthografische transcripties was erop gericht de accuraatheid van de transcripten zo groot mogelijk te laten zijn. Nadat een transcribent een eerste transcriptie had gemaakt waarbij hetgeen gezegd werd woordelijk werd uitgeschreven en tevens om de twee à drie seconden tijdsmarkeringen werden aangebracht, werd deze transcriptie door een tweede transcribent gecontroleerd. Daarbij werd gecontroleerd of hetgeen gezegd werd volledig en correct werd weergegeven (qua spelling, maar ook voor wat betreft het gebruik van de vereiste speciale markeringen en de toewijzing van spraak aan de juiste spreker(s)). Ook werd gecontroleerd of de tijdsmarkeringen correct waren aangebracht.

De accuraatheid van de orthografische transcripten werd aan een verdere controle onderworpen doordat bij de verdere verwerking van de data waarbij andere transcripties en annotaties werden aangebracht, vermeende onjuistheden steeds werden gerapporteerd. Deze rapportages waren aanleiding om de transcripties op die punten nogmaals te controleren en eventueel bij te stellen.

Helderheid
Er is geprobeerd het aantal regels in het protocol zo gering mogelijk te laten zijn. Dit maakte het voor transcribenten eenvoudiger om ze te onthouden en correct toe te passen. In het protocol zijn niet alleen regels maar ook een groot aantal voorbeelden opgenomen. Bij het ontwikkelen van het protocollen werden de ervaringen van transcribenten meegenomen. Het resultaat is een protocol dat praktisch werkbaar is gebleken.
 

Literatuurverwijzingen

Terug naar het begin van deze pagina.


Bestandstypen en -formaten

De orthografische transcripties zijn beschikbaar in twee formaten:

Voor een gedetailleerde beschrijving van bovengenoemde formaten, zie de afzonderlijke formaatbeschrijvingen van het ort-formaat, het pri-formaat en het skp-formaat.

Bestanden in het TextGrid-formaat zijn van het type .ort. Deze bestanden zijn te vinden in de directory /data/annot/text/ort/ van de annotatie-DVD die deel uitmaakt van versie 1.0
De bestanden in het XML-formaat zijn te vinden in resp. de directory /data/annot/xml/pri/ en /data/annot/xml/skp/ van de annotatie-DVD die deel uitmaakt van versie 1.0
 

Terug naar het begin van deze pagina.


Overzicht van beschikbare data

In Tabel 1 wordt een overzicht gegeven van de data die in versie 1.0 van het corpus beschikbaar zijn. Voor een nadere beschrijving van het ontwerp dat aan het corpus ten grondslag heeft gelegen en de motivatie daarvoor, verwijzen we naar de beschrijving van de corpusopbouw.
 

Tabel 1. Overzicht van beschikbare data
 
Component Totaal aantal 
woorden
VL
NL
a.
Spontane conversaties ('face-to-face')
2.626.172
 878.383 1.747.789
b.
Interviews met leraren Nederlands
565.433
 315.554 249.879
c.
Telefoondialogen opgenomen m.b.v. platform
1.208.633
465.096
743.537
  d.
Telefoondialogen opgenomen m.b.v. minidisc recorder
853.371
 343.167
510.204
  e.
Zakelijke onderhandelingen
136.461
 0  136.461
  f. Interviews en discussie uitgezonden op radio en televisie
790.269
250.708  539.561
  g.
Discussie, debatten, vergaderingen (m.n. politieke)
360.328
138.819
 221.509
h.
Lessen
405.409
105.436
299.973
i.
Spontane commentaren (o.a. sport) uitgezonden op radio en televisie
208.399
 78.022  130.377
j.
Actualiteitenrubrieken en reportages uitgezonden op radio en televisie
186.072
 95.206  90.866
k.
Nieuwsbulletins uitgezonden op radio en televisie
368.153
 82.855  285.298
l.
Beschouwingen en commentaren uitgezonden op radio en televisie
145.553
 65.386  80.167
m.
Missen, lezingen, plechtige toespraken
18.075
 12.510  5.565
n.
Colleges, voordrachten, lezingen
140.901
 79.067  61.834
o.
Voorgelezen teksten  903.043 351.419 551.624
Totaal
8.916.272
3.261.628 5.654.644

 
 

Terug naar het begin van deze pagina.




Woordfrequentielijsten

Op basis van de data die beschikbaar zijn in versie 1.0 van het corpus zijn verschillende woordfrequentielijsten gemaakt die inzicht geven in de frequentie waarmee woorden in het corpus voorkomen. De verschillende typen frequentielijsten zijn de volgende:

Een beschrijving van de verschillende lijsten is te vinden op ../../lexicon/freq_lst.htm. De frequentielijsten zelf zijn te vinden in de directory /data/lexicon/ van de annotatie-DVD die deel uitmaakt van versie 1.0
 
Terug naar het begin van deze pagina.