Het project Corpus Gesproken Nederlands

Het project Corpus Gesproken Nederlands was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan tweederde deel afkomstig zou zijn uit Nederland, en eenderde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in versie 1.0 omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.

Het Corpus Gesproken Nederlands wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal werd orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt. Tenslotte werd een bescheiden deel van het corpus, circa 250.000 woorden, van een prosodische annotatie voorzien.

Al tijdens het project werden delen van het corpus in de vorm van tussentijdse releases ongeveer om de zes maanden beschikbaar gesteld. Met het verschijnen van versie 1.0 komen alle eerdere releases te vervallen.

Het project werd gefinancierd door de Vlaamse en Nederlandse Regering en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). In totaal werd er een bedrag van circa 4,9 miljoen euro geïnvesteerd. De resultaten en alle rechten daarop zijn het eigendom van de Nederlandse Taalunie. Van het materiaal mag derhalve niets verveelvoudigd en/of openbaar gemaakt worden op welke wijze dan ook zonder voorafgaande schriftelijke toestemming van de Nederlandse Taalunie.

Het corpus is beschikbaar voor wetenschappelijk onderzoek en voor de ontwikkeling van niet-commerciële producten. In deze producten mogen de bijdragen van individuele personen niet op een herkenbare manier aanwezig zijn. Wie een commerciële licentie heeft, mag deze databank gebruiken voor het ontwikkelen van commerciële afgeleide producten zoals spraakherkenners en taalmodellen. De bijdragen van individuele personen mogen niet op een herkenbare manier aanwezig zijn in deze producten.

Lees hieronder verder over

Tot slot zijn hier ter illustratie ook drie korte fragmenten opgenomen die deel uitmaken van het corpus. Zie onder demo.



Achtergrond en motivatie

Het Nederlands is de officiële taal in Nederland (zo'n 15 miljoen sprekers), in Vlaanderen (zo'n 5,6 miljoen sprekers), in Suriname (zo'n 360.000 sprekers, waarvan ongeveer 50% in Nederland woont) en op de Nederlandse Antillen (zo'n 240.000 sprekers). Hoewel het varianten zijn van dezelfde taal bestaan er toch aanzienlijke verschillen tussen het Nederlands zoals dat in Nederland gesproken wordt en het Nederlands dat gesproken wordt in Vlaanderen. Deze verschillen doen zich voor op het gebied van de syntaxis, de morfologie, het lexicon en de fonetiek/fonologie.

In het veeltalige Europa moet het Nederlands concurreren met andere talen. Met name de invloed van het Engels is in toenemende mate merkbaar. Op een aantal terreinen lijkt het Nederlands te moeten wijken voor het Engels. Zo speelt het Nederlands in de ontwikkeling en toepassing van technologieën nog slechts een bescheiden rol. De belangrijke rol die het Engels speelt in het moderne taal- en spraaktechnologische onderzoek kan grotendeels verklaard worden door de beschikbaarheid van de benodigde onderzoeksbronnen, zoals grote databanken van gesproken en geschreven Engels. Voor het Nederlands ontbraken dergelijke bronnen tot dusver. Met behulp van een corpus gesproken Nederlands zal het mogelijk zijn om technologieën die voor het Engels ontwikkeld zijn ook op het Nederlands toe te passen. Op termijn kan dit verstrekkende gevolgen hebben voor de economische en culturele positie van het Nederlands in Europa. Tegen deze achtergrond hebben de regeringen van Nederland en Vlaanderen besloten te investeren in de aanleg van een corpus van gespoken Nederlands.

Behalve voor ontwikkelingen in de taal- en spraaktechnologie is het corpus van belang voor de taalkunde in brede zin. Tot nu toe waren alleen corpora van geschreven Nederlands beschikbaar. Dit heeft geleid tot een sterke focus op de beschrijving van aspecten van de geschreven taal, terwijl van het 'vluchtige' gesproken Nederlands vrijwel geen systematische kennis voorhanden is. Verder is een corpus gesproken Nederlands van belang voor het onderwijs. Een goed inzicht in het dagelijkse taalgebruik is onontbeerlijk voor de ontwikkeling van cursussen Nederlands als tweede taal alsmede voor het onderwijs Nederlands in het basisonderwijs en op de middelbare school.

Terug naar het begin van deze pagina.


Projectorganisatie

De eindverantwoordelijkheid van het CGN-project lag bij het bestuur. In het bestuur zaten zes leden met een evenredige vertegenwoordiging uit Vlaanderen en Nederland. De leden werden benoemd door de Vlaamse en Nederlandse financiers. Een van de Nederlandse bestuursleden vertegenwoordigde de Landelijke Onderzoekschool Taalkunde (LOT). Een vertegenwoordiger van de Nederlandse Taalunie - eigenaar van de resultaten van het CGN-project - woonde als waarnemer de bestuursvergaderingen bij. Voorzitter van het bestuur was aanvankelijk Prof. dr. W.J.M. Levelt van het Max Planck Instituut voor Psycholïnguistiek. Bij zijn terugtreden werd het voorzitterschap overgenomen door Prof. dr. S. Nooteboom van de Landelijke Onderzoeksschool Taalkunde (LOT), terwijl Prof. dr. W. Vonk (eveneens verbonden aan het MPI; tevens KUN) tot het bestuur toetrad.

Het bestuur stelde een stuurgroep in. Deze bestond uit experts vanuit de verschillende taalkundige (sub)disciplines en vanuit de taal- en spraaktechnologie. De stuurgroep was verantwoordelijk voor de daadwerkelijke uitwerking en uitvoering van het project.

De coördinatie van het project geschiedde vanuit twee locaties: Gent voor Vlaanderen en Nijmegen voor Nederland. Elke locatie had een eigen projectleider. De projectleiders hadden de dagelijkse leiding over het project. Zij waren verantwoordelijk voor de inhoudelijke voortgang van het project en voor de coördinatie tussen en binnen drie werkgroepen: corpusopbouw, signaalanalyse en corpusannotatie. De werkgroepen hadden de feitelijke uitvoering van de desbetreffende onderdelen van het project als taak. De werkgroep corpusopbouw was meer specifiek verantwoordelijk voor het ontwerp en opbouw van het corpus, de werving van sprekers en de acquisitie van opnames. De werkgroep signaalanalyse hield zich bezig met de ontwikkeling van het protocol en de procedures voor orthografische transcriptie, woordsegmentatie, fonetische transcriptie en prosodische annotatie. De werkgroep corpusannotatie was verantwoordelijk voor de POS tagging, lemmatisering, lexicologische koppeling en syntactische annotatie.

De projectorganisatie werd ondersteund door het CGN-bureau.
 

Terug naar het begin van deze pagina.


Projectonderdelen

Het project had tot doel een corpus van ca. 1000 uur spraak (uitgeschreven zo'n tien miljoen woorden) samen te stellen dat een plausibele steekproef vormt van het hedendaags Nederlands zoals dat gesproken wordt in Vlaanderen en Nederland. Eenderde van het materiaal werd in Vlaanderen verzameld, en tweederde in Nederland. De basisannotatie omvat de orthografische transcriptie en de verrijking met woordsoortinformatie en lemmatisering. Daarnaast werd een selectie van één miljoen woorden meer gedetailleerd geannoteerd.

Binnen het project werden de volgende onderdelen onderscheiden:

Corpusontwerp en -opbouw
 
Meer informatie over het ontwerp van het corpus en de motivatie daarvoor is hier te vinden. Ook wordt nader ingegaan op de opbouw van het corpus.

Opname en digitalisering
 
Voor een deel werden opnames in eigen beheer gemaakt, terwijl voor een ander deel ook werd samengewerkt met andere projecten, bedrijven, organisaties en instellingen. Het betreft hier o.a. het VNC-project 'De uitspraak van het Standaardnederlands', de Blindenbibliotheken in Vlaanderen en Nederland, de VRT, diverse omroeporganisaties in Nederland, het Nederlands Instituut voor Beeld en Geluid, het archief van het Vlaams parlement en het ANP. Materiaal werd zoveel mogelijk aan de basis digitaal opgenomen. Wanneer gebruik gemaakt werd van bestaand materiaal waren digitale opnames echter niet altijd beschikbaar. Alle opnames werden - voor zover ze niet al in elektronische vorm waren binnengekomen - via een geluidskaart in een pc ingelezen. Met uitzondering van telefoonopnames, werd het materiaal opgeslagen in een ongecomprimeerd 16 bits, 16 kHz wav-formaat (voor meer informatie, zie hier). Informatie over de opnameomstandigheden, de gebruikte apparatuur e.d. is beschikbaar als onderdeel van de meta-data.  Geluidsbestanden kunnen worden beluisterd met het programma PRAAT of COREX, maar ook met de meeste andere afspeelprogramma's voor audio, op zowel pc's als andere platformen. Zowel PRAAT als COREX stellen de gebruiker in staat om - tegelijkertijd met het afspelen van de opname - de orthografisch transcriptie te bekijken. 

Orthografische transcriptie
 
Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografisch transcriptie is een woordelijke neerslag van wat er gezegd werd. Het transcript is in overeenstemming met de regels die daarvoor zijn vastgelegd in een protocol (Goedertier & Goddijn, 2000; hier beschikbaar in .ps- en .pdf-formaat). Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven; achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden in het transcript weergegeven. 

Om het transcriptieproces te vereenvoudigen werd gebruik gemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografisch transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar.

Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden geplaatst in de pauzes tussen woorden. In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.


(Photograph: D. van Aalst, KUN)

Meer informatie over de orthografische transcriptie van de data in versie 1.0 is te vinden op orthography/info.htm

Lemmatisering en verrijking met woordsoortinformatie (POS-tagging)
 
Het volledige corpus werd getagd. Binnen het project werd daarvoor een eigen CGN-tagset gedefinieerd die 316 tags omvat en die aansluit bij de praktijk van de ANS (Haeseryn et al., 1997). De tagset is conform de EAGLES-richtlijnen die daarvoor opgesteld zijn in het kader van de internationale standaardisering en wordt beschreven in Van Eynde (2003; hier beschikbaar in .pdf-formaat).  Voor het taggen werd gebruik gemaakt van een daartoe aan de Universiteit van Tilburg ontwikkelde tagger die aan elk woord de meest waarschijnlijke tag toekende. De tagger output werd gecontroleerd en waar nodig handmatig gecorrigeerd. Voor het lemmatiseren werd gebruik gemaakt van een lemmatizer en ook hiervan werd de uitvoer handmatig gecorrigeerd. 

Meer informatie over de POS tagging van de data in versie 1.0 is te vinden op pos tagging/info.htm
Meer informatie over de lemmatisering van de data in versie 1.0 is te vinden op lemmatisation/info.htm

Lexicologische koppeling
 
Binnen het project werd een CGN-lexicon ontwikkeld. Het lexicon is van belang gebleken voor de verschillende vormen van transcriptie en annotatie. Nu het project is afgerond, vervult het een belangrijke rol in de ontsluiting van de data. Door middel van een lexicologische koppeling werd het mogelijk een nadere lemmatisering te realiseren waarbij onder meer scheidbare werkwoorden en vreemdtalige meerwoordsuitdrukkingen gerelateerd werden aan de juiste lemmata. Het protocol dat daarbij gehanteerd werd (Piepenbrock 2004) is hier beschikbaar in .ps- en .pdf-formaat. 

Meer informatie over de lexicologische koppeling van de data in versie 1.0 is te vinden op lex linkup/info.htm

Brede fonetische transcriptie
 
Voor ongeveer één miljoen woorden werd een (geverifieerde) brede fonetische transcriptie vervaardigd. Het protocol dat daarbij werd gehanteerd (Gillis, 2001) is hier beschikbaar in .ps- en .pdf-formaat. Voor de vervaardiging van de transcripties werd gebruik gemaakt van het programma PRAAT. 

Meer informatie over de brede fonetische transcriptie van de data in versie 1.0 is te vinden op phonetics/info.htm
(Photograph: D. van Aalst, KUN)

Signaalkoppeling
 
Voor het materiaal waarvoor tevens een geverifieerde brede fonetische transcriptie beschikbaar is, werd het spraaksignaal op woordniveau gekoppeld aan het orthografisch transcript en werd het resultaat van deze oplijning handmatig geverifieerd. Het protocol is vastgelegd in Binnenpoorte (2002, 2004) en is hier beschikbaar in .ps- en .pdf-formaat). Voor het overige materiaal werd het signaal en het orthografisch transcript weliswaar (automatisch) gekoppeld, maar vond er geen verificatie plaats. 

Meer informatie over de woordsegmentatie van de data in versie 1.0 is te vinden op word_align/info.htm

Syntactische annotatie
 
Ten behoeve van de syntactische annotatie werd een annotatieschema ontwikkeld en vastgelegd in een protocol. Dit protocol (Hoekstra et al. 2003) is hier beschikbaar in .pdf-formaat. Voor het aanbrengen van de annotaties werd gebruik gemaakt van het in Saarbrücken ontwikkelde programma Annotate. Syntactische annotaties kunnen worden gevisualiseerd met behulp van het corpusexploitatieprogramma COREX. Daarnaast bestaat de mogelijkheid syntactische annotaties te bekijken met de door het OTS ontwikkelde visualisatiesoftware PORTRAY (zie hiervoor onder tools). 

Meer informatie over de syntactische annotatie van de data in versie 1.0 is te vinden op syntax/info.htm

Prosodische annotatie
 
Ongeveer 250.000 woorden werden prosodisch geannoteerd. Daarbij werden de belangrijkste grenzen van woordgroepen (frasegrenzen) alsmede de één of twee belangrijkste woorden (zinsaccenten) van elke frase aangeduid. Het protocol (Martens 2003) is hier beschikbaar in .ps- en .pdf-formaat. 

Meer informatie over de prosodische annotatie van de data in versie 1.0 is te vinden op prosody/info.htm.

Ontwikkeling van exploitatiesoftware
 
Door de technische groep aan het MPI te Nijmegen werd in het kader van het CGN-project exploitatiesoftware ontwikkeld die gebruikers in staat moet stellen op eenvoudige en efficiënte wijze toegang te verkrijgen tot de data. 

Meer informatie over de exploitatiesoftware en de documentatie daarbij zoals die deel uitmaakt van versie 1.0 is te vinden op corex/info.htm

Terug naar het begin van deze pagina.


Fasering

Het CGN-project kende een totale duur van ruim vijf jaar. De officiële startdatum lag op 1 juni 1998. Gedurende het eerste jaar van het project werd veel tijd geïnvesteerd in de motivatie van de corpusopbouw, in de ontwikkeling van verschillende protocollen (met name voor het maken van de opnames, de signaalverwerking, de registratie en opslag van data, en de orthografische en brede fonetische transcriptie) en in de selectie en aanpassing van ondersteunende tools en resources (zoals het lexicon). Vervolgens werd het corpus incrementeel opgebouwd. Het project werd op 1 maart 2004 afgerond. De resultaten kwamen beschikbaar in versie 1.0.
Terug naar het begin van deze pagina.


Verspreiding van resultaten

Delen van het corpus werden al tijdens de looptijd van het project ongeveer om de zes maanden beschikbaar gesteld. De release van de eerste tranche was in maart 2000. Tussen maart 2000 en november 2002 verschenen nog eens vijf tussentijdse releases. Met het verschijnen van versie 1.0 komen alle eerdere releases te vervallen.

Versie 1.0 omvat de resultaten zoals die beschikbaar waren op 1 maart 2004 toen het project beëindigd werd. Zij omvat in totaal 33 DVD's waarvan 32 in beslag genomen worden door de geluidsbestanden die deel uitmaken van het corpus. Voor meer informatie m.b.t. de inhoud van versie 1.0, zie hier.

De distributie van het Corpus Gesproken Nederlands werd aanvankelijk verzorgd door de European Language Resources Distribution Agency (ELDA). Per 1 januari 2006 heeft de TST-Centrale de distributie ter hand genomen. Verdere informatie wordt verstrekt door de TST-Centrale. De TST-Centrale is te bereiken op onderstaand adres:

TST-centrale
p/a Instituut voor Nederlandse Lexicologie
Postbus 9515
NL - 2300 RA Leiden

Telefoon: +31 71 5272482
Fax:    +31 71 5272115
E-mail: mailto:tst-cgn@inl.nl

Terug naar het begin van deze pagina.


Tussentijdse evaluatie

In oktober 2001 vond er een tussentijdse evaluatie van het project Corpus Gesproken Nederlands plaats. Het rapport waarin de evaluatiecommissie zijn bevindingen vastlegde is hier beschikbaar in .ps-en .pdf-formaat.
Terug naar het begin van deze pagina.


Publicaties

Naast de verschillende protocollen en werkdocumenten die tijdens het project werden geproduceerd, zijn er ook een aantal publicaties verschenen. Hierin worden diverse aspecten van de opbouw en annotatie van het CGN nader belicht. Voor een overzicht verwijzen we naar de hier opgenomen lijst met publicaties.
 
Terug naar het begin van deze pagina.

Demo

Ter illustratie van de diversiteit aan spraak die in het corpus voorkomt zijn hier enkele fragmenten opgenomen die u kunt beluisteren.

Het orthografisch transcript van elk fragment wordt hier op eenvoudige wijze weergegeven als tekst, zonder dat daarbij de spreker(s) aangeduid wordt/worden. De in het orthografisch transcript aangebrachte ankerpunten die het transcript koppelen met het signaal worden hier weergegeven door middel van twee verticale streepjes (||). Om de fragmenten af te spelen klikt u op .

Het is tevens mogelijk de verrijking met woordsoortinformatie (POS-tagging) en lemmatisering van de fragmenten te bekijken. Hiervoor klikt u op  .

Beschikbare fragmenten:

Fragment 1
Omschrijving fragment  Plaataankondiging op de lokale radio 
ID fn000010
Orthografisch transcript 
 

 

Always*v Have*v And*v Always*v Will*v de nieuwe Ace*v Of*v Base*v || en hij klinkt nog leuk het is wel een beetje een ABBA-achtig || -typig*n uh liedje weet je wel ja ABBA-achtig -typig*n. || ja nou zo is misschien verkeerde woordkeuze || maar uhm zo ga 'k het wel noemen || achtig*n en typig*n. 
Audio formaat 16 bits, 16 kHz wav-formaat (mono)
Bestandsgrootte 479 kB
Tijdsduur 15,29 sec
Audio beluisteren
POS-tags en lemmata

Fragment 2
Omschrijving fragment  Voetbalcommentaar op lokale radio 
ID fn000024
Orthografisch transcript  ja 't was in de eenentwintigste minuut. || toen uh brak op de rechterkant Bas Schaaij door || hij omspeelde z'n man mooi legde de bal terug. || in de zestien meter kwam uh Rikken || binnengelopen die werd aangetikt || tenminste zo oordeelde scheidsrechter uh Tempelaar. || hij gaf daarvoor een strafschop een gele paart*u || gele kaart voor Felibor Peters || en die werd uh de strafschop werd verzilverd || door uh Luc Van Raaij. || en nog geen twee minuten later || was de bal uh in één keer werd ie diep gegeven en || werd er wederom gescoord. || nu was het Mario Lammers met een uh knap afstandsschot. || het is dus nul twee voor Hatert.
Audio formaat 16 bits, 16 kHZ wav-formaat (mono) 
Bestandsgrootte 937 kB
Tijdsduur 29,96 sec
Audio beluisteren
POS-tags en lemmata

Fragment 3
Omschrijving fragment  Sportnieuws op de lokale radio 
ID fn000040
Orthografisch transcript  in het VU-ziekenhuis in Amsterdam || is Danny Blind vanmiddag aan zijn rechter knie onderzocht. || er is gebleken dat er geen verder verlies || van het kraakbeen is opgetreden. || wel is er wat irritatie aan de binnenmeniscus geconstateerd. || er zal per wedstrijd dan ook worden gekeken || of Danny Blind vanaf nu inzetbaar is || maar er werd eerst gevreesd voor helemaal nooit meer kunnen spelen.|| nou dat valt dus gelukkig mee. || ben 'k erg blij mee persoonlijk als fan || zullen we maar zeggen. ||
Audio formaat 16 bits, 16 kHZ wav-formaat (mono)
Bestandsgrootte 714 kB
Tijdsduur 22,84 sec
Audio beluisteren
POS-tags en lemmata

Terug naar het begin van deze pagina.