Het project Corpus Gesproken Nederlands
Het project Corpus Gesproken Nederlands was gericht op de aanleg van een databank van het hedendaags Nederlands zoals dat wordt gesproken door volwassenen in Nederland en Vlaanderen. Bij de start van het project werd een corpus beoogd met een omvang van circa tien miljoen woorden, waarvan tweederde deel afkomstig zou zijn uit Nederland, en eenderde uit Vlaanderen. In totaal ging het daarbij om circa 1000 uur spraak. Het eindresultaat zoals beschikbaar in versie 1.0 omvat ongeveer 9 miljoen woorden: zo'n 3,3 miljoen woorden daarvan zijn afkomstig uit Vlaanderen, ruim 5,6 miljoen woorden werden opgenomen in Nederland.
Het Corpus Gesproken Nederlands wordt gevormd door een selectie van een groot aantal fragmenten van spraakopnames. Al het materiaal werd orthografisch getranscribeerd, terwijl er tevens een oplijning plaatsvond waarbij de orthografische transcriptie gekoppeld werd aan het spraaksignaal. De orthografische transcriptie vormde het uitgangspunt voor de lemmatisering en de verrijking van het materiaal met woordsoortinformatie. Verder werd er voor een selectie van één miljoen woorden een brede fonetische transcriptie vervaardigd, kwam er een geverifieerde oplijning op woordniveau beschikbaar en werd het materiaal door middel van een syntactische analyse verrijkt. Tenslotte werd een bescheiden deel van het corpus, circa 250.000 woorden, van een prosodische annotatie voorzien.
Al tijdens het project werden delen van het corpus in de vorm van tussentijdse releases ongeveer om de zes maanden beschikbaar gesteld. Met het verschijnen van versie 1.0 komen alle eerdere releases te vervallen.
Het project werd gefinancierd door de Vlaamse en Nederlandse Regering en door de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO). In totaal werd er een bedrag van circa 4,9 miljoen euro geïnvesteerd. De resultaten en alle rechten daarop zijn het eigendom van de Nederlandse Taalunie. Van het materiaal mag derhalve niets verveelvoudigd en/of openbaar gemaakt worden op welke wijze dan ook zonder voorafgaande schriftelijke toestemming van de Nederlandse Taalunie.
Het corpus is beschikbaar voor wetenschappelijk onderzoek en voor de ontwikkeling van niet-commerciële producten. In deze producten mogen de bijdragen van individuele personen niet op een herkenbare manier aanwezig zijn. Wie een commerciële licentie heeft, mag deze databank gebruiken voor het ontwikkelen van commerciële afgeleide producten zoals spraakherkenners en taalmodellen. De bijdragen van individuele personen mogen niet op een herkenbare manier aanwezig zijn in deze producten.
Lees hieronder verder over
In het veeltalige Europa moet het Nederlands concurreren met andere talen. Met name de invloed van het Engels is in toenemende mate merkbaar. Op een aantal terreinen lijkt het Nederlands te moeten wijken voor het Engels. Zo speelt het Nederlands in de ontwikkeling en toepassing van technologieën nog slechts een bescheiden rol. De belangrijke rol die het Engels speelt in het moderne taal- en spraaktechnologische onderzoek kan grotendeels verklaard worden door de beschikbaarheid van de benodigde onderzoeksbronnen, zoals grote databanken van gesproken en geschreven Engels. Voor het Nederlands ontbraken dergelijke bronnen tot dusver. Met behulp van een corpus gesproken Nederlands zal het mogelijk zijn om technologieën die voor het Engels ontwikkeld zijn ook op het Nederlands toe te passen. Op termijn kan dit verstrekkende gevolgen hebben voor de economische en culturele positie van het Nederlands in Europa. Tegen deze achtergrond hebben de regeringen van Nederland en Vlaanderen besloten te investeren in de aanleg van een corpus van gespoken Nederlands.
Behalve voor ontwikkelingen in de taal- en spraaktechnologie is het corpus van belang voor de taalkunde in brede zin. Tot nu toe waren alleen corpora van geschreven Nederlands beschikbaar. Dit heeft geleid tot een sterke focus op de beschrijving van aspecten van de geschreven taal, terwijl van het 'vluchtige' gesproken Nederlands vrijwel geen systematische kennis voorhanden is. Verder is een corpus gesproken Nederlands van belang voor het onderwijs. Een goed inzicht in het dagelijkse taalgebruik is onontbeerlijk voor de ontwikkeling van cursussen Nederlands als tweede taal alsmede voor het onderwijs Nederlands in het basisonderwijs en op de middelbare school.
Het bestuur stelde een stuurgroep in. Deze bestond uit experts vanuit de verschillende taalkundige (sub)disciplines en vanuit de taal- en spraaktechnologie. De stuurgroep was verantwoordelijk voor de daadwerkelijke uitwerking en uitvoering van het project.
De coördinatie van het project geschiedde vanuit twee locaties: Gent voor Vlaanderen en Nijmegen voor Nederland. Elke locatie had een eigen projectleider. De projectleiders hadden de dagelijkse leiding over het project. Zij waren verantwoordelijk voor de inhoudelijke voortgang van het project en voor de coördinatie tussen en binnen drie werkgroepen: corpusopbouw, signaalanalyse en corpusannotatie. De werkgroepen hadden de feitelijke uitvoering van de desbetreffende onderdelen van het project als taak. De werkgroep corpusopbouw was meer specifiek verantwoordelijk voor het ontwerp en opbouw van het corpus, de werving van sprekers en de acquisitie van opnames. De werkgroep signaalanalyse hield zich bezig met de ontwikkeling van het protocol en de procedures voor orthografische transcriptie, woordsegmentatie, fonetische transcriptie en prosodische annotatie. De werkgroep corpusannotatie was verantwoordelijk voor de POS tagging, lemmatisering, lexicologische koppeling en syntactische annotatie.
De projectorganisatie werd ondersteund door het CGN-bureau.
Binnen het project werden de volgende onderdelen onderscheiden:
Meer informatie over het ontwerp van het corpus en de motivatie daarvoor is hier te vinden. Ook wordt nader ingegaan op de opbouw van het corpus. |
Voor een deel werden opnames in eigen beheer gemaakt, terwijl voor een ander deel ook werd samengewerkt met andere projecten, bedrijven, organisaties en instellingen. Het betreft hier o.a. het VNC-project 'De uitspraak van het Standaardnederlands', de Blindenbibliotheken in Vlaanderen en Nederland, de VRT, diverse omroeporganisaties in Nederland, het Nederlands Instituut voor Beeld en Geluid, het archief van het Vlaams parlement en het ANP. Materiaal werd zoveel mogelijk aan de basis digitaal opgenomen. Wanneer gebruik gemaakt werd van bestaand materiaal waren digitale opnames echter niet altijd beschikbaar. Alle opnames werden - voor zover ze niet al in elektronische vorm waren binnengekomen - via een geluidskaart in een pc ingelezen. Met uitzondering van telefoonopnames, werd het materiaal opgeslagen in een ongecomprimeerd 16 bits, 16 kHz wav-formaat (voor meer informatie, zie hier). Informatie over de opnameomstandigheden, de gebruikte apparatuur e.d. is beschikbaar als onderdeel van de meta-data. Geluidsbestanden kunnen worden beluisterd met het programma PRAAT of COREX, maar ook met de meeste andere afspeelprogramma's voor audio, op zowel pc's als andere platformen. Zowel PRAAT als COREX stellen de gebruiker in staat om - tegelijkertijd met het afspelen van de opname - de orthografisch transcriptie te bekijken. |
Al het opgenomen materiaal werd orthografisch getranscribeerd. De orthografisch
transcriptie is een woordelijke neerslag van wat er gezegd werd. Het transcript
is in overeenstemming met de regels die daarvoor zijn vastgelegd in een
protocol (Goedertier & Goddijn, 2000; hier beschikbaar in .ps-
en .pdf-formaat).
Daarbij werden herhalingen, versprekingen, aarzelingen en dergelijke uitgeschreven;
achtergrondgeluiden daarentegen werden alleen onder bepaalde voorwaarden
in het transcript weergegeven.
Om het transcriptieproces te vereenvoudigen werd gebruik gemaakt van het programma PRAAT dat door Paul Boersma aan de Universiteit van Amsterdam werd ontwikkeld. In PRAAT is het niet alleen mogelijk geluid af te spelen en te visualiseren, er kan tevens een orthografisch transcriptie worden gemaakt en bekeken. Voor elke spreker is daarvoor een aparte 'tier' beschikbaar. Tijdens het transcriptieproces werden in het audiosignaal korte stukjes van 2 à 3 seconden aangeduid door er tijdsmarkeringen in aan te brengen. Deze tijdsmarkeringen werden geplaatst in de pauzes tussen woorden. In een later stadium werden deze tijdsmarkeringen gebruikt als ankerpunten voor de automatische koppeling van de orthografische transcriptie met de audiofile.
Meer informatie over de orthografische transcriptie van de data in versie 1.0 is te vinden op orthography/info.htm |
Lemmatisering en verrijking
met woordsoortinformatie (POS-tagging)
Het volledige corpus werd getagd. Binnen het project werd daarvoor
een eigen CGN-tagset gedefinieerd die 316 tags omvat en die aansluit bij
de praktijk van de ANS (Haeseryn et al., 1997). De tagset is conform
de EAGLES-richtlijnen
die daarvoor opgesteld zijn in het kader van de internationale standaardisering
en wordt beschreven in Van Eynde (2003; hier beschikbaar in .pdf-formaat).
Voor het taggen werd gebruik gemaakt van een daartoe aan de Universiteit
van Tilburg ontwikkelde tagger die aan elk woord de meest waarschijnlijke
tag toekende. De tagger output werd gecontroleerd en waar nodig handmatig
gecorrigeerd. Voor het lemmatiseren werd gebruik gemaakt van een lemmatizer
en ook hiervan werd de uitvoer handmatig gecorrigeerd.
Meer informatie over de POS tagging van de data in versie 1.0 is te
vinden op pos
tagging/info.htm
|
Binnen het project werd een CGN-lexicon ontwikkeld. Het lexicon is
van belang gebleken voor de verschillende vormen van transcriptie en annotatie.
Nu het project is afgerond, vervult het een belangrijke rol in de ontsluiting
van de data. Door middel van een lexicologische koppeling werd het mogelijk
een nadere lemmatisering te realiseren waarbij onder meer scheidbare werkwoorden
en vreemdtalige meerwoordsuitdrukkingen gerelateerd werden aan de juiste
lemmata.
Het protocol dat daarbij gehanteerd werd (Piepenbrock 2004) is hier beschikbaar
in .ps- en .pdf-formaat.
Meer informatie over de lexicologische koppeling van de data in versie 1.0 is te vinden op lex linkup/info.htm |
Voor ongeveer één miljoen woorden werd een (geverifieerde)
brede fonetische transcriptie vervaardigd. Het protocol dat daarbij werd
gehanteerd (Gillis, 2001) is hier beschikbaar in .ps-
en .pdf-formaat.
Voor de vervaardiging van de transcripties werd gebruik gemaakt van het
programma PRAAT.
Meer informatie over de brede fonetische transcriptie van de data in
versie 1.0 is te vinden op
phonetics/info.htm
|
Voor het materiaal waarvoor tevens een geverifieerde brede fonetische
transcriptie beschikbaar is, werd het spraaksignaal op woordniveau gekoppeld
aan het orthografisch transcript en werd het resultaat van deze oplijning
handmatig geverifieerd. Het protocol is vastgelegd in Binnenpoorte (2002,
2004) en is hier beschikbaar in .ps-
en .pdf-formaat).
Voor het overige materiaal werd het signaal en het orthografisch transcript
weliswaar (automatisch) gekoppeld, maar vond er geen verificatie plaats.
Meer informatie over de woordsegmentatie van de data in versie 1.0 is te vinden op word_align/info.htm |
Ten behoeve van de syntactische annotatie werd een annotatieschema
ontwikkeld en vastgelegd in een protocol. Dit protocol (Hoekstra et al.
2003) is hier beschikbaar in .pdf-formaat.
Voor het aanbrengen van de annotaties werd gebruik gemaakt van het in Saarbrücken
ontwikkelde programma Annotate.
Syntactische annotaties kunnen worden gevisualiseerd met behulp van het
corpusexploitatieprogramma COREX. Daarnaast bestaat de mogelijkheid syntactische
annotaties te bekijken met de door het OTS ontwikkelde visualisatiesoftware
PORTRAY (zie hiervoor onder tools).
Meer informatie over de syntactische annotatie van de data in versie 1.0 is te vinden op syntax/info.htm |
Ongeveer 250.000 woorden werden prosodisch geannoteerd. Daarbij werden
de belangrijkste grenzen van woordgroepen (frasegrenzen) alsmede de één
of twee belangrijkste woorden (zinsaccenten) van elke frase aangeduid.
Het protocol (Martens 2003) is hier beschikbaar in .ps-
en .pdf-formaat.
Meer informatie over de prosodische annotatie van de data in versie 1.0 is te vinden op prosody/info.htm. |
Ontwikkeling van exploitatiesoftware
Door de technische groep aan het MPI te Nijmegen werd in het kader
van het CGN-project exploitatiesoftware ontwikkeld die gebruikers in staat
moet stellen op eenvoudige en efficiënte wijze toegang te verkrijgen
tot de data.
Meer informatie over de exploitatiesoftware en de documentatie daarbij zoals die deel uitmaakt van versie 1.0 is te vinden op corex/info.htm |
Versie 1.0 omvat de resultaten zoals die beschikbaar waren op 1 maart 2004 toen het project beëindigd werd. Zij omvat in totaal 33 DVD's waarvan 32 in beslag genomen worden door de geluidsbestanden die deel uitmaken van het corpus. Voor meer informatie m.b.t. de inhoud van versie 1.0, zie hier.
De distributie van het Corpus Gesproken Nederlands werd aanvankelijk verzorgd door de European Language Resources Distribution Agency (ELDA). Per 1 januari 2006 heeft de TST-Centrale de distributie ter hand genomen. Verdere informatie wordt verstrekt door de TST-Centrale. De TST-Centrale is te bereiken op onderstaand adres:
TST-centrale
p/a Instituut voor Nederlandse Lexicologie
Postbus 9515
NL - 2300 RA LeidenTelefoon: +31 71 5272482
Fax: +31 71 5272115
E-mail: mailto:tst-cgn@inl.nl
Ter illustratie van de diversiteit aan spraak die in het corpus voorkomt zijn hier enkele fragmenten opgenomen die u kunt beluisteren.
Het orthografisch transcript van elk fragment wordt hier op eenvoudige wijze weergegeven als tekst, zonder dat daarbij de spreker(s) aangeduid wordt/worden. De in het orthografisch transcript aangebrachte ankerpunten die het transcript koppelen met het signaal worden hier weergegeven door middel van twee verticale streepjes (||). Om de fragmenten af te spelen klikt u op .
Het is tevens mogelijk de verrijking met woordsoortinformatie (POS-tagging) en lemmatisering van de fragmenten te bekijken. Hiervoor klikt u op .