Projectomschrijving

Het SoNaR-project beoogt de aanleg van een groot corpus (minimaal 500 miljoen woorden) hedendaags geschreven Nederlands dat als algemene referentie kan dienen voor allerlei onderzoek naar taal en taalgebruik. Daarbij valt te denken aan beschrijvend onderzoek (zoals dat zijn weerslag vindt in bv woordenboeken en grammatica's), maar ook aan onderzoek op het gebied van de taal- en spraaktechnologie. Voor dergelijk onderzoek is het van groot belang dat men beschikt over grote hoeveelheden data met de mogelijkheid deze data met eigen software te kunnen bewerken.

Het corpus zal worden samengesteld aan de hand van het ontwerp dat daartoe werd gemaakt in het D-Coi project. In het corpus worden enkel (standaard) Nederlandstalige teksten opgenomen van na 1954. Dit kunnen teksten zijn die geschreven werden door moedertaalsprekers van het Nederlands, maar ook teksten die door professionele vertalers uit een vreemde taal werden vertaald naar het Nederlands. Er worden teksten verzameld die afkomstig zijn uit uiteenlopende domeinen en genres, waarbij tevens gekeken wordt naar een brede afdekking van onderwerpen. Voor zover mogelijk worden volledige teksten opgenomen. Dit voorkomt dat op voorhand bepaalde soorten onderzoek worden uitgesloten. In het corpus worden teksten opgenomen van Nederlandse en ook van Vlaamse auteurs.

Bij het verzamelen van teksten gaat speciale aandacht uit naar teksten waar lezers mee in aanraking komen via nieuwe media. Het gaat daarbij onder meer teksten op websites, sms-berichten, e-mail, en chats. Over het gebruik van taal in dit soort teksten is nog relatief weinig bekend.