Frequentielijsten

Voor de data in het corpus zijn tevens enkele frequentielijsten afgeleid, met daarin informatie over de frequentie van voorkomen van woordvormen, tags en lemmata en combinaties hiervan. Ook is er een frequentielijst beschikbaar van woordvormen en hun fonetische transcripties. De frequentielijsten bevinden zich in de directory /data/lexicon/ van de annotatie-DVD die deel uitmaakt van versie 1.0; het betreft hier files met de extensie .frq. Aan de woordvormen kunnen codes zijn verbonden, die de status van de woordvorm nader bepalen. De woordvorm wordt dan gescheiden van de code door een 'slash forward', zoals in wonderful/foreign. De volgende codes kunnen voorkomen:

De verschillende typen frequentielijsten zijn de volgende:
  Merk op dat deze frequentielijst enkel op dat deel van de data gebaseerd is waarvoor een manueel geverifieerde fonetische transcriptie beschikbaar is.