Het .wav-formaat


Het voor de geluidsopnames gehanteerde formaat is het RIFF-WAVE-formaat. De geluidscodering varieert, afhankelijk van de aard van de opname. De standaard geluidscodering in het CGN heeft een sample frequentie van 16 kHz en een resolutie van 16 bits PCM. Een uitzondering hierop vormen de telefoonopnames. De telefoonopnames zijn op twee verschillende manieren gemaakt. De telefoonopnames die gemaakt zijn met een minidisk-recorder hebben een sample frequentie van 8 kHz en een resolutie van 16 bits PCM. De telefoonopnames die met het telefoonplatform zijn opgenomen, hebben een sample frequentie van 8kHz en een resolutie van 8 bits A-law. Voor deze opnames geldt, dat de beide sprekers oorspronkelijk op een apart kanaal zijn opgenomen. Deze beide kanalen zijn daarna samengevoegd tot één stereo signaal, zodat de transcribent het gesprek kan volgen, wat de kwaliteit van de transcriptie ten goede komt.

De procedure om de twee kanalen samen te voegen, heeft in de loop van het project een verbetering ondergaan. Een aantal geluidsfragmenten van de telefoonopnames zijn daarom, nadat zij getranscribeerd waren, nogmaals bewerkt. Dit betekent dat de orthografische transcriptie inhoudelijk correct is, maar dat het kan voorkomen dat de grensmarkeringen van de segmenten niet exact op de juiste plaats staan. De verschuiving van de segmentgrenzen bedraagt gemiddeld zo’n 115 ms. Er is voor gekozen de fragmenten in hun huidige vorm naar buiten te brengen op release 6, zodat de transcripties al gebruikt kunnen worden. Een aanpassing van de segmentsgrenzen zal nog gebeuren.

Het corpus omvat zowel stereo- als mono-opnames. Voor dialogen en multilogen is, indien die mogelijkheid bestond, gekozen voor stereo-opnames omdat stereo betere mogelijkheden biedt voor het onderscheiden van sprekers.

De geluidsbestanden hebben allemaal de extensie .wav en kunnen worden beluisterd met de programma's PRAAT en COREX, maar ook met de meeste andere afspeelprogramma's voor audio, zowel op pc's als op andere platformen. Zowel PRAAT als COREX stellen de gebruiker in staat om - tegelijkertijd met het afspelen van de opname - de orthografische transcriptie te bekijken.