Het .awd-formaat

Bestanden van het type .awd (te vinden in /data/annot/text/awd van de annotatie-DVD die deel uitmaakt van versie 1.0) bevatten een automatisch gegenereerde woordoplijning, waarbij de woorden van het orthografisch transcript zijn gekoppeld aan het geluidssignaal. Daarnaast bevatten de bestanden een automatisch gegeneerde foneemoplijning, waarbij tevens de afzonderlijke fonemen uit de automatische fonetische transcripties zijn gekoppeld aan het geluidssignaal. De bestanden zijn in ShortTextGrid-formaat en kunnen worden gemaakt, gewijzigd of bekeken met behulp van het programma PRAAT. Voor een beschrijving van het ShortTextGrid-formaat, zie beschrijving van het .ort-formaat. Voor iedere spreker zijn drie tiers voorzien. De eerste tier heeft de sprekercode als tiernaam en is identiek aan de gelijknamige tier in het .ort-bestand. De daaropvolgende tier krijgt dezelfde naam met suffix _FON (resp. N98765 en N98765_FON) en bevat een automatische fonetische transcriptie. De tijdmarkeringen op deze beide tiers zijn gelijk. Tot slot is er nog een derde tier met dezelfde naam en met suffix _SEG (N98765_SEG). Hierin zijn de onderliggende foneemsegmentaties weergegeven die overeen komen met de woorden in de twee andere tiers.

Een interval in de tier met orthografisch transcript is gevuld met ofwel precies één woord (al dan niet met underscores), ofwel een enkele underscore ("_"), ofwel een pauze (leeg interval), ofwel een tekst (meerdere woorden) zoals die voorkomt in precies dat interval in het .ort bestand. In dit laatste geval is de tier met de fonetische transcriptie en de tier met de foneemsegmentatie gevuld met de automatisch gegeneerde fonetische transcriptie dus zonder segmentatie informatie. Tevens zijn intervallen van dit type in alledrie de tiers altijd voorzien van een "!" voor de tekst, wat aangeeft dat de gevonden segmentatie (die er niet is) niet betrouwbaar is. Een "!" kan ook geplaatst zijn als er wel een segmentatie gevonden kon worden, maar waarvoor gold dat deze onbetrouwbaar was gegeven een bepaalde betrouwbaarheidswaarde.

In de tier met het fonetisch transcript kunnen de volgende verschijnselen zich voordoen:

In de tier met de foneemsegmentaties komen alleen lege intervallen of intervallen met daarin één foneemsymbool voor, waarbij een "_"-segment uit de orthografische en fonetische tier hier is gelabeld met het foneem (een plosief) dat gedeeld werd. Overeenkomstig is een gedeeld foneem dat geen plosief is in deze tier weergeven in één interval waarbij de woordgrenzen in de orthografische en de fonetische tier midden in dit interval liggen.

Voor een overzicht van de gebruikte fonetische symbolen, zie beschrijving van het .fon-formaat. Analoog aan het .wrd-formaat bevat een .awd-bestand geen BACKGOUND- en/of COMMENT-tier.