Het .ort-formaat

Bestanden van het type .ort bevatten de orthografische transcriptie in tekstformaat en kunnen worden gemaakt, gewijzigd of bekeken met behulp van het programma PRAAT. In PRAAT worden de .ort bestanden gemaakt met 'Write to short text file...' in het Write-menu. Voor uitwisseling wordt het ShortTextGrid-formaat verkozen boven het TextGrid-formaat vanwege een compactere notatie en daarmee kleinere bestandsgrootte van eerstgenoemde. De structuur van een ShortTextGrid laat zich op de volgende manier beschrijven:


Opmerking: niet-letterlijke tekst wordt hieronder gemarkeerd met {...}. Regelnummering, hier ter illustratie, vormt geen onderdeel van het formaat.

De eerste drie regels zijn steeds hetzelfde.

 1. File type = "ooTextFile short"
 2. "TextGrid"
 3. {lege regel}

Op regel 4 en 5 staat beschreven over welke tijdspanne het transcript gaat. Tijd staat hier aangeduid in seconden, en met drie decimalen achter een punt (geen komma).

 4. {begintijdstip}
 5. {eindtijdstip}

Regel 6 en 7 beschrijven hoeveel tiers er in het bestand voorkomen.

 6. <exists>
 7. {aantal tiers}

Regel 8 tot en met 12 bevat informatie over de eerste tier.

 8. "IntervalTier"
 9. "{Sprekernaam}"
10. {begintijdstip}
11. {eindtijdstip}
12. {aantal intervallen in tier}

Regel 13 tot en met 15 beschrijven het allereerste interval.

13. {begintijdstip}
14. {eindtijdstip}
15. "{orthografisch transcript}"

Hierna komen alle volgende intervallen van de eerste tier in chronologische volgorde zoals regel 13 tot en met 15. Elke volgende tier komt na alle intervallen van de vorige tier, en heeft de structuur zoals die van de eerste tier vanaf regel 8.


De grootte van een tijdspanne/interval kan varieëren van minder dan 1 seconde tot ongeveer 10 seconden. Een tijdmarkering kan samenvallen met een zinsgrens maar dit hoeft niet noodzakelijkerwijs het geval te zijn.

In het orthografisch transcript kan een woord met één van de volgende suffixen worden gemarkeerd:

*v vreemd woord, niet tot de Nederlandse taal behorend
*d dialectisch woord
*a afgebroken (incompleet) woord
*u verspreking of klanknabootsing
*z woord met een dialectische uitspraak
*x moeilijk te verstaan woord

Daarnaast zijn er een drietal speciale codes:

ggg een niet-spraakgeluid, geproduceerd door de spreker
xxx één of meerdere onverstaanbare woorden of woorddelen
Xxx een onverstaanbaar woord waarvan duidelijk is dat het een titel of eigennaam betreft

Al deze codes kunnen staan voor een woord, een deel van een woord of reeks van woorden. Waar van toepassing wordt de code van het woorddeel gescheiden door middel van het koppelteken  ("-"). Bijvoorbeeld: "xxx-enzeventig" of "achten-xxx-tig".

De leestekens zijn beperkt tot de volgende set van drie:

"." de punt markeert het einde van de zin
"..."  drie aaneengesloten punten markeren een afgebroken zin
"?" het vraagteken markeert de afsluiting van een vraagzin

Alle diacritische tekens die in het orthografisch transcript voorkomen zijn gecodeerd volgens de ISO 8859.1 standaard. In entities.htm wordt een overzicht gegeven van de gebruikte bijzondere tekens (ISO-kolom) uit deze tekenset. PRAAT is in staat om de ISO-codes correct weer te geven onder UNIX (en varianten) en Windows.