Het .prx-formaat

Bestanden van het type .prx (prosodische annotatie) bevatten een chronologische weergave van de prosodische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door prtext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. De prx-bestanden zijn te vinden in /data/annot/xml/prx1 en /data/annot/xml/prx2 van de annotatie-DVD.


<?xml version="1.0"?>
<!DOCTYPE prtext SYSTEM "prtext.dtd">
<prtext ref="fn123456">
<prau ref="fn123456.1" s="N02008">
  <prw ref="fn123456.1.1"       w="je"         annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="auto"    rightb="none"/>
  <prw ref="fn123456.1.2"       w="kunt"       annot="kunt"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.3"       w="ook"        annot="ook"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.4"       w="ha"         annot="ha"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.5"       w="tegen"      annot="tegen"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.6"       w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.7"       w="zeggen"     annot="z^e^ggen"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.8"       w="dat"        annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.9"       w="ik"         annot="ik"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.10"      w="best"       annot="best"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.11"      w="bereid"     annot="bereid"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.12"      w="ben"        annot="ben"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.13"      w="een"        annot="een"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.1.14"      w="uh"         annot="uh"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.1.15"      w="glansrol"   annot="gl^a^ns|r^o^l"
     nprom="2"          nlength="0"     nweakb="1"      nstrongb="0"
     tbeg="157.056"     tend="160.988"  leftb="weak"    rightb="auto"/>
  <prl ref="fn123456.1.16"      w="..."/>
</prau>
<prau ref="fn123456.2" s="N02008">
  <prw ref="fn123456.2.1"       w="vind"        annot="v^i^nd"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="strong"  rightb="none"/>
  <prw ref="fn123456.2.2"       w="je"          annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.3"       w="nou"         annot="nou"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.4"       w="dat"         annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.5"       w="je"          annot="je"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.6"       w="kan"        annot="kan"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.7"       w="zien"       annot="z^ie^%n%"
     nprom="1"          nlength="1"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.2.8"       w="dat"        annot="dat"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="weak"    rightb="none"/>
  <prw ref="fn123456.2.9"       w="zij"        annot="zij"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.10"      w="toneel"     annot="ton^ee^l"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="454.704"     tend="457.756"  leftb="none"    rightb="auto"/>
  <prw ref="fn123456.2.11"      w="doet"       annot="doet"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="458.499"     tend="458.724"  leftb="auto"    rightb="auto"/>
  <prw ref="fn123456.2.12"      w="in"         annot="in"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="auto"    rightb="none"/>
  <prw ref="fn123456.2.13"      w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.14"      w="in"         annot="in"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.15"      w="haar"       annot="haar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="none"/>
  <prw ref="fn123456.2.16"      w="privé-s-uh-appearance"
     annot="privé-s-||uh-app^ea^rance"
     nprom="1"          nlength="0"     nweakb="0"      nstrongb="1"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="weak"/>
  <prw ref="fn123456.2.17"      w="zeg"        annot="zeg"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="weak"    rightb="none"/>
  <prw ref="fn123456.2.18"      w="maar"       annot="maar"
     nprom="0"          nlength="0"     nweakb="0"      nstrongb="0"
     tbeg="459.499"     tend="463.431"  leftb="none"    rightb="auto"/>
  <prl ref="fn123456.2.19"      w="?"/>
</prau>
</prtext>

<prtext> tekst met prosodische annotatie.
<prau> een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<prw> een woord binnen een annotatie-eenheid (<prau>).
<prl> het leesteken binnen een annotatie-eenheid (<prau>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?".
<prmu> een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<prm> een marker binnen de mark-up-eenheid (<prmu>).
ref De identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>
s spreker-identificatie. In de context van het <prau>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer.
w woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden)
annot prosodische annotatie die aan de woordvorm is toegekend.
nprom aantal prominente lettergrepen in de woordvorm.
nlength aantal verlengde klanken in de woordvorm.
nweakb aantal zwakke grenzen in de woordvorm.
nstrongb aantal sterke grenzen in de woordvorm.
tbeg tijdsmarkering van begin van <prau>.
tend tijdsmarkering van eind van <prau>.
leftb/rightb karakter van linker/rechter grens. De volgende waarden zijn mogelijk:
auto : prosodische grens is geplaatst door een machine.
none : het is geen prosodische grens.
weak : de prosodische grens is gemarkeerd als zwak ("|").
strong : de prosodische grens is gemarkeerd als sterk ("||").

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.