Het .skp-formaat

Bestanden van het type .skp (signaalkoppelingsdata) zijn een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ttext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. Dit formaat bevat behalve het transcript ook tijdsinformatie. De skp-bestanden uit de map /data/annot/xml/skp-ort van de annotatie-DVD zijn afgeleid van het bestandtype .ort. Daarnaast zijn er skp-wrd-bestanden (/data/annot/xml/skp-wrd van de annotatie-DVD) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype), en skp-auto-bestanden (/data/annot/xml/skp-auto van de annotatie-DVD) die zijn afgeleid van de automatische woordoplijning (het .awd-bestandstype).


<?xml version="1.0"?>
<!DOCTYPE ttext SYSTEM "ttext.dtd">
<ttext ref="fn123456">
  <tmu ref="fn123456.1" s="COMMENT" tb="0.000" te="599.523" tt="eq" tq="man">
    <tm ref="fn123456.1.1"  tb="0.000" te="599.523" tt="in" tq="man"   m="De"/>
    <tm ref="fn123456.1.2"  tb="0.000" te="599.523" tt="in" tq="man"   m="televisie"/>
    <tm ref="fn123456.1.3"  tb="0.000" te="599.523" tt="in" tq="man"   m="staat"/>
    <tm ref="fn123456.1.4"  tb="0.000" te="599.523" tt="in" tq="man"   m="aan"/>
    <tm ref="fn123456.1.5"  tb="0.000" te="599.523" tt="in" tq="man"   m="op"/>
    <tm ref="fn123456.1.6"  tb="0.000" te="599.523" tt="in" tq="man"   m="de"/>
    <tm ref="fn123456.1.7"  tb="0.000" te="599.523" tt="in" tq="man"   m="achtergrond."/>
  </tmu>
  <tau ref="fn123456.2" s="N01168" tb="0.251" te="2.250" tt="eq" tq="man">
    <tw ref="fn123456.2.1"  tb="0.251" te="2.250" tt="in" tq="man"     w="maar"/>
    <tw ref="fn123456.2.2"  tb="0.251" te="2.250" tt="in" tq="man"     w="zij"/>
    <tw ref="fn123456.2.3"  tb="0.251" te="2.250" tt="in" tq="man"     w="gaat"/>
    <tw ref="fn123456.2.4"  tb="0.251" te="2.250" tt="in" tq="man"     w="uh"/>
    <tw ref="fn123456.2.5"  tb="0.251" te="2.250" tt="in" tq="man"     w="drankjes"/>
    <tw ref="fn123456.2.6"  tb="0.251" te="2.250" tt="in" tq="man"     w="verkopen"/>
  </tau>
  <tau ref="fn123456.3" s="N01167" tb="3.016" te="4.204" tt="eq" tq="man">
    <tw ref="fn123456.3.1"  tb="3.016" te="4.204" tt="in" tq="man"     w="gratis"/>
    <tw ref="fn123456.3.2"  tb="3.016" te="4.204" tt="in" tq="man"     w="verkopen"/>
  </tau>
  <tau ref="fn123456.4" s="N01168" tb="115.481" te="116.108" tt="eq" tq="man">
    <tw ref="fn123456.4.1" tb="115.481" te="116.108" tt="in" tq="man" w="nou"/>
    <tw ref="fn123456.4.2" tb="115.481" te="116.108" tt="in" tq="man" w="ok&eacute;"/>
  </tau>
  <tmu ref="fn123456.5" s="BACKGROUND" tb="122.867" te="126.395" tt="eq" tq="man">
    <tm ref="fn123456.5.1" tb="122.867" te="126.395" tt="in" tq="man" m="inschenken"/>
    <tm ref="fn123456.5.2" tb="122.867" te="126.395" tt="in" tq="man" m="water."/>
  </tmu>
  <tau ref="fn123456.6" s="N01169" tb="138.171" te="138.954" tt="eq" tq="man">
    <tw ref="fn123456.6.1" tb="138.171" te="138.954" tt="in" tq="man" w="dat"/>
    <tw ref="fn123456.6.2" tb="138.171" te="138.954" tt="in" tq="man" w="hoorde"/>
    <tw ref="fn123456.6.3" tb="138.171" te="138.954" tt="in" tq="man" w="i"/>
  </tau>
  ...
</text>


<ttext> een tijdgekoppelde tekst.
<tau> een tijdgekoppelde annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken dat in dit formaat niet is opgenomen.
<tw> een tijdgekoppeld woord binnen een tijdgekoppelde annotatie-eenheid (<tau>).
<tmu> een tijdgekoppelde mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<tm> een tijdgekoppelde marker binnen de tijdgekoppelde mark-up-eenheid (<tmu>).
ref De referentie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:
<fragmentnummer>.<t[am]u-rangnummer>.<t[wm]-rangnummer>
s spreker-identificatie. In de context van het <tau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <tmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND".
w het orthografisch transcript van een woord.
m het orthografisch transcript van een marker.
tb begintijd (in seconden) van een tijdgekoppelde annotatie-eenheid.
te eindtijd (in seconden) van een tijdgekoppelde annotatie-eenheid.
tt type van tijdspanne. Bij "eq" (equaliteit) valt de annotatie-eenheid samen met de tijdspanne die wordt begrensd door tb en te. Bij "in" (inclusie) valt de eenheid binnen de tijdspanne.
tq kwaliteit van tijdspanne heeft één van de volgende drie waarden:
"man" (manueel): tijdgrenzen zijn door de mens aangebracht.
"auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd.
"auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn.

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd te vinden op de annotatie-DVD. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.