Het .bpt-formaat

Bestanden van het type .bpt (broad phonetic transcription) bevatten een chronologische weergave van de woordsegmentatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door ftext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. De bpt-bestanden uit de map /data/annot/xml/bpt-auto van de annotatie-DVD zijn afgeleid van de automatische woordsegmentatie (het bestandstype .awd). In deze bestanden zijn ook de duren van de afzonderlijke fonen beschikbaar. Daarnaast zijn er bpt-fon-bestanden (/data/annot/xml/bpt-fon van de annotatie-DVD die deel uitmaakt van versie 1.0) die zijn afgeleid van de handmatige woordoplijning (het .wrd-bestandstype).


<?xml version="1.0"?>
<!DOCTYPE ftext SYSTEM "ftext.dtd">
<ftext ref="fn123456">
  <fau ref="fn123456.1" s="N01161">
    <fw ref="fn123456.1.1"   w="ja"                fon="ja"
        left="SEP"           right="SEP"           fq="auto"
        times="67.905 67.978 68.112"/>
    <fw ref="fn123456.1.2"   w="da"                fon="dAs"
        left="SEP"           right="SHARE-W(da's)" fq="auto"
        times="68.112 68.143 68.205 68.267"/>
    <fw ref="fn123456.1.3"   w="'s"                fon="dAs"
        left="SHARE-W(da's)" right="SEP"           fq="auto"
        times="68.112 68.143 68.205 68.267"/>
    <fw ref="fn123456.1.4"   w="waar"              fon="war"
        left="SEP"           right="SEP"           fq="auto"
        times="68.267 68.319 68.371 68.423"/>
    <fl ref="fn123456.1.5"   w="."/>
  </fau>
  <fau ref="fn123456.2" s="N01169">
    <fw ref="fn123456.2.1"   w="en"                fon="En"
        left="SEP"           right="SEP"           fq="auto_unrel"
        times="69.040 71.868"/>
    <fw ref="fn123456.2.2"   w="hij"               fon="hE+"
        left="SEP"           right="SEP"           fq="auto"
        times="69.040 71.868"/>
    <fl ref="fn123456.2.5"   w="?"/>
  </fau>
  <fau ref="fn123456.3" s="N01167">
    <fw ref="fn123456.3.1"   w="en"                fon="En"
        left="SEP"           right="SEP"           fq="auto"
        times="87.043 87.073 87.124"/>
    <fw ref="fn123456.3.2"   w="ik"                fon="Ik"
        left="SEP"           right="SHARE-P(k)"    fq="auto"
        times="87.124 87.205 87.265"/>
    <fw ref="fn123456.3.3"   w="kan"               fon="kAn"
        left="SHARE-P(k)"    right="SHARE-NP(n)"   fq="auto"
        times="87.205 87.265 87.296 87.321"/>
    <fw ref="fn123456.3.4"   w="nog"               fon="nOx"
        left="SHARE-NP(n)"   right="SEP"           fq="auto"
        times="87.321 87.346 87.397 87.427"/>
    <fw ref="fn123456.3.5"   w="wel"               fon="wEl"
        left="SEP"           right="SEP"           fq="auto"
        times="87.427 87.457 87.487 87.528"/>
    <fl ref="fn123456.3.5"   w="."/>
  </fau>
  <fau ref="fn123456.4" s="N09099">
    <fw ref="fn123456.4.1"   w="netto"               fon="nEtow"
        left="SEP"           right="INSERT(w)"       fq="auto"
        times="328.409 328.500 328.530 328.640 328.680 328.700"/>
    <fw ref="fn123456.4.2"   w="is"                  fon="wIz"
        left="INSERT(w)"     right="SEP"             fq="auto"
        times="328.700 328.720 328.760 329.084"/>
    <fw ref="fn123456.4.3"   w="bruto"               fon="brYto"
        left="SEP"           right="SEP"             fq="auto"
        times="329.084 329.510 329.540 329.570 329.670 329.698"/>
    <fw ref="fn123456.4.4"   w="hè"                  fon="I"
        left="SEP"           right="SEP"             fq="auto_unrel"
        times="329.698 329.728"/>
    <fl ref="fn123456.4.5" w="?"/>
  </fau>
</ftext>

<ftext> tekst met een brede fonetische transcriptie, woordsegmentatie en foonsegmentatie
<fau> een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<fw> een woord binnen de annotatie-eenheid (<fau>).
<fmu> een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<tm> een marker binnen de mark-up-eenheid (<fmu>).
<fl> een leesteken binnen de annotatie-eenheid (<fau>).
ref De referentie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:
<fragmentnummer>.<f[am]u-rangnummer>.<f[wm]-rangnummer>
s spreker-identificatie. In de context van het <fau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <fmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND".
w het orthografisch transcript van het woord in de context van <fw> of een leesteken (".", "..." of "?") in de context van <fl>.
fon het fonetisch transcript van het woord. Naast de tekens uit de fonetische symbolenset die wordt opgesomd in de beschrijving van het .fon-formaat wordt het procentteken '%' gebruikt om een woordinterne pauze aan te duiden.
left/right de aard van de linker/rechter grens van het woord. Dit attribuut kent 5 type waarden:
SEP : normaal gescheiden
SHARE-P(x) : gedeeld plosief x
SHARE-NP(x) : gedeeld non-plosief x
INSERT(x) : ingevoegd foneem x
SHARE-W(x) : gedeeld heel woord (ten tijde van CGN versie 1.0 alleen "da's")
marked vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <fw>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain.
fq kwaliteit van tijdspanne heeft één van de volgende drie waarden:
"man" (manueel): tijdgrenzen zijn door de mens aangebracht.
"auto" (automatisch): tijdgrenzen zijn door de machine aangebracht en niet gecontroleerd.
"auto_unrel" (automatisch onbetrouwbaar): door de machine aangebrachte grenzen waarvan bekend is dat deze onbetrouwbaar zijn.
times bevat de tijdstippen van de foongrenzen. Het attribuut bevat altijd N+1 tijdstippen waarbij N = aantal fonemen + eventuele woordinterne pauzes ('%'). Het eerste tijdstip duidt het begin van het eerste foneem aan, het twee het begin van het foneem, enz. Het laatste tijdstip duidt de eindgrens aan van het laatste foneem.

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ttext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.