Het .pri-formaat

Bestanden van het type .pri (primaire data) zijn afgeleid van het bestandtype .ort. Het is een chronologische weergave van de orthografie in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door text.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.


<?xml version="1.0"?>
<!DOCTYPE text SYSTEM "text.dtd">
<text id="fn123456">
  <mu id="fn123456.1" s="COMMENT">
    <m id="fn123456.1.1">                          De              </m>
    <m id="fn123456.1.2">                          televisie       </m>
    <m id="fn123456.1.3">                          staat           </m>
    <m id="fn123456.1.4">                          aan             </m>
    <m id="fn123456.1.5">                          op              </m>
    <m id="fn123456.1.6">                          de              </m>
    <m id="fn123456.1.7">                          achtergrond.    </m>
  </mu>
  <au id="fn123456.2" s="N01168">
    <w id="fn123456.2.1">                          maar            </w>
    <w id="fn123456.2.2">                          zij             </w>
    <w id="fn123456.2.3">                          gaat            </w>
    <w id="fn123456.2.4">                          uh              </w>
    <w id="fn123456.2.5">                          drankjes        </w>
    <w id="fn123456.2.6">                          verkopen        </w>
    <l id="fn123456.2.7">                          .               </l>
  </au>
  <au id="fn123456.3" s="N01167">
    <w id="fn123456.3.1">                          gratis          </w>
    <w id="fn123456.3.2">                          verkopen        </w>
    <l id="fn123456.3.3">                          ?               </l>
  </au>
  ...
  <au id="fn123456.4" s="N01168">
    <w id="fn123456.4.1">                          nou             </w>
    <w id="fn123456.4.2">                          ok&eacute;      </w>
    <l id="fn123456.4.3">                          .               </l>
  </au>
  <mu id="fn123456.5" s="BACKGROUND">
    <m id="fn123456.5.1">                          inschenken      </m>
    <m id="fn123456.5.2">                          water.          </m>
  </mu>
  <au id="fn123456.6" s="N01169">
    <w id="fn123456.6.1">                          dat             </w>
    <w id="fn123456.6.2">                          hoorde          </w>
    <w id="fn123456.6.3" marked="incomplete">      i               </w>
    <l id="fn123456.6.4">                          ...             </l>
  </au>
  ...
</text>

<text> tekst.
<au> een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<w> een woord binnen een annotatie-eenheid (<au>).
<l> het leesteken binnen een annotatie-eenheid (<au>). Er zijn drie mogelijke waarden voor dit element: ".", "..." of "?".
<mu> een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
<m> een marker binnen de mark-up-eenheid (<mu>).
s spreker-identificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: Nxxxxx, Vxxxxx of UNKOWN waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: COMMENT of BACKGROUND.
id De identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:
<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>
marked vertaalt de *-codering in het oorspronkelijk orthografisch transcript (.ort-formaat) als optioneel attribuut van het <w>-element. Mogelijke waarden zijn: foreign, dialect, incomplete, mispr, regionalpr en uncertain (corresponderend met resp. *v, *d, *a, *u, *z en *x).

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in text.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.