Het .tig-formaat

Bestanden van het type .tig (syntactische annotatie) bevatten een chronologische weergave van de syntactische annotatie in een XML-tekstformaat. De structuur van dit formaat wordt beschreven door stext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. De tig-bestanden zijn te vinden in /data/annot/xml/tig van de annotatie-DVD. en kunnen worden bekeken met COREX. Het formaat is gebaseerd op het Tiger-formaat waarmee het programma TigerSearch werkt. Zie stext.dtd (te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) voor informatie m.b.t. de compatibiliteit.


<?xml version="1.0" encoding="ISO-8859-1" standalone="no"?>
<subcorpus name="fn123456">
<s id="fn123456.1">
<graph root="fn123456.1.506">
<terminals>
 <t id="fn123456.1.1" word="in" pos="VZ1" morph="T701"/>
 <t id="fn123456.1.2" word="de" pos="LID" morph="T602"/>
 <t id="fn123456.1.3" word="Amsterdam" pos="SPEC" morph="T005"/>
 <t id="fn123456.1.4" word="Arena" pos="SPEC" morph="T005"/>
 <t id="fn123456.1.5" word="is" pos="WW1" morph="T301"/>
 <t id="fn123456.1.6" word="Sensation" pos="N5" morph="T110"/>
 <t id="fn123456.1.7" word="de" pos="LID" morph="T602"/>
 <t id="fn123456.1.8" word="grootste" pos="ADJ3" morph="T208"/>
 <t id="fn123456.1.9" word="houseparty" pos="N1" morph="T101"/>
 <t id="fn123456.1.10" word="ter" pos="VZ3" morph="T703"/>
 <t id="fn123456.1.11" word="wereld" pos="N1" morph="T101"/>
 <t id="fn123456.1.12" word="gehouden" pos="WW7" morph="T320"/>
 <t id="fn123456.1.13" word="." pos="LET" morph="T007"/>
</terminals>
<nonterminals>
 <nt id="fn123456.1.500" cat="MWU">
  <edge label="MWP" idref="fn123456.1.3"/>
  <edge label="MWP" idref="fn123456.1.4"/>
 </nt>
 <nt id="fn123456.1.501" cat="PP">
  <edge label="HD" idref="fn123456.1.10"/>
  <edge label="OBJ1" idref="fn123456.1.11"/>
 </nt>
 <nt id="fn123456.1.502" cat="NP">
  <edge label="DET" idref="fn123456.1.2"/>
  <edge label="HD" idref="fn123456.1.500"/>
 </nt>
 <nt id="fn123456.1.503" cat="NP">
  <edge label="DET" idref="fn123456.1.7"/>
  <edge label="MOD" idref="fn123456.1.8"/>
  <edge label="HD" idref="fn123456.1.9"/>
  <edge label="MOD" idref="fn123456.1.501"/>
 </nt>
 <nt id="fn123456.1.504" cat="PP">
  <edge label="HD" idref="fn123456.1.1"/>
  <edge label="OBJ1" idref="fn123456.1.502"/>
 </nt>
 <nt id="fn123456.1.505" cat="NP">
  <edge label="HD" idref="fn123456.1.6"/>
  <edge label="APPOS" idref="fn123456.1.503"/>
 </nt>
 <nt id="fn123456.1.506" cat="SMAIN">
  <edge label="HD" idref="fn123456.1.5"/>
  <edge label="VC" idref="fn123456.1.12"/>
  <edge label="MOD" idref="fn123456.1.504"/>
  <edge label="SU" idref="fn123456.1.505"/>
 </nt>
</nonterminals>
</graph>
</s>
<s id="fn123456.2">
<graph root="fn123456.2.506">
<terminals>
 <t id="fn123456.2.1" word="zo'n" pos="VNW21" morph="U528c"/>
 <t id="fn123456.2.2" word="veertigduizend" pos="TW1" morph="T401"/>
 <t id="fn123456.2.3" word="bezoekers" pos="N3" morph="T107"/>
 <t id="fn123456.2.4" word="gingen" pos="WW2" morph="T305"/>
 <t id="fn123456.2.5" word="uit" pos="VZ1" morph="T701"/>
 <t id="fn123456.2.6" word="hun" pos="VNW11" morph="U509o"/>
 <t id="fn123456.2.7" word="dak" pos="N1" morph="T102"/>
 <t id="fn123456.2.8" word="tijdens" pos="VZ1" morph="T701"/>
 <t id="fn123456.2.9" word="het" pos="LID" morph="T601"/>
 <t id="fn123456.2.10" word="dansfeest" pos="N1" morph="T102"/>
 <t id="fn123456.2.11" word="." pos="LET" morph="T007"/>
</terminals>
<nonterminals>
 <nt id="fn123456.2.500" cat="DETP">
  <edge label="MOD" idref="fn123456.2.1"/>
  <edge label="HD" idref="fn123456.2.2"/>
 </nt>
 <nt id="fn123456.2.501" cat="NP">
  <edge label="DET" idref="fn123456.2.6"/>
  <edge label="HD" idref="fn123456.2.7"/>
 </nt>
 <nt id="fn123456.2.502" cat="NP">
  <edge label="DET" idref="fn123456.2.9"/>
  <edge label="HD" idref="fn123456.2.10"/>
 </nt>
 <nt id="fn123456.2.503" cat="NP">
  <edge label="HD" idref="fn123456.2.3"/>
  <edge label="DET" idref="fn123456.2.500"/>
 </nt>
 <nt id="fn123456.2.504" cat="PP">
  <edge label="HD" idref="fn123456.2.5"/>
  <edge label="OBJ1" idref="fn123456.2.501"/>
 </nt>
 <nt id="fn123456.2.505" cat="PP">
  <edge label="HD" idref="fn123456.2.8"/>
  <edge label="OBJ1" idref="fn123456.2.502"/>
 </nt>
 <nt id="fn123456.2.506" cat="SMAIN">
  <edge label="HD" idref="fn123456.2.4"/>
  <edge label="SU" idref="fn123456.2.503"/>
  <edge label="SVP" idref="fn123456.2.504"/>
  <edge label="MOD" idref="fn123456.2.505"/>
 </nt>
</nonterminals>
</graph>
</s>
</subcorpus>

<subcorpus> fragment met een syntactische annotatie.
<s> zin met een syntactische annotatie.
<graph> grafische voorstelling van de syntactische annotatie.
<terminals> lijst van terminale knopen, eindknopen <t>.
<nonterminals> lijst van non-terminale knopen <nt>.
<edge> syntactische functie.
<secedge> syntactische functie.
<nt> non-terminale knoop.
<t> terminale knoop.
root ID van de moederknoop van zin <s>.
id unieke knoopidentificatie, met <fragmentnummer>.<zinsrangnummer>.<knoopnummer>, waarbij <knoopnummer> voor zowel terminale als non-terminale knopen geldt.
word woordvorm zoals die voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden)
pos Part-of-Speech-tag (woordsoort) van de terminale knoop. Deze POS-tag is een vereenvoudigde/afgeleide versie van de POS-tag in morph (zie hierna). Zie corpus.header te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. (XML) of negra.header (tekst; eveneens te vinden op de annotatie-DVD) voor een opsomming van de gebruikte tagset.
morhp Part-of-Speech-tag corresponderend met de POS-tag uit attribuut pos. Zie corpus.header (XML) of negra.header (tekst) te vinden op de annotatie-DVD voor een mapping tussen de verkorte labelnotatie en de volledige POS-tags (vlg. data in de .plk-bestanden)
cat knooplabel, de syntactische categorie van een non-terminale knoop.
label syntactische functie. Zie corpus.header (XML) of negra.header (tekst) op de annotatie-DVD voor een verklarende lijst van de gebruikte labels.
idref verwijzing naar de id van de dochterknoop.

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in stext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.