Het .lxk-formaat

Bestanden van het type .lxk (Lexicologische Koppeling) zijn een chronologische weergave van dit annotatietype in een XML-tekstformaat. De structuur van dit XML-tekstformaat wordt beschreven door ltext.dtd te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0.


<?xml version="1.0"?>
<!DOCTYPE ltext SYSTEM "ltext.dtd">
<ltext ref="fn123456">
  <lau ref="fn123456.1" s="N01036">
    <lw ref="fn123456.1.1" w="ga"> <lkop klem="gaan" nlid="30559"
      ksize="1" kparts="265.1"/> </lw>
    <lw ref="fn123456.1.2" w="je"> <lkop klem="je" nlid="135108"
      ksize="1" kparts="265.2"/> </lw>
    <lw ref="fn123456.1.3" w="nou"> <lkop klem="nou" nlid="135232"
      ksize="1" kparts="265.3"/> </lw>
    <lw ref="fn123456.1.4" w="met"> <lkop klem="met" nlid="135170"
      ksize="1" kparts="265.4"/> </lw>
    <lw ref="fn123456.1.5" w="de"> <lkop klem="de" nlid="134796"
      ksize="1" kparts="265.5"/> </lw>
    <lw ref="fn123456.1.6" w="trein"> <lkop klem="trein" nlid="104897"
      ksize="1" kparts="265.6"/> </lw>
    <lw ref="fn123456.1.7" w="naar"> <lkop klem="naar" nlid="135200"
      ksize="1" kparts="265.7"/> </lw>
    <lw ref="fn123456.1.8" w="Loon"> <lkop klem="Loon_Op_Zand" nlid="608839"
      ksize="3" kparts="265.8 265.9 265.10"/> </lw>
    <lw ref="fn123456.1.9" w="Op"> <lkop klem="Loon_Op_Zand" nlid="608839"
      ksize="3" kparts="265.8 265.9 265.10"/> </lw>
    <lw ref="fn123456.1.10" w="Zand"> <lkop klem="Loon_Op_Zand" nlid="608839"
      ksize="3" kparts="265.8 265.9 265.10"/> </lw>
    <lw ref="fn123456.1.11" w="of"> <lkop klem="of" nlid="135234"
      ksize="1" kparts="265.11"/> </lw>
    <lw ref="fn123456.1.12" w="met"> <lkop klem="met" nlid="135170"
      ksize="1" kparts="265.12"/> </lw>
    <lw ref="fn123456.1.13" w="de"> <lkop klem="de" nlid="134796"
      ksize="1" kparts="265.13"/> </lw>
    <lw ref="fn123456.1.14" w="bus"> <lkop klem="bus" nlid="16763|16764"
      ksize="1" kparts="265.14"/> </lw>
    <ll ref="fn123456.1.15" w="?"/>
  </lau>
  <lau ref="fn123456.2" s="N01265">
    <lw ref="fn123456.2.1" w="ja"> <lkop klem="ja" nlid="45366"
      ksize="1" kparts="73.1"/> </lw>
    <lw ref="fn123456.2.2" w="Partij"> <lkop klem="Partij_Van_De_Arbeid" nlid="610975"
      ksize="4" kparts="73.2 73.3 73.4 73.5"/> </lw>
    <lw ref="fn123456.2.3" w="Van"> <lkop klem="Partij_Van_De_Arbeid" nlid="610975"
      ksize="4" kparts="73.2 73.3 73.4 73.5"/> </lw>
    <lw ref="fn123456.2.4" w="De"> <lkop klem="Partij_Van_De_Arbeid" nlid="610975"
      ksize="4" kparts="73.2 73.3 73.4 73.5"/> </lw>
    <lw ref="fn123456.2.5" w="Arbeid"> <lkop klem="Partij_Van_De_Arbeid" nlid="610975"
      ksize="4" kparts="73.2 73.3 73.4 73.5"/> </lw>
    <lw ref="fn123456.2.6" w="is"> <lkop klem="zijn" nlid="122511"
      ksize="1" kparts="73.6"/> </lw>
    <lw ref="fn123456.2.7" w="iets"> <lkop klem="iets" nlid="135089"
      ksize="1" kparts="73.7"/> </lw>
    <lw ref="fn123456.2.8" w="vooruit"> <lkop klem="vooruitgaan" nlid="504346"
      ksize="2" kparts="73.8 73.9"/> </lw>
    <lw ref="fn123456.2.9" w="gegaan"> <lkop klem="vooruitgaan" nlid="504346"
      ksize="2" kparts="73.8 73.9"/> <lkop klem="achteruitgaan" nlid="500431"
      ksize="2" kparts="73.9 73.13"/> </lw>
    <lw ref="fn123456.2.10" w="'t"> <lkop klem="het" nlid="135669"
      ksize="1" kparts="73.10"/> </lw>
    <lw ref="fn123456.2.11" w="CDA"> <lkop klem="CDA" nlid="125724"
      ksize="1" kparts="73.11"/> </lw>
    <lw ref="fn123456.2.12" w="iets"> <lkop klem="iets" nlid="135089"
      ksize="1" kparts="73.12"/> </lw>
    <lw ref="fn123456.2.13" w="achteruit"> <lkop klem="achteruitgaan" nlid="500431"
      ksize="2" kparts="73.9 73.13"/> </lw>
    <lw ref="fn123456.2.14" w="SP"> <lkop klem="SP" nlid="132419"
      ksize="1" kparts="73.14"/> </lw>
    <lw ref="fn123456.2.15" w="verdubbeld"> <lkop klem="verdubbelen" nlid="109296"
      ksize="1" kparts="73.15"/> </lw>
    <ll ref="fn123456.2.16" w="."/>
  </lau>
</ltext>

<ltext> tekst met lexicologische koppeling.
<lau> een annotatie eenheid. De grenzen van dit element worden bepaald door het leesteken.
<lw> een woord binnen de annotatie eenheid <lau>.
<lmu> een mark-up eenheid die COMMENT– of BACKGROUND-informatie kan bevatten.
<lm> een marker binnen de mark-up eenheid <lmu>.
<lkop> een koppelingseenheid binnen een woord <lw>.
ref de identificatie-code is opgebouwd uit één, twee of drie delen (afhankelijk van het element waartoe het behoort) die gescheiden worden door een punt. De betekenis is alsvolgt:
<fragmentnummer>.<annotatie-eenheidrangnummer>.<woord/marker/leesteken-rangnummer>
s spreker-identificatie. In de context van het <pau>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <pmu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND".
w woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden)
klem lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma.
nlid lexicon-ID van het enkel- of meerwoordslemma. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) tenzij het een een meerwoordsuitdrukking betreft. In dat geval verwijst het ID naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0). Meerdere mogelijke verwijzingen naar het lexicon worden gescheiden door een horizontale streep "|" (bijv. nlid="16763|16764). nlid="0" wanneer geen overeenkomstig lemma in het lexicon voorkomt.
ksize het aantal delen van de meerwoordsuitdrukking. In geval van een enkelwoordsuitdrukking is ksize="1".
kparts referenties naar de afzonderlijke delen van de meerwoordsuitdrukking:
<annotatie-eenheidrangnummer>.<woordrangnummer>

Alle in het transcript gebruikte tekens uit de ISO-8859.1-tekenset die buiten het 7-bits bereik vallen, zijn vertaald volgens de Character entity references for ISO 8859-1 characters. De gebruikte subset van deze speciale tekens is te vinden in ltext.dtd die te vinden is op de annotatie-DVD die deel uitmaakt van versie 1.0. In entities.htm vindt men een overzicht van de verschillende standaarden voor deze teken(sub)set.