Het .plk-formaat

Bestanden van het type .plk bevatten een Part-of-Speech-tagging, lemmatisering, lexicologische koppeling en informatie over meerwoordsuitdrukkingen.


<au id="1" s="N01036" tb="000.000">
ga         WW(pv,tgw,ev)    gaan        93037  30559
je         VNW(pers,...)    je          620014 135108
nou        BW()             nou         620167 135232
met        VZ(init)         met         620087 135170
de         LID(bep,...)     de          619612 134796
trein      N(soort,ev,...)  trein       317006 104897
naar       VZ(init)         naar        620133 135200
Loon       SPEC(deeleigen)  _           0      0      Loon_Op_Zand              608839        8,9,10
Op         SPEC(deeleigen)  _           0      0      Loon_Op_Zand              608839        8,9,10
Zand       SPEC(deeleigen)  _           0      0      Loon_Op_Zand              608839        8,9,10
of         VG(neven)        of          620170 135234
met        VZ(init)         met         620087 135170
de         LID(bep,...)     de          619612 134796
bus        N(soort,ev,...)  bus         54520|54521  16763|16764
?          LET()            ?           0      0
<mu id="2" s="BACKGROUND" tb="152.867">
inschenken SPEC(achter)     _           0      0
water.     SPEC(achter)     _           0      0
<au id="3" s="N01265" tb="175.824">
ja         TSW()            ja          141336 45366
Partij     SPEC(deeleigen)  _           0      0      Partij_Van_De_Arbeid      610975        2,3,4,5
Van        SPEC(deeleigen)  _           0      0      Partij_Van_De_Arbeid      610975        2,3,4,5
De         SPEC(deeleigen)  _           0      0      Partij_Van_De_Arbeid      610975        2,3,4,5
Arbeid     SPEC(deeleigen)  _           0      0      Partij_Van_De_Arbeid      610975        2,3,4,5
is         WW(pv,tgw,ev)    zijn        141101 122511
iets       VNW(onbep,...)   iets        619991 135089
vooruit    BW()             vooruit     620510 135518 vooruitgaan               504346        8,9
gegaan     WW(vd,vrij,...)  gaan        98566  30559  vooruitgaan/achteruitgaan 504346/500431 8,9/9,13
't         LID(bep,...)     het         619904 135669
CDA        N(eigen,ev,...)  CDA         381902 125724
iets       VNW(onbep,...)   iets        619991 135089
achteruit  BW()             achteruit   619374 134626 achteruitgaan             500431        9,13
SP         N(eigen,ev,...)  SP          393723 132419
verdubbeld WW(vd,...)       verdubbelen 333336 109296
.          LET()            .           0      0

Een .plk-bestand kent twee typen regels:

<au> een annotatie-eenheid. De grenzen van dit element worden bepaald door het leesteken.
<mu> een mark-up-eenheid die COMMENT- of BACKGROUND-informatie kan bevatten.
s spreker-identificatie. In de context van het <au>-element zijn de mogelijke waarden van dit attribuut: "Nxxxxx", "Vxxxxx" of "UNKOWN" waarbij x staat voor een cijfer. In de context van het <mu>-element zijn er twee waarden mogelijk voor het s-attribuut: "COMMENT" of "BACKGROUND".
tb begintijd (in seconden) van de annotatie-eenheid. De begintijd is afgeleid van het .ort bestand. Een tijdmarkering kan samenvallen met een zinsgrens maar dit hoeft niet noodzakelijkerwijs het geval te zijn. Om die reden kan een begintijd wat vroeger zijn dan het feitelijk begin van de zin in het audiobestand.
kolom1 woordvorm zoals dat voorkomt in het orthografisch transcript (vlg. data in de .ort-bestanden)
kolom2 Part-of-Speech-tag die aan de woordvorm is toegekend. Voor een overzicht van de gebruikte tags, zie /data/annot/text/plk/tagset.txt.
kolom3 Lemma van de woordvorm. Het liggend streepje "_" symboliseert het ontbreken van een lemma.
kolom4 Lexicon-ID van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt)
kolom5 Lexicon-ID van het lemma van de woordvorm. Het ID verwijst naar het enkelwoordslexicon (/data/lexicon/text/cgnlex.txt)
kolom6 Meerwoordslemma (indien verschillend van kolom3)
kolom7 Lexicon-ID van het meerwoordslemma. Het ID verwijst naar het meerwoordslexicon (/data/lexicon/text/cgnmlex.txt)
kolom8 Referenties naar de afzonderlijke delen van de meerwoordsuitdrukking d.m.v. het rangnummer van het woord binnen de zin.

Een lexicon-ID met waarde "0" betekent dat het lemma of de woordvorm niet lexicologisch gekoppeld is. Wanneer bij een gekoppelde meerwoordsuitdrukking sprake is van ellipsis (weglating van één of meer van de delen), zoals in ik deed (aandoen en uitdoen) het licht aan en uit, dan worden de bij de woordvorm deed horende lemmata gescheiden door een schuine streep "/", evenals de bijbehorende lexicon-ID's in de kolom ernaast. Wanneer een lemma of woordvorm meer dan één verwijzing kent naar het lexicon, en daarmee geldt als ambigu, dan worden de lexicon-ID's gescheiden door een horizontale streep "|".