Meta-data: fragmentgegevens

In het bestand recordings.xls (te vinden op de annotatie-DVD die deel uitmaakt van versie 1.0) is informatie beschikbaar met betrekking tot de fragmenten die deel uitmaken van het corpus.

De informatie die in de opeenvolgende kolommen in het bestand is te vinden is de volgende:

recordingID
de unieke code waarmee het fragment wordt aangeduid: fnNNNNNN or / fvNNNNNN, b.v. fn000110 / fv4000028. Voor alle fragmenten die uit Nederland afkomstig zijn begint de fragmentcode met de letters fn; voor de Vlaamse fragmenten zijn dit de letter fv.
aXtype
specificeert het type header informatie: TEXT
creator
specificeert wie verantwoordelijk was voor deze header info: CLS-KUN (voor de Nederlandse data) of ELIS-UG (voor de Vlaamse data)
version
de huidige versie van de header info: HEADER.version1.0
aXupdate
datum waarop de header voor het laatst werd geactualiseerd
info
informatie met betrekking tot de aard van het fragment; b.v. spontaneous conversation (face-to-face), television programme :Studio Sport, ceremonious speech: opening of the academic year
respType
soort taak/transcriptie/annotatie: SAMPLING
respName
groep die verantwoordelijk was voor de taak/transcriptie/annotatie in de voorafgaande kolom: SPEX, CNTS-UA, ELIS-UG, of ESAT-KUL
respType
soort transcriptie/annotatie: ORTHOGRAPHIC TRANSCRIPTION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: SPEX, CNTS-UA, ELIS-UG, of ESAT-KUL
respType
soort transcriptie/annotatie: PART-OF-SPEECH TAGGING
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie: LEMMATISATION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie: LEXICON LINK-UP
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: CLS-KUN of CCL-KUL
respType
soort transcriptie/annotatie: WORD SEGMENTATION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: CLS-KUN, ELSI-UG, of ESAT-KUL
respType
soort transcriptie/annotatie: PHONETIC TRANSCRIPTION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: SPEX of CNTS-UA
respType
soort transcriptie/annotatie: SYNTACTIC ANNOTATION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: OTS of CCL-KUL
respType
soort transcriptie/annotatie: PROSODIC ANNOTATION
respName
groep die verantwoordelijk was voor de transcriptie/annotatie in de voorafgaande kolom: UvT/RUL of CNTS-UA/ELIS-UG
wordCount
aantal woorden in het fragment
secCount
duur van het fragment in totaal aantal seconden
byteCount
aanduiding van de omvang van de .wav-file (uitgedrukt in aantal eenheden gespecificeerd in volgende kolom): getal
unit
MB
extNote
opmerkingen m.b.t. fragment
wph
gemiddeld aantal woorden per uur
distributor
organisatie verantwoordelijk voor de distributie: ELDA
WAV-DVD
label van de dvd waarop de desbetreffende geluidsfile zich bevindt; b.v. CGN_WAV_01
author
auteur van het boek waaruit werd voorgelezen: voornaam/letters, achternaam
biblStringXtitle
titel van het boek
pubName
uitgever
pubPlace
plaats van uitgave
pubDate
jaar van uitgave
rexXdate
opname datum/jaar
time
opnametijd (optioneel)
source
aanduiding van de bron : b.v. national television, Draadomroep, library for the blind, etc.
producer
producer van de opname: CGN, VNC, Corpus van der Wijst, ANP Radio, etc.
target
geeft informatie over 4 aspecten: text type, mate van voorbereidheid (degree of preparedness), modus (mode), en domain (domain);
text type: specifies the component to which a sample belongs; 15 text types are distinguished; tta-tto (see list below)
degree of preparedness: prep1 = scripted, prep2 = unscripted, prep3 = more-or-less scripted;
mode: mod1 = broadcast, radio; mod2 = broadcast, tv; mod3 = non-broadcast
domain: dom1 = private; dom2= public
term
een of meer trefwoorden die een nadere aanduiding geven van het onderwerp/de onderwerpen die in het fragment aan de orde komen
speakerIDs
de sprekercode(s) van de spreker(s) die in het fragment voorkomen: N..... / V....., b.v. N00023 / V00023 (N duidt steeds een uit Nederland afkomstige spreker aan; V wordt gebruikt om Vlaamse sprekers aan te duiden)
role
rol(len) van de spreker(s) in het fragment: b.v. interviewer, interviewee, chairman, contact, interlocutor, lecturer, news-reader, reporter, teacher, pupil, etc. NB: In de metadata gegevens voor de Nederlandse fragmenten in de componenten (teksttypes) tta, ttc en ttd werd de informatie m.b.t. de rol van de spreker verwisseld met de informatie aangaande relatie tussen sprekers (zie ook onder relationXactive).
age
leeftijdsklasse van de spreker ten tijde van de opname; age0 = jonger dan 18 jaar; age1 = 18-24 jaar; age2 = 25-34 jaar; age3 = 35 -44 jaar; age4 = 45-55 jaar; age5 = ouder dan 55 jaar; ageX = leeftijd onbekend
interactionXtype
mate van interactie tussen sprekers; it1 = geen interactie; it2 = enige interactie; it3 = volledige intercatie; it4 = niet van toepassing
interactionXactive
aantal actieve sprekers
interactionXpassive
zijn er passieve sprekers aanwezig; ja (yes), nee (no), onbekend (unknown), info niet beschikbaar (not used)
relationXactive
relatie waarin de sprekers in een fragment tot elkaar staan. Er worden twee categoriën onderscheiden: familierelaties en sociale relaties. De volgende familierelaties worden aangeduid: FAM: couple, FAM: parent, FAM: siblings, FAM: in-laws, FAM: other. De sociale relatie die worden aangeduid zijn: SOC:friends, SOC: acquaintances, SOC: neighbours, en SOC: colleagues.
relationXpassive
relatie waarin passieve sprekers tot elkaar staan
aXdesc
beschrijving van de rol van de passieve sprekers; niet gebruikt (not used)
mutual
relatie waarin actieve en passieve sprekers tot elkaar staan; niet gebruikt (not used)
locName
plaats waar de opname werd gemaakt; de plaats werd gerepresenteerd d.m.v. de eerste drie cijfers van de postcode; wanneer de plaats onbekend of niet nader aangeduid was, was werd hier de aanduiding unknown of unspecified gebruikt.
locale
bechrijving van het soort ruimte waarin de opname werd gemaakt: loc1 = ruimte van gemiddelde grootte; loc2 = open lucht; loc3 =openbare ruimte; loc4 = grote ruimte, niet nader gespecificeerd
activity
soort activiteit die werd uitgevoerd ten tijde van de opname
recMediumXtype
opname medium: Mini Disk, DAT Tape, CAS tape, CD ROM, computer, video, audio CD, niet nader gespecificeerd (unspecified)
microphoneXtype
type microfoon dat werd gebruikt: b.v. ECM-MS907
micDistanceXperson
afstand tot de microfoon (in aantal centimeters)
dist
afstand tussen sprekers
cm
maat waarin afstand werd uitgedrukt
noise
aanduiding van achtergrondgeluid
recording
aard van de opname: analoog (DIG1), digital (DIG2) of ongespecificeerd (unspecified)
processing
processing van de opname: DIG1, DIG2, unspecified
status
finale status van de opname: DIG2

De laatste kolommen in de tabel zijn bedoeld voor het aanduiden van de wijzigingen (welke wijziging en door wie) die werden aangebracht. Voor elk type transcriptie/annotatie zijn daartoe 3 kolommen gereserveerd. Dit zijn:

revDate
datum waarop de wijziging werd aangebracht
revType
type transcriptie/annotatie dat werd gewijzigd: sampling, orthographic transcription, POS tagging, lemmatisation, lexicon link-up, word segmentation, phonetic transcription, syntactic annotation, prosodic annotation
revName
naam van de persoon/groep die verantwoordelijk was voor de wijziging

NB: In de toekomst is er wellicht behoefte een vierde kolom toe te voegen, nl. die waarin wordt aangeduid wwaaruit de wijziging precies bestond:
revChange
omschrijving van de wijziging die werd aangebracht
 

Text types (vgl. componenten in het corpus design):

tta spontaneous conversations (face-to-face)
ttb interviews with teachers of Dutch
ttc spontaneous telephone dialogues (recorded via a switchboard)
ttd spontaneous telephone dialogues (recorded on MD with local interface)
tte simulated business negotiations
ttf interviews/discussions/debates (broadcast)
ttg (political) discussions/debates/meetings (non-broadcast)
tth lessons recorded in a classroom
tti live (eg sport) commentaries (broadcast)
ttj newsreports/reportages (broadcast)
ttk news (broadcast)
ttl commentaries/columns/reviews (broadcast)
ttm ceremonious speeches/sermons
ttn lectures/seminars
tto read speech