Promotieproject AMAZON
Een Robuuste Structuralistische Parser voor het Nederlands

Onderzoekschool: Center for Language Studies (CLS)
Universiteit: Katholieke Universiteit Nijmegen
Afdeling: Taal en Spraak
Taakgroep: Computerlinguïstiek
Uitvoerder: drs. S.P. van Dreumel
Promotor: prof. dr. A.H. Neijt
Co-promotor: dr. P.A.J.M. Coppen
Tijdsbestek: van augustus 1996 tot augustus 2002



1. Probleem- en doelstelling

Het Nijmeegse AMAZON/CASUS-project heeft in zijn twintigjarige ontwikkeling recentelijk een stadium bereikt waarin een structuralistische grammatica voor het Nederlands met een aanzienlijke coverage is voltooid, in een formalisme, AGFL ("Affix Grammars over Finite Lattices") genaamd, dat in een zeer efficiënte parser omgezet kan worden De laatste AMAZON-grammatica is herschreven met het oog op minimalisering van de ambiguïteit. Dit is gerealiseerd in de vorm van onderspecificatie. De volgende stap in de logische ontwikkeling van de AMAZON-grammatica is nu het geschikt maken voor algemeen gebruik. Het uiteindelijke doel is een robuuste Structuralistische Parser voor het Nederlands. Voor een dergelijke robuuste parsering is het noodzakelijk dat de AMAZON-grammatica wordt voorzien van robuustheidstechnieken.

In dit project is als werkveld voor de toepassing van robuustheidstechnieken in AMAZON gekozen voor het einde van het middenveld. Aan het einde van het middenveld, vóór de werkwoordelijke eindgroep, spelen zich interessante verschijnselen af die zowel op syntactisch, semantisch als op fonologisch niveau te toetsen zijn. Drie concrete constructies zullen worden onderzocht:

  • Non-NP's
  • NP's
  • Idiomatische expressies

Allereerst zal worden gekeken naar non-NP's aan het einde van het middenveld. Partikels, resultatieve werkwoordsbepalingen, richtingsbepalingen vormen onderwerpen waar veel literatuur voor bestaat maar waar nog geen bevredigende analyses van gegeven zijn. Ten tweede zullen de NP's worden bekeken. Het verschil tussen specifieke en non-specifieke NP's is markant en vraagt om een goede beschrijving. Ten slotte zullen idiomatische expressies aan het einde van het middenveld worden onderzocht. Met name de wijze waarop idiomatische informatie in de grammatica moet worden versleuteld, verdient hier de aandacht.

Bij deze linguïstische onderzoekingen zal een belangrijke rol worden gespeeld door de vraag hoe de beschikbare technieken in AGFL aangewend moeten worden om de beste taalkundige resultaten uit de parser te krijgen.


2. Methode

De AMAZON-structuur is gebaseerd op structuralistische grammatica's zoals de Nederlandse Spraakkunst van Rijpma & Schuringa, bewerkt door Van Bakel (1978), en de Algemene Nederlandse Spraakkunst [ANS] van Haesereyn et al. (1997). De structuralistische zinsstructuur ziet er als volgt uit:

  • SE:   [TOP] — V FIN / C — [MI] — CL — [EX]
We zien in deze structuur dat het middenveld (MI) wordt omsloten door twee polen: als eerste pool de persoonsvorm (FIN), of Complementizer (C) in de bijzin, en als tweede pool het werkwoordelijke cluster (CL). Dit levert de zogenaamde tangconstructie op: de drie hoofdvelden omklemd door de twee polen.

In AMAZON94 is het middenveld niet verder gestructureerd. Het is daar gedefinieerd als een reeks van middenveld-kandidaten die door twee partikels afgesloten kan worden. Om een robuuste parser voor het Nederlands te realiseren, is het nodig dat het middenveld beter gestructureerd wordt. Het ziet ernaar uit dat er veel meer structurele beperkingen gelden op het middenveld, die op het moment nog niet helemaal duidelijk zijn.

In dit project zullen we ons richten op de beschrijving van het einde van het middenveld: het V'/V-complex (Neeleman 1994). Naast het werkwoord en zijn argumenten bevinden zich in het V'/V-complex de directionele bepalingen, de resultatieve werkwoordsbepalingen, de partikels van voornaamwoordelijke bijwoorden en de partikels van scheidbaar-samengestelde werkwoorden. De vraag is hoe de genoemde bepalingen en partikels zich syntactisch verhouden tot elkaar in het V'/V-complex. Er zal aangetoond moeten worden hoe de precieze structuur van het V'/V-complex er uiteindelijk uitziet.

Het onderscheid tussen specifieke en niet-specifieke argumentposities ten behoeve van de plaatsing van adverbiale adjuncten (AD) past eveneens in de structurering van het V'-complex. Het volgende schema zal daarbij getoetst worden:

  • [specifiek subject] AD [niet-specifiek subject] [specifiek object] AD [niet-specifiek object].

Verder speelt bij deze problematiek de constructie van het kale meervoud direct na een hoofdloze NP zoals in wij geven/zien de oudste boeken een belangrijke rol. Deze constructie levert namelijk nog ambiguïteitsproblemen op:

  1. [... [NP de oudste boeken] ...]
  2. [... [NP de oudste] [NP boeken] ...]

De concrete vraag is hierbij: wanneer moet gekozen worden voor de grote/large NP (zie 1) en wanneer voor de kleine/small NP (zie 2), welke condities bepalen deze keuze? Is dit afhankelijk van de structurele configuratie in het middenveld? Zo ja, wat zijn de beperkingen die opgelegd kunnen worden aan dergelijke constructies? Wanneer is subcategorisatie-informatie van het werkwoord nodig om uitsluitsel te geven? Het moet verder duidelijk zijn welke keuzes gemaakt moeten worden als er meer van dergelijke ambigue NP-constructies voorkomen in het middenveld, zoals in geven de oudste mensen de oudste sigaren. Dit alles zal gevolgen hebben voor de herschrijving van het middenveld.

Eveneens is een principiële behandeling van idiomatische expressies nodig waaronder de werkwoordelijke uitdrukkingen zoals op de hoogte zijn, de draak steken en het hazenpad kiezen. We zullen zien dat de middengroep en de werkwoordelijk eindgroep nauw samen blijken te hangen in het V'/V-complex.

Een ander punt is dat de intonatie-verschijnselen meegenomen worden die syntactisch gezien relevant zijn voor het V'/V-complex. Intonatie kan zorgen voor disambiguering van de zin. Zo is er een intonatie-verschijnsel waarbij het interne argument van het werkwoord zinsaccent krijgt als het werkwoord gedeaccentueerd wordt. Dit lijkt niet te gelden voor een adjunct. Dit maakt het onderscheid tussen argument en adjunct mogelijk op basis van het verschil in intonatie. Mogelijk achterhalen we meer verbanden tussen de syntactische structuur en intonatie. Wel moet gerealiseerd worden dat meer factoren, naast syntactische, het intonatiepatroon bepalen of beïnvloeden. Als we meer weten over de relatie tussen syntaxis en intonatie, kunnen we dit als onafhankelijke evidentie gaan gebruiken voor het toetsen van de voorgestelde structurering van het V'/V-complex.

Met de middelen die tot onze beschikking staan in AGFL zal ernaar gestreefd worden de parser robuust te maken door robuustheidstechnieken in de AMAZON-grammatica in te bouwen die gebaseerd zijn op linguistische principes, waaronder onderspecificatie en Late Afsluiting (Minimale en Maximale Aanhechting). De toepassing van de afzonderlijke principes zal per constructie bekeken worden.

Door het terugdringen van ambiguïteit zal de linguïstische coverage van de parser beter worden, waardoor de parser ook weer robuuster wordt. Om dit doel te bereiken worden de faciliteiten van AGFL ingezet. Afwegingen die gemaakt worden, zoals welke faciliteit het meest geschikt is voor welke constructie/situatie en hoe die faciliteit dan het beste aangewend kan worden, moeten gemotiveerd worden door linguïstische principes en inzichten. Uiteindelijk willen we dat de AMAZON-grammatica steeds de linguïstisch meest adequate analyse geeft voor iedere Nederlandse zin.


3. Wetenschappelijk belang

Allereerst verkrijgen we inzicht in de structuur van de middengroep in het Nederlands. De intonatie-verschijnselen die samenhangen met de syntactische structuur, kunnen inzicht geven in de precieze structurering van het V'/V-complex. Dit is te beschouwen als bonus van dit onderzoek. De intonatie-informatie kan gebruikt worden om de syntactische parsering te sturen. Omgekeerd kan op basis van de opgeleverde syntactische structuur een deel (van de eigenschappen) van het intonatiepatroon afgeleid worden. Door robuustheidstechnieken in te zetten in de AMAZON-grammatica, wordt een robuuste Structuralistische Parser opgeleverd die alle Nederlandse zinnen syntactisch correct analyseert. Omdat gekozen wordt voor een beschrijving die aansluit op de terminologie uit de Algemene Nederlandse Spraakkunst (ANS), zal de parser ook voor meerdere doelen ingezet kunnen worden. De resultaten van dit onderzoek sluiten perfect aan op toepassingsprojecten bij Computerlinguïstiek, Corpuslinguïstiek en Fonetiek, betreffende allerlei NLP-systemen zoals informatiesystemen (Information Retrieval), een parser voor het analyseren van Nederlandse corpora, spraakgeneratoren, tekst-naar-spraak-systemen voor het Nederlands.


4. Aansluiting op bestaand onderzoek

Dit project sluit direct aan op het onderzoek van E. Oltmans, AMAZON in AGFL (Oltmans 1994), waarin de AMAZON-grammatica geheel gemoderniseerd is en herschreven met het oog op minimalisering van ambiguïteit. De robuuste Structuralistische Parser voor het Nederlands zal gebruikt gaan worden voor projecten in het kader van Information Retrieval zoals het DORO-project (prof. C.H.A. Koster). Het onderzoek naar de relatie tussen prosodie en syntactische structuur zal terug te vinden zijn in het Nijmeegse NIROS-project (prof. dr. C.H.M. Gussenhoven & dr. A.C.M. Rietveld). Er wordt daarbinnen gewerkt aan een spraakgenerator, een systeem van synthese-door-regels dat tekst omzet in voorgelezen spraak. De syntactische structuur blijkt een belangrijke schakel te vormen in de gehele spraakgenerator: de prosodische kenmerken worden onder andere bepaald door de syntactische structuur (E. Marsi). Voor dit onderzoek zal een robuuste parser nodig zijn die de syntactische structuur oplevert van zinnen, die als basis kan dienen voor de beregeling van prosodische eigenschappen. De AMAZON-parser kan verder ingezet worden voor het analyseren van Nederlandse corpora in het kader van Corpuslinguïstiek (prof. dr. J.M.G.A. Aarts & dr. N.H.J. Oostdijk, dr. B.J.M. van Halteren). Het onderzoek zal bovendien wat betreft de werkwoordelijke eindgroep nauw aansluiten op de Semantische Syntaxis (prof. dr. P.A.M. Seuren), waarbinnen gewerkt zal gaan worden aan parsering in een technolinguïstische benadering (L. Teunissen).


Literatuurverwijzingen

  • Van Bakel (1975), J. van Bakel. Automatische zinsontleding met de computer. Afd. Computerlinguïstiek, Nijmegen.
  • Van Bakel (1984), J. van Bakel. Automatic Semantic Interpretation. Foris Publications, Dordrecht.
  • Van Bakel & Oltmans (1995), B. van Bakel & E. Oltmans. A modular approach to handling syntactic ambiguity. In: P. de Haan & N. Oostdijk (eds.), Proceedings of the Department of Language and Speech
  • Den Besten (1989), H. den Besten. Studies in West Germanic Syntax. Dissertation, University of Tilburg.
  • Broekhuis (te verschijnen), A Modern Grammar of Dutch (MGD)
  • Coppen (1987), P.A. Coppen. Het Amazon-algoritme voor werkwoordelijke eindclusters. Gramma 11(3), 153-167.
  • Coppen (1991), P.A. Coppen. Specifying the Noun Phrase. Dissertation, University of Nijmegen.
  • Coppen et al. (1991), P.A. Coppen, R. van der Borgt, S. van Dreumel, L. Teunissen. Generating Syntactic Structures. In: Proceedings of the Department of Language and Speech, University of Nijmegen, 52-62.
  • Coppen & Van der Ende (1993), P.A. Coppen & D. van der Ende. Criteria in de technolinguïstiek. In: Bakel et al., 23-34.
  • Coppen et al. (1993), P.A. Coppen, R. van der Borgt, S. van Dreumel, E. Oltmans, L. Teunissen. Een implementatie van gapping. Gramma/TTT 2(1), 31-45.
  • Coppen (1995), P.A. Coppen. A new version of the Amazon/Casus system. In: P. de Haan & N. Oostdijk (eds.), Proceedings of the Department of Language and Speech, Vol. 18 (1994), 85-90, University of Nijmegen.
  • Den Dikken (1992), M. den Dikken. Particles. Dissertation, HIL, University of Leiden.
  • Van Dreumel (1996), S. van Dreumel. Subcategorisatie. Een onderzoek naar subcategorisatie en de verwerking ervan in een NLP-systeem. Doctoraalscriptie, TSI, KU Nijmegen. Doctoraalscriptie op het web
  • Van Dreumel & Potjer (1998), S. van Dreumel & J. Potjer. De Amazon-Grammatica. Technical Report CSI-R9823, Computing Science Institute, University of Nijmegen. Amazon-parser op het web
  • Van Dreumel (2000), S. van Dreumel. The Amazon Grammar and the last part of the Middle Field. In: F. Van Eynde, I. Schuurman and N. Schelkens (eds). Computational Linguistics in the Netherlands 1998. Selected Papers from the Ninth CLIN Meeting, 93-107. Amsterdam - Atlanta: Rodopi.
  • Van Dreumel & Coppen (2003), S. van Dreumel & P.A. Coppen. Surface Analysis of the Verbal Cluster in Dutch. In: Linguistics, Vol 41 No 1 (2003).
  • Haeseryn et al. (1997), W. Haeseryn, K. Romijn, G. Geerts, J. de Rooij, M.C. van den Toorn (eds). Algemene Nederlandse Spraakkunst [ANS], tweede editie. Martinus Nijhoff, Groningen.
  • Oltmans (1994), E. Oltmans. AMAZON in AGFL: Een contextvrije herschrijfgrammatica voor de structurele module van het AMAZON/CASUS-systeem, beschreven in het AGFL-formalisme. Doctoraalscriptie, TSI, KU Nijmegen.
  • Koster (1975), J. Koster. Dutch as an SOV Language. Linguistic Analysis 1, 111-136.
  • Koster (1991), C.H.A. Koster. Affix Grammars for Natural Languages. In: Attribute Grammars, Applications and Systems. International Summer School SAGA. Prague, Czechoslovakia. Lecture Notes in Computer Science, volume 545. Springer-Verlag.
  • Koster (1994), J. Koster. Predicate Incorporation and the Word Order of Dutch. In: G. Cinque, J. Koster, J.-Y. Pollock, L. Rizzi, and R. Zanuttini (eds.), Paths Towards Universal Grammar. Studies in Honor of Richard S. Kayne. Georgetown University Press, Washington D.C., 1994b, 255-277.
  • Neeleman (1994), A. Neeleman. Complex Predicates. Dissertation, Research Institute for Language and Speech, University of Utrecht.
  • Van Riemsdijk (1997), H. van Riemsdijk. Push Chains and Drag Chains: Complex Predicate Split in Dutch. In: Shigeo Tonoike (ed), Scrambling, 7-33. Linguistic Workshop Series #5. Tokyo: Kurosio.
  • Rijpma & Schuringa [bewerkt door Van Bakel] (1978). E. Rijpma & F. Schuringa. Nederlandse Spraakkunst (bewerkt door Jan van Bakel). Wolters-Noordhoff, Groningen.
  • Zwart (1993), C.J.W. Zwart. Dutch Syntax: A Minimalist Approach. Dissertation, RU Groningen.


Home Previous Up Next English Mail

| Thuispagina | Taalkundig onderzoek | Switch to English |

Voor opmerkingen of vragen over deze pagina kunt u contact opnemen met Simon van Dreumel
Het laatst gewijzigd op 18 februari 2004