Thèse :

Hiérarchie Inclusive des Unités Linguistiques en Analyse Syntaxique Coopérative

Le segment, unité intermédiaire entre chunk et phrase
dans le traitement linguistique par système multi-agent

Thèse présentée et soutenue publiquement le 23 mai 2002 à l’Université de Caen

Télécharger le mémoire de recherche

Résumé

Nos recherches se sont portées sur le domaine de l’analyse syntaxique automatique, domaine dont nous ne traitons ici que deux aspects majeurs: linguistique et informatique.

Dans la partie linguistique, nous présentons les étapes de découverte, formalisation et validation de la notion de segment, unité linguistique entre le syntagme minimal (chunk) et la phrase. Une évaluation de l’analyseur syntaxique GREYC’98 et une étude des arbres de dépendance projetables, nous ont permis de mettre en évidence un certain nombre de mots grammaticaux et ponctuations qui sont à la fois à l’origine des erreurs de l’analyseur évalué et marqueurs de branches unaires au sein des représentations arborescentes. Ceci nous a permis de définir le segment, intermédiaire entre le chunk et la phrase, donnant ainsi naissance à une hiérarchie inclusive des constituants (mots, chunks, segments, phrases). Nous donnons certaines des propriétés du segment qui le rendent utile et simplificateur pour le calcul des relations de dépendance entre chunks. La notion de segment est alors validée: sur corpus oral, établissant ainsi que le segment est fortement marqué prosodiquement; sur corpus écrit, de manière à montrer quelles erreurs de l’analyseur GREYC’98 auraient pu être évitées en utilisant la notion de segment.

Dans la partie informatique, nous présentons un modèle informatique pour l’analyse syntaxique qui permet de paralléliser et de faire coopérer les processus de calcul et les unités linguistiques. Nous partons de la hiérarchie inclusive pour exposer notre méthode de résolution du problème. Nous décrivons ensuite le modèle Hactar d’analyse syntaxique par agents: sur un exemple, puis d’un point de vue théorique et enfin du point de vue implantation. Nous terminons la partie informatique par une validation de la viabilité d’Hactar; nous proposons enfin quelques utilisations du principe de coopération entre processus, permettant ainsi d’intégrer des greffons de compétences complémentaires.

Mots clés : Langage naturel – traitement du – (informatique), Analyse automatique (linguistique), Linguistique ** informatique, Hiérarchie (linguistique), Prosodie (linguistique), Intelligence artificielle répartie, Grammaire de dépendance

Summary

Our research was led in the domain of parsing technologies, of which we only deal with the two major aspects: linguistics and computing.

In the linguistic part, we present the steps of discovery, formalization and validation of the notion of segment, linguistic unit between the chunk and the sentence. An evaluation of the GREYC’98 parser and a study of projectable dependency trees have enhanced some grammatical words and punctuations which cause most of the parser’s errors and delimit unary branches in the tree representation. This has allowed us to define the segment, intermediary unit between the chunk and the sentence, leading to an inclusive hierarchy of constituents (words, chunks, segments, sentences). We give some of the segment’s properties which make it useful and a simplifier of chunk dependency computations. The notion of segment is then validated: on oral corpus, establishing that the segment is strongly marked prosodically; on written corpus, in order to show which errors could have been avoided by using the concept of segment.

In the computing part, we present a computing model that allows to parallelize syntactic units and processes, and to make them cooperate. We start from the inclusive hierarchy to expose our problem resolution method. We then describe the Hactar model for agent-based syntactic parsing: on an example, then from the theoretical point of view and finally from the implementation point of view. We conclude the computing part by validating the viability of Hactar; we finally present some uses of the process cooperation principle, allowing to integrate pluggins with complementary competences.

Key words : {Natural language processing – (computer science), Parsing (computer grammar), Computational linguistics, Hierarchy (linguistics), Prosodic analysis (linguistics), Distributed artificial intelligence, Dependency grammar

Publicités