Thèse de Damien NOUVEL

Référence

Nouvel Damien (2012). Reconnaissance des entités nommées par exploration de règles d’annotation ; Interpréter les marqueurs d’annotation comme instructions de structuration locale. Thèse de doctorat d'informatique, Université François Rabelais Tours.

Jury : J.-Y. Antoine, F. Béchet, B. Crémilleux, N. Friburger, S. Rosset, A. Soulet.

Télécharger la thèse / To download the thesis

Télécharger les transparents de soutenance / To download the slides of the defense

Résumé

Ces dernières décennies, le développement considérable des technologies de l’information et de la communication a modifié en profondeur la manière dont nous avons accès aux connaissances.

Face à l’afflux de données et à leur diversité, il est nécessaire de mettre au point des technologies performantes et robustes pour y rechercher des informations. Les entités nommées (personnes, lieux, organisations, dates, expressions numériques, marques, fonctions, etc.) sont sollicitées afin de catégoriser, indexer ou, plus généralement, manipuler des contenus. Notre travail porte sur leur reconnaissance et leur annotation au sein de transcriptions d’émissions radiodiffusées ou télévisuelles, dans le cadre des campagnes d’évaluation Ester2 et Etape.

En première partie, nous abordons la problématique de la reconnaissance automatique des entités nommées. Nous y décrivons les analyses généralementconduites pour traiter le langage naturel, discutons diverses considérations à propos des entités nommées (rétrospective des notions couvertes, typologies, évaluation et annotation) et faisons un état de l’art des approches automatiques pour les reconnaître. A travers la caractérisation de leur nature linguistique et l’interprétation de l’annotation comme structuration locale, nous proposons une approche par instructions, fondée sur les marqueurs (balises) d’annotation, dont l’originalité consiste à considérer ces éléments isolément (début ou fin d’une annotation).

En seconde partie, nous faisons état des travaux en fouille de données dont nous nous inspirons et présentons un cadre formel pour explorer les données. Les énoncés sont représentés comme séquences d’items enrichies (morpho-syntaxe, lexiques), tout en préservant les ambigüités à ce stade. Nous proposons une formulation alternative par segments, qui permet de limiter la combinatoire lors de l’exploration. Les motifs corrélés à un ou plusieurs marqueurs d’annotation sont extraits comme règles d’annotation. Celles-ci peuvent alors être utilisées par des modèles afin d’annoter des textes.

La dernière partie décrit le cadre expérimental, quelques spécificités de l’implémentation du système (mXS) et les résultats obtenus. Nous montrons l’intérêt d’extraire largement les règles d’annotation, même celles qui présentent une moindre confiance. Nous expérimentons les motifs de segments, qui donnent de bonnes performances lorsqu’il s’agit de structurer les données en profondeur. Plus généralement, nous fournissons des résultats chiffrés relatifs aux performances du système à divers point de vue et dans diverses configurations. Ils montrent que l’approche que nous proposons est compétitive et qu’elle ouvre des perspectives dans le cadre de l’observation des langues naturelles et de l’annotation automatique à l’aide de techniques de fouille de données.

Mots-clés

Traitement automatique des langues, fouille de données, entités nommées, règles d’annotation.

Abstract

Those latest decades, the development of information and communication technologies has substantially modified the way we access knowledge. Facing the volume and the diversity of data streams, working out robust and efficient technologies to retrieve information becomes a necessity. In this context, Named Entities (persons, locations, organizations, numerical expressions, brands, functions, etc.) may be required in order to categorize, index or, more generaly, manipulate contents. Our work focuses on their recognition and annotation inside radio and TV broadcasts transcripts, in the context of Ester2 and Etape evaluation campaigns.

In the first part, we introduce our problematic, the automatic recognition of named entities. We describe the commonly conducted analysis to process natural language, question the linguistic properties of named entities (related notions, typologies, evaluation and annotation) and describe state-of-the-art approaches. From their linguistic nature and by interpreting annotation as a local structuring, we propose an instructiondriven approach, based on annotation markers (tags), which originality consists in considering those elements in isolation.

In the second part, we present the formalism used to explore data and introduce our formal framework. Sentences are represented as sequences of enriched items (morpho-syntax, lexicon) that preserve ambiguity. We also propose an alternative representation by segments that allows to limit combinatorial search. Patterns correlated to annotation markers are extracted as annotation rules. Those may be used by models so as to actually annotate texts.

The last part presents the experimental framework, the implemented system (mXS) and the obtained results. We show the interrest of widely extracting annotation rules, even those of low confidence. We experiment segment patterns, that give interresting performances for deeply structured data. More generaly, we give results relative to performances of the system from diverse points of view and in diverse configurations. They show that the proposed approach is competitive and that it opens up perspectives for natural language observation and automatic annotation using data mining.

Keywords

Natural Language Processing, Named Entities, Data Mining, Annotation Rules.