Thèse de Nathalie FRIBURGER

Référence

Friburger Nathalie (2002). Reconnaissance automatique des noms propres ; application à la classification automatique de textes journalistiques. Thèse de doctorat d'informatique, Université François Rabelais Tours.

Jury : M. El-Beze, A. Giacometti, F. Guenthner, D. Maurel, M. Noally, M. Silberztein.

Cette thèse a été financée par le Conseil régional de la Région Centre.

Télécharger la thèse / To download the thesis

Résumé

La quantité d’information disponible sur Internet ou sur support informatique est de plus en plus abondante.
Dans les textes journalistiques, les noms propres représentent 10% des mots ; ils sont très importants pour une compréhension précise des textes, mais ils sont actuellement très peu représentés dans les ressources lexicales disponibles.

Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation et s’intègre dans le projet Prolex de traitement automatique des noms propres.

Nous avons implanté un système, nommé CasSys, qui permet l'utilisation de cascade de transducteurs à l'aide des fonctionnalités et des ressources du logiciel Intex.
CasSys permet, par exemple, l'analyse syntaxique d'un texte ou l'extraction d'information.
Le formalisme des transducteurs est particulièrement intéressant pour la description des noms propres. Le principe de la cascade permet de gérer les phénomènes d’ambiguïtés, de segmentation et de catégorisation des noms propres.

Par cette méthode, nous avons obtenu une précision de 94% avec un rappel de plus de 93%.

À titre d'application, nous avons testé l’utilisation des noms propres dans la classification automatique de textes journalistiques : l'information dont ils sont porteurs les rend particulièrement intéressants pour obtenir une classification de qualité.
Nous avons testé différentes mesures de similarité, basées sur les noms propres, en les évaluant à travers une classification hiérarchique.

Mots-clés

Extraction d'information, entités nommées, TAL, classification non supervisée.

Abstract

The quantity of available information on the Internet or on electronic support is more and more important.
In the journalistic texts, proper names represent 10% of the words; they are very important for a precise understanding of the texts, but they are rarely presented in the available lexical resources.

The work realized here tries to automate their extraction and their categorization and will be integrated to the project Prolex of automatic process of the proper nouns.

We have created a system, named CasSys that allows the use of transducer cascades by means of the features and the resources of the software Intex.
CasSys allows, for example, the syntactic analysis or information extraction on a text.
The formalism of transducers is particularly interesting for the description of the proper nouns.

The principle of the cascade allows to manage the phenomena of ambiguities, segmentation and categorization of the proper nouns.

By this method, we obtained a precision of 94 % with a recall of more than 93 %.

As an application, we tested the use of the proper names in the clustering of journalistic texts: the information they carry makes them particularly interesting to obtain a clustering of quality.
We tested various measures of similarity, based on the proper names, by estimating them through a hierarchical clustering.

Keywords

Information Extraction, named entities, NLP, clustering.