Thèse de Mouna ELASHTER

Référence

Elashter M. (2017). Gestion et extension automatiques du dictionnaire relationnel multilingues de noms propres Prolexbase. Mise à jour multilingues et création d'un volume arabe via la Wikipedia. Thèse de doctorat d'informatique, Université François-Rabelais de Tours.

Jury : B. Daille, K. Haddar, B. Markhoff, D. Maurel.

Télécharger la thèse / To download the thesis

Résumé

Les bases de données lexicales jouent un rôle important dans plusieurs domaines du traitement automatique des langues (TAL), comme l’extraction d'information, la reconnaissance d’entités nommées et la traduction automatique des noms propres. Toutefois, elles nécessitent un développement et un enrichissement permanents via l’exploitation des ressources libres et riches en textes du web sémantique, entre autres, l’encyclopédie universelle Wikipédia, DBpedia, Geonames et Yago2.

Le dictionnaire électronique relationnel multilingue de noms propres, Prolexbase, issu de nombreux travaux de recherche sur le TAL, comporte à ce jour dix langues, parmi lesquelles trois sont bien couvertes : le français, l’anglais et le polonais. Il a été conçu manuellement et une première tentative semi-automatique a été réalisée par le projet ProlexFeeder. Notre travail avait pour objectif d’élaborer un outil de mise à jour et d’extension automatiques de ce lexique, et l'ajout de la langue arabe. Tout d’abord, une mise à jour multilingue de la base de données a été effectuée grâce à l’établissement d’un système automatique de consolidation des liens Wikipédia dans Prolexbase en nous servant du concept interlangue de Wikipédia. En conséquence, un nombre considérable de nouveaux liens Wikipédia a été ajouté dans toutes les langues constituant la base de données, et cet ajout a été précédé, le cas échéant, d’un traitement des redirections.

Un système entièrement automatique a également été mis en place qui permet de calculer, via l'encyclopédie Wikipédia, un indice de notoriété pour les entrées de Prolexbase ; cet indice dépend de la langue et participe, d'une part, à la construction d'un module de Prolexbase pour la langue arabe et, d'autre part, à la révision de la notoriété actuellement présente pour les autres langues de la base. Pour calculer la notoriété, une technique multicritères de l’aide à la décision a été utilisée : la méthode SAW incluant le calcul de l’entropie de Shannon, à partir de cinq valeurs numériques déduites de l'encyclopédie Wikipédia.

Finalement, l’utilisation des liens Wikipédia a été l’instrument fondamental pour la création d’un volume arabe dans Prolexbase par un processus d’extraction de noms propres arabes depuis leurs liens Wikipédia obtenus précédemment.

Mots Clés

Nom propre, Prolexbase, Bases lexicales multilingues, Notoriété, Langue arabe, Wikipédia.

Abstract

Lexical databases play a significant role in natural language processing (NLP), such as information retrieval, recognition of named entities, and automatic translation of proper names. However, they require permanent development and enrichment through the exploitation of free resources rich in texts from the semantic web, among others, the universal encyclopedia Wikipedia, DBpedia, Geonames and Yago2.

In particular, the multilingual relational electronic dictionary of proper names, Prolexbase, which issued of numerous studies on NLP, has ten languages, three of which are well covered: French, English and Polish. It was manually designed; the first semi-automatic attempt was made by the ProlexFeeder project. The objective of our work was to create an automatic updating and extension tool for this lexicon. First, a multilingual update of the database was carried out by establishing an automatic system for consolidating Wikipedia links in Prolexbase using the interlanguage concept of Wikipedia. As a result, a considerable number of new Wikipedia links have been added in all the languages constructed the database, preceded by redirection processing if needed.

In addition, a fully automatic system has been implemented to calculate, via Wikipedia, the notoriety of the entries of Prolexbase. This notoriety is language dependent, is the first step in the construction of an Arabic module of Prolexbase, and it takes a part in the notoriety revision currently present for the other languages in the database. To calculate the notoriety, we present a multi criteria technique, the method SAW (preceded by the calculation of Shannon entropy), starting from five numerical values deduced from Wikipedia.

Finally, the use of Wikipedia links was the fundamental instrument for creating an Arabic volume in Prolexbase by a process of extracting Arabic proper names from their previous Wikipedia links.

Keywords

Proper noun, Prolexbase, Multilingual lexical databases, Notoriety, Arabic language, Wikipedia.