Projet soutenu par la Région Centre
ANCOR
Anaphore et coréférence dans les Corpus Oraux

Laboratoire d'informatique de l'Université François-Rabelais de Tours Laboratoire ligérien de linguistique, université d'Orléans et de Tours Région Centre

Les corpus annotés

Les corpus annotés sont disponibles.

Résumé du projet

Le projet ANCOR a pour objet l'étude de toutes les formes de reprises anaphoriques et de coéréférence dans une optique pluridisciplinaire (traitement automatique, typologie, sémantique) autour de l’étude de la langue orale.

On appelle coréférence, et plus généralement anaphore, la relation entre deux items langagiers telle que l’interprétation de l’un dépend de l’autre. C’est par exemple le cas de l’anaphore pronominale entre Gordon Brown et le pronom il dans l’énoncé «Gordon Brown a quitté hier ses fonctions. Il a déclaré…». Le développement d’outils performants de recherche d’information dans des flux langagiers passe par une modélisation efficace des anaphores.

Le projet ANCOR s’attachera ainsi plus particulièrement à décrire les anaphores nominales, qui ont été peu étudiées sur la parole spontanée. Dans cet objectif, des travaux d'annotations en corpus de la coréférence, de modélisation informatique et d’évaluation seront développés au cours du projet.

Le projet ANCOR vise à rendre compte de l'usage des procédés anaphoriques sur l’oral spontané, en vue de la résolution automatisée de la coréférence et des anaphores. L'objectif est l'amélioration des systèmes de recherche d'information dans le domaine de l'oral. Parmi les cadres applicatifs visés, on trouve le suivi d’entités nommées ou la fouille d’opinion dans les flux de données audio ou vidéo (émissions radio ou télédiffusées).

L’importance de la résolution des anaphores a conduit à l’émergence de travaux qui ont fait l’objet de multiples campagnes d’évaluation internationales (MUC, SemEval). Ces recherches portent toutefois majoritairement sur les documents électroniques, la parole conversationnelle faisant surtout l’objet de travaux sur l’anaphore pronominale.

Ce projet ambitionne au contraire de s’intéresser à toutes les formes de reprises anaphoriques à l’oral, en s’intéressant en particulier à la coréférence nominale. Nous suivrons une méthodologie d’investigation faisant appel à des compétences pluridisciplinaires :

Les corpus oraux recueillis en Région Centre (ESLO…) constitueront notre terrain d'investigation.

L'action s'est réalisée du 1er octobre 2011 au 31 septembre 2013.

Partenaires du projet