Projet ANR Talad
Analysis and automatic processing of discourse

Laboratoire d'informatique fondamentale et appliquée de l'université de Tours Laboratoire Agora de l'université de Cergy Praxiling UMR 5267 CNRS — Université Paul-Valéry — Montpellier 3 Laboratoire Ertim de l'Inalco Entreprise Reticular project

Abstract

The aim of this project is to investigate how Natural Language Processing can help DA (Discourse Analysis) to go further in its explorations, to test its theoretical groundings and to strengthen its methodological tools. Its objective is to adapt NLP techniques (named entities recognition, coreference resolution) to provide DA with more complex sets of descriptors, relating to different levels of linguistic and discursive organization. In return, DA will offer a range of complex phenomena to challenge the latest advances in NLP.

The project focusses on the issue of "nomination", which concerns in particular people, places, events, in other words structuring entities of the public space. Nomination is often used in the public sphere as a tool for recategorization. Depending on the enunciative position of the speakers, it contributes building referents, "colouring" the perception of them, or even building associations (which may tend to amalgamate) that impact public debates. This has been particularly prominent in recent political and media productions, particularly around the terms migrants/ immigrants/ refugees/ asylum seekers/ candidates for asylum. A large-scale corpus analysis will make it possible to observe the circulation of nominations and to observe how they evolve, or switch. The project thus involves theoretical and scientific, but also societal and political issues.

The proposal of an annotation scheme for discourse analysis and the free distribution of an annotated corpus will meet a crucial need for the DA community. This corpus will also be the point of interaction between the AD and NLP communities.

Within the framework of this project, the LIFAT laboratory will work more particularly on the creation of a co-reference resolution system whose objective is to propose to the speech analysts candidates for nominations. This system will be trained on the annotated corpus created as part of the project.

Résumé du projet

Ce projet a pour ambition de montrer comment le TALN permet à l’AD (Analyse du Discours) d'aller plus loin dans ses explorations, d’éprouver son appareil théorique et de renforcer son outillage méthodologique. Son objectif est d’adapter des techniques issues du TAL pour fournir à l’AD des jeux de descripteurs plus complexes, relatifs à différents niveaux d’organisation linguistique et discursive, ainsi que des outils permettant de les composer dans des chaînes de traitement, en fonction des finalités recherchées. En retour, l’AD offrira un éventail de phénomènes complexes à étudier qui seront autant de défis à soumettre aux dernières avancées en TAL.

Cet impact sera évalué sur la problématique de la nomination, qui concerne notamment des personnes, lieux, événements, autrement dit des entités structurantes de l’espace public. La nomination est souvent, dans la sphère publique, utilisée comme outil de recatégorisation. En fonction des positions énonciatives, elle contribue à construire des référents, « colorer » la perception qui en est donnée, voire construire des associations (pouvant tendre à l'amalgame) qui impactent le débat. Ceci a particulièrement été saillant dans les récentes productions, politiques et médiatiques, notamment autour des termes migrants/ immigrants/ réfugiés/ demandeurs d’asile/ candidats à l'asile . Un traitement d’envergure, sur corpus, permettra d’observer la circulation des nominations, et d’observer comment les axiologies viennent aux nominations, comment elles évoluent, ou basculent. Le projet comporte ainsi des enjeux théoriques et scientifiques, mais aussi sociétaux et politiques.

Par ailleurs, la transposition des enjeux de la nomination en AD pour le TAL s’accompagnera de la production d’une ontologie des concepts de l’analyse du discours. La proposition d’un schéma d’annotation défini sur cette base conduira à la distribution de l’ontologie et d'un corpus annoté, ce qui répondra à un besoin pour la communauté en AD. Ce corpus sera également le point d’interaction entre les communautés de l’AD et du TAL.

Dans le cadre de ce projet, le laboratoire LIFAT travaillera plus particulièrement à la réalisation d'un système de résolution des coréférences dont l'objectif sera de proposer à l'analyste du discours des candidats nominations à partir de termes fournis en entrée. Ce système sera entraîné sur le corpus annoté créé dans le cadre du projet.

L'action se réalisera du 1er octobre 2017 au 30 septembre 2021.

Partenaires du projet