Cascade de transducteur CasEN
pour la reconnaissance des entités nommées

Laboratoire d'informatique de l'Université François-Rabelais de Tours

English version

Présentation de CasEN

Cette mise à disposition de CasEN sur la plateforme Unitex a été réalisée dans le cadre des projet ANR Variling, FEDER Région Centre Entités nommées et nommables, Ortolang et Istex.

La reconnaissance des entités nommées par la cascade CasEN utilise des ressources lexicales et des descriptions locales de motifs, des transducteurs qui agissent sur le texte par des insertions, remplacements ou suppressions. Ces actions peuvent éventuellement être itératives. Elles peuvent aussi se faire "à la volée" sur un texte particulier en fonction des résultats des transducteurs précédents. La plateforme Unitex permet une écriture et une maintenance faciles de ces transducteurs en les présentant à l'utilisateur sous forme de graphes. Le principe d'une cascade est de pouvoir utiliser dans les descriptions suivantes les motifs déjà détectés ou, au contraire, d'éviter un étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage de ces transducteurs est donc un paramètre important.

Les graphes font éventuellement appel à des sous-graphes qui sont :

Des graphes peuvent être construits automatiquement pour le texte étudié à partir de graphes génériques. Ces graphes permettent, par exemple, de retrouver une entité non introduite par le context, si cette même entité a été repérée ailleurs dans le texte par un des graphes précédents.

Un exemple de balisage avec CasEN

La phrase :

Vers le sud, une jetée longue de deux mille mètres s'allongeait comme un bras sur la rade de Suez.

extraite du corpus distribué par Unitex (Le tour du monde en 80 jours, de Jules Verne) va être transformée successivement par :

pour donner (fichier 80jours_snt.raw) :

Vers le sud, une jetée longue de {\{\{deux mille\,\.nombre\+2000a2099\+1000a9999\+1a9999\+lettre\+grftagNombreLettres\}\,\.val\} \{mètres\,\.unit\},.entity+amount+casen_length+grfamountLongueur} s'allongeait comme un bras sur la {\{rade\,\.kind\} de \{\{Suez\,\.entity\+loc\+adm\+town\+grftagNToponyme\}\,\.name\},.entity+loc+phys+hydro+grflocGeographiePhysiqueDico}.

Ce format permet l'affichage de la concordance, mais n'est guère lisible, humainement parlant. Pour cela, un autre fichier résultat est disponible dans un format XML-CasSys (fichier 80jours_snt.txt). Cet exemple est alors, aux sauts de ligne près :

Vers le sud, une jetée longue de
<csc>
   <form>
     <csc>
       <form>
         <csc>
           <form>deux mille</form>
           <code>nombre</code>
           <code>2000a2099</code>
           <code>1000a9999</code>
           <code>1a9999</code>
           <code>lettre</code>
           <code>grftagNombreLettres</code>
         </csc>
       </form>
       <code>val</code>
     </csc>
     <csc>
       <form>mètres</form>
       <code>unit</code>
     </csc>
   </form>
   <code>entity</code>
   <code>amount</code>
   <code>casen_length</code>
   <code>grfamountLongueur</code>
</csc>
s'allongeait comme un bras sur la
<csc>
   <form>
     <csc>
       <form>rade</form>
       <code>kind</code>
     </csc>
     de
     <csc>
       <form>
         <csc>
           <form>Suez</form>
           <code>entity</code>
           <code>loc</code>
           <code>adm</code>
           <code>town</code>
           <code>grftagNToponyme</code>
         </csc>
       </form>
       <code>name</code>
     </csc>
   </form>
   <code>entity</code>
   <code>loc</code>
   <code>phys</code>
   <code>hydro</code>
   <code>grflocGeographiePhysiqueDico</code>
</csc>.

Une séquence reconnue est, d'une part, étiquetée et, d'autre part, figée en une expression polylexicale. Ce balisage peut ensuite être recherché dans Unitex par des masques plus ou moins spécifiques. Par exemple, à partir du dernier graphe ci-dessus, <entity>, <loc>, <phys> ou <hydro>. Pour faciliter le débogage, nous ajoutons au balisage le nom du graphe qui l'a inséré, préfixé par grf, soit ici grflocGeographiePhysiqueDico.

Si la sortie XML-CasSys ne correspond pas au balisage souhaité (ce qui est le cas en général), le fichier _csc.txt peut être ouvert sous Unitex pour le passage d'une deuxième cascade. Ainsi, CasEN est en fait composé de deux cascades, une cascade d'analyse et une cascade de synthèse. Pour notre exemple, et pour la synthèse version Quaero, le résultat de cette deuxième cascade est :

Vers le sud, une jetée longue de <amount><val>deux mille</val> <unit>mètres</unit></amount> s'allongeait comme un bras sur la <loc.phys.hydro><kind>rade</kind> de <name><loc.adm.town>Suez</loc></name></loc>.

Remarquons qu'en suivant non plus le guide Quaero, mais le guide Istex, le même exemple deviendrait en changeant seulement la cascade de synthèse :

Vers le sud, une jetée longue de deux mille mètres s'allongeait comme un bras sur la <geogName>rade de Suez</geogName>.

L'ordre des graphes

La cascade elle-même est constituée à partir des îlots de certitude qu'il est possible de trouver... Par exemple, la phrase :

Il est arrivé le 29 février de l'année 2008.

peut être analysée par plusieurs graphes de CasEN :

Il faut obligatoirement passer graphe timeDateCalendaireAbsolueAnnee avant les deux autres.

Parfois, il ne s'agit pas de concurrence, mais de complément. L'exemple le plus simple est sans doute le graphe des adresses postales qui contient des masques de personne (pour reconnaître rue du Général Leclerc) et de date (pour rue du 11 novembre 1918) : les graphes des dates et ceux des personnes sont donc placés avant le graphe des adresses. De nombreuses organisations comportent aussi des étiquettes de type personne, comme le Centre Georges Pompidou ou l'hôpital Henri Mondor. Ces organisations seront donc reconnues après les graphes de personnes. Ainsi, nous constatons que l'ordre des graphes est capital, mais non trivial.

CasEN, version Ester

La version Ester de CasEN, présentée sur la page du projet FEDER Région Centre Entités nommées et nommables, n'est plus disponible sur cette page. Cette cascade n'est plus maintenue, suite à la création d'une nouvelle cascade pour la campagne Etape. Elle peut éventuellement nous être demandée.

CasEN, version Quaero

Les étiquettes insérées par la cascade d'analyse de CasEN sont celles définies dans la cadre du projet Quaero et évaluées dans la campagne ETAPE. Ces étiquettes sont décrites dans le rapport Entitées nommées structurées : guide d’annotation Quaero, rédigé par Sophie Rosset, Cyril Grouin et Pierre Zweigenbaum.

CasEN a été classé premier sur la tâche de reconnaissance des entités nommées dans des textes transcrits manuellement.

La cascade d'analyse de CasEN a été complétée, dans le cadre du projet Ortolang et du projet Istex par deux cascades de synthèse supplémentaires :

La liste des étiquettes et l'évaluation après le passage de la deuxième de cascade de synthèse sont présentées sur la page du projet Ortolang. Dans le cadre du projet Istex, un guide d'annotation a été réalisé et est disponible ci-dessous ; une évaluation est en cours et sera disponible bientôt sur la page du projet.

Contrairement à la version Ester, la version Quaero est maintenue. Toute question, remarque ou signalement de bogue peut être envoyé à casen Arobase univ-tours Point fr.

CasEN, version Istex

Dans le cadre du projet Istex, la version Quaero de CasEN est complétée pour le français par une reconnaissance des entités nommées dans des textes scientifiques (comme expliqué ci-dessus). Mais ce projet porte aussi (et essentiellement) sur des textes rédigés en anglais, ce qui a donné lieu à la création d'une nouvelle cascade destinée à ce corpus et appelée sans doute à s'étendre par la suite sur d'autres corpus anglophones.

Les annotations de la cascade d'analyse sont empruntées à la TEI et la cascade de synthèse suit le guide d'annotation Istex. Ces deux cascades sont disponibles ci-dessous. Son évaluation, réalisée en parallèlle à celle de la version française sera bientôt disponible.

Attention : la version Istex obéit au guide et reconnaît de ce fait beaucoup moins d'entités nommées que la version Quaero, qui est actuellement la version complète. En fait, la cascade d'analyse est la même, ce sont les cascades de synthèse qui diffèrent. Nous pouvons d'ailleurs vous aider à concevoir une cascade de synthèse personalisée qui correspond à vos attentes en terme d'annotation.

Téléchargement de CasEN

Il est recommandé de mettre à jour Unitex. Il faut obligatoirement travailler au minimum avec la version stable 3.1. Attention, Les téléchargements dépendent de votre système (Windows versus Mac/Unix). Si vous décompressez le fichier dans votre répertoire personnel Unitex, les fichiers se placeront au bon endroit. Nous ajoutons au téléchargement un fichier de normalisation et deux fichiers d'alphabet étendus aux différents alphabets latins.

Avant de débuter la cascade, il faut refuser le preprocessing et appliquer (Text\Apply lexical resources) en même temps les dictionnaires par défaut, le dictionnaire Prolex-Unitex et les dictionnaires de la cascade.

Pour télécharger CasEN, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.

Version Quaero (pour le français)

Pour éviter les confusions, nous ne plaçons ci-dessous que la version Quaero (pour le français) afin d'obtenir une reconnaissance complète des entités nommées du texte. Les deux cascades de synthèse spécifiques aux projet Ortolang et Istex sont disponibles dans une autre archive plus bas.

Le téléchargement ci-dessous contient :

Cliquez ici : Télécharger CasEN_Quaero_fr.0.9 pour Windows (version du 25 août 2016).

Cliquez ici : Télécharger CasEN_Quaero_fr.0.9 pour Mac/Unix (version du 25 août 2016).

Versions Ortolang et Istex (pour le français)

Le téléchargement ci-dessous vient en complément du précédent et ne contient que deux fichiers cascade :

Cliquez ici : Télécharger CasEN_Istex_syntheses.0.9 pour Windows (version du 25 août 2016).

Cliquez ici : Télécharger CasEN_Istex_syntheses.0.9 pour Mac/Unix (version du 25 août 2016).

Version Istex (pour l'anglais)

Le téléchargement ci-dessous contient :

Cliquez ici : Télécharger CasEN_Istex_en.0.1.2 pour Windows (version du 29 avril 2016).

Cliquez ici : Télécharger CasEN_Istex_en.0.1.2 pour Mac/Unix (version du 29 avril 2016).

Guide d'annotation en entités nommées du projet Istex

Le fichier PDF ci-dessous est disponible sous la licence Creative Commons CC-BY.

Licence CC-BY

Cliquez ici : Télécharger le guide d'annotation Istex au format PDF (version du 29 avril 2016).

Tutoriels

Des tutoriels pour la prise en main d'Unitex et de CasSys sont disponibles sur ce site.

Pour nous citer

Friburger N., Maurel D. (2004), Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, vol. 313, 94-104.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011), Cascades autour de la reconnaissance des entités nommées, TAL 52-1.

Pour nous contacter

Toute question, remarque ou signalement de bogue peut être envoyé à casen Arobase univ-tours Point fr.