![]() |
Cette mise à disposition de CasEN sur la plateforme Unitex a été réalisée dans le cadre du projet ANR Variling et du projet FEDER Région Centre Entités nommées et nommables.
La reconnaissance des entités nommées par la cascade CasEN utilise des ressources lexicales et des descriptions locales de motifs, des transducteurs qui agissent sur le texte par des insertions, remplacements ou suppressions. La plateforme Unitex permet une écriture et une maintenance faciles de ces transducteurs en les présentant à l'utilisateur sous forme de graphes. Le principe d'une cascade est de pouvoir utiliser dans les descriptions suivantes les motifs déjà détectés ou, au contraire, d'éviter un étiquetage non souhaité pour un motif déjà reconnu. L'ordre de passage de ces transducteurs est donc un paramètre important.
Les graphes font éventuellement appel à des sous-graphes qui sont :
Les graphes de normalisation des sigles, qui sont les deux premiers graphes passés, utilisent déjà la cascade. Nous présentons d'autres exemples ci-dessous.
Mais, tout d'abord, donnons un exemple simple de balisage : la phrase :
Vers le sud, une jetée longue de deux mille mètres s'allongeait comme un bras sur la rade de Suez.
extraite du corpus distribué par Unitex (Le tour du monde en 80 jours, de Jules Verne) va être transformée par le graphe des longueurs en :
Vers le sud, une jetée longue de {deux mille mètres,.entity+amount+phy+length+grfamountEspace} s'allongeait comme un bras sur la rade de Suez.
ce qui, d'une part, étiquette la séquence deux mille mètres comme une longueur et, d'autre part, la fige en une expression polylexicale. Ce balisage peut ensuite être recherché dans Unitex par des masques plus ou moins spécifiques, de entity à length. Pour faciliter le débogage, nous ajoutons au balisage le nom du graphe qui l'a inséré (ici grfamountEspace).
La cascade elle-même est constituée à partir des îlots de certitude qu'il est possible de trouver... Par exemple, la phrase Il est arrivé le 29 février de l'année 2008. peut être reconnue par plusieurs graphes. Par exemple :
Il faut obligatoirement passer ces trois graphes dans l'ordre timeDateAbsolue, timeAnneesSiecle et timeDateRelative.
Parfois, il ne s'agit pas de concurrence, mais de complément. L'exemple le plus simple est sans doute le graphe des adresses postales qui contient des masques de personne (pour reconnaître rue du Général Leclerc) et de date (pour rue du 11 novembre 1918) : les graphes des dates et ceux des personnes sont donc placés avant le graphe des adresses. De nombreuses organisations comportent aussi des étiquettes de type personne, comme le Centre Georges Pompidou ou l'hôpital Henri Mondor. Ces organisations seront donc reconnues après les graphes de personnes. Ainsi, nous constatons que l'ordre des graphes est capital, mais non trivial.
Donnons quelques autres exemples de reconnaissance:
« Au pire de la crise, {à l'automne dernier,.entity+time+date+rel+grftimeDateRelative}, nous avons détenu jusqu’à 20 % de liquidités dans notre portefeuille », indique {{{ Denis,.N+Prénom} { Remacle,.N+nom},.entity+pers+hum}, {gérant d'{Amplitude Pacifique,.entity+org+com} ,.entity+job} ,.entity+pers+hum+grfpersPrenomNom}, une sicav de {La Poste,.entity+org+com+grforgDico}.
« C'est à nos clients de décider s'ils souhaitent ou non consacrer une partie de leur patrimoine à l'{Asie,.entity+loc+admi+grflocPays} » , souligne {{Pierre,.N+Prénom} {Ciret,.N+nom},.entity+pers+hum+grfpersPrenomNom}, de la {Compagnie financière {{Edmond,.N+Prénom} {de Rothschild,.N+nom} ,.entity+pers+hum} ,.entity+org+com+grforgCommerceGauche}.
Ils ne peuvent pas, en revanche, faire l'impasse sur la {Bourse de {Hongkong , .entity+loc+admi},.entity+org+com+grforgCommerceGauche}, car cette place représente près de la moitié de la capitalisation boursière de la région.{S} Pour sa part, {{ Pierre-Alexis,.N+Prénom} { Dumont,.N+nom},.entity+pers+hum+grfpersPrenomNom}, de {State Street Banque,.entity+org+com+grforgCommerceDroite}, s'est réfugié sur le marché australien, relativement épargné par la tourmente.
{Théâtre Gérard-Philipe,.entity+org+div+grforgDivertissementSorties}, {59, {boulevard Jules-Guesde,.entity+loc+line}, 93000 {Saint-Denis,.entity+loc+ville},.entity+loc+addr+post+grflocAddr}.
Selon une étude de l'{Autorité de régulation des télécommunications,.entity+org+grforgDivers} ({ART,.entity+org+ grforgOrgSuiviDeParentheses}), le taux d'équipement devrait dépasser les 50 % {en 2002,.entity+time+date+abs+grftimeAnneeSiecle}.
La version ci-dessous est une version bêta pour quelques semaines encore. CasEN a été développée et modifiée par plusieurs personnes avant et pendant l'implantation de CasSys sur la plateforme Unitex. Pour sa diffusion, il a été nécessaire de reprendre l'ensemble des graphes en expurgeant quelques doublons ou incohérences et, surtout, en lui donnant une présentation standardisée (comme indiqué ci-dessus) afin d'être compréhensible, exploitable et modifiable par l'utilisateur. Nous en avons aussi profité pour ajouter des graphes utilisant les nouvelles fonctions morphologiques proposées par Unitex. Ce travail a été plus important que prévu et la version ci-dessous peut encore comporter quelques bogues. Nous comptons sur les retours de la part des premiers utilisateurs et... sur leur indulgence ! La version 1 sera disponible dès que possible.
Remarque : Les dictionnaires ont été modifiés. Quelques améliorations ont été apportées au programme de cascade (correction d'une bogue sur l'affichage des concordances), il est donc recommandé de mettre à jour Unitex.
Le téléchargement ci-dessous contient :
Si vous décompressez le fichier dans le répertoire French, les fichiers se placeront au bon endroit.
Comme tous les programmes intégrés à la plateforme Unitex, avant de lancer la cascade il faut obligatoirement accepter le preprocessing et ensuite appliquer les dictionnaires par défaut en même temps que les trois dictionnaires de la cascade.
Pour télécharger CasEN, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.
Cliquez ici : Télécharger CasEN 0.6 (version du 8 février 2012).
Pour nous citer :
Friburger N., Maurel D. (2004), Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, vol. 313, 94-104.
Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011), Cascades autour de la reconnaissance des entités nommées, TAL 52-1.