FEDER : Fonds Européen de Développement Régional
Entités nommées et nommables

Laboratoire d'informatique de l'Université François-Rabelais de Tours L’Europe s’engage en Région Centre Région Centre Union européenne

Documents

Maurel D., Friburger N., Eskhol I., Antoine J.-Y. (2009) Explorer des corpus à l’aide de CasSys : application au corpus d’Orléans, LingCorp’2009, Lorient.

Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.

Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.

Résumé du projet

Objectifs poursuivis : La reconnaissance des entités nommées et nommantes est essentielle à la recherche d'information et à la veille technologique. Il s'agit de pouvoir suivre une entité (personne, évènement, lieu, organisation, entreprise…) et de retrouver l'information la concernant. Les applications futures sont des plus importantes, étant donné le développement exponentiel de l'information textuelle, en particulier par le biais d'internet, mais aussi de l'information médiatique (radio et télévision) transcrite à l'aide d'outils automatiques.

Résultats attendus : Le but de ce projet est la détection des entités nommées et nommantes dans deux types de corpus oraux, un corpus transcrit manuellement et un autre transcrit automatiquement. Il s'agit aussi de comparer les résultats obtenus à ceux des équipes de recherche concurrentes par la participation à la campagne d'évaluation ESTER, organisée par la DGA. Le travail sera ensuite poursuivi sur des corpus écrits du journal Le Monde.

Principaux points prévus :

L'action s'est réalisée du 1er octobre 2009 au 31 décembre 2010.

La cascade CasEN réalisée pour la campage Ester

Les étiquettes insérées par la version Ester de CasEN sont inspirée de celles proposées dans la campagne ESTER 2, sans être parfaitement identiques à celles-ci. En voici la liste :

personne (pers) humain réel ou fictif (pers.hum)
animal réel ou fictif (pers.anim)
civilité (pers.hum.title)
titre professionnel (pers+hum+fonc)
adjectif ethnique (pers+hum+ethnic)
gentilés et adjectifs toponymiques (pers+hum+gent)
nationalité (pers+hum+nat)
dynastie (pers+hum+dyn)
fonction (fonc) politique (fonc.pol)
militaire (fonc.mil)
administrative (fonc.admi)
religieuse (fonc.rel)
aristocratique (fonc.ari)
 
organisation (org) politique (org.pol)
éducative (org.edu)
commerciale (org.com)
non commerciale (org.non-profit)
de divertissement et média (org.div)
géo-socio-politique (org.gsp)
 
lieu (loc) géographique naturel (loc.geo)
axe de circulation (loc.line)
construction humaine (loc.fac)
 
région administrative (loc.admi) ville (loc.admi.ville)
adresse (loc.addr) adresse postale (loc.addr.post)
téléphone et fax (loc.addr.tel)
adresse électronique (loc.addr.elec)
production humaine (prod) produit (prod.obj)
moyen de transport (prod.vehicle)
récompense (prod.award)
œuvre artistique (prod.art)
production documentaire (prod.doc)
 
date et heure (time) date (time.date) date absolue (time.date.abs)
date relative (time.date.rel)
heure (time.hour)
adverbe de date (time.advdate)
 
montant (amount) valeur physique (amount.phy) durée (amount.phy.dur)
température (amount. phy.temp)
longueur (amount. phy.len)
surface et aire (amount.phy.area)
volume (amount.phy.vol)
poids (amount. phy.wei)
vitesse (amount. phy.spd)
âge (amount.phy.age)
autre (amount.phy.other)

valeur monétaire (amount.cur)
octets (amount.computer)
 
évènement (event) histoire (event+hist)
célébration (event+cel)
fête (event+feast)
manifestation (event+manif)
météorologie (event+meteo)
 

D'autre part, nous avons insérés quelques balises spécifiques internes aux entités : N, prenom, nom, job, sigle, timeModifier et nat. Ces balises sont supprimées par la cascade de synthèse.

Exemples de balisage

« Au pire de la crise, <ENT type="time.date.rel">à <ENT type="time.date.rel">l'automne dernier</ENT></ENT>, nous avons détenu jusqu’à 20 % de liquidités dans notre portefeuille », indique <ENT type="pers.hum">Denis Remacle</ENT>, <ENT type="fonc">gérant d'<ENT type="org">Amplitude Pacifique</ENT></ENT>, une sicav de <ENT type="org">La Poste</ENT>.

« C'est à nos clients de décider s'ils souhaitent ou non consacrer une partie de leur patrimoine à l'<ENT type="loc.admi">Asie</ENT> », souligne <ENT type="pers.hum">Pierre Ciret</ENT>, de la <ENT type="org.com">Compagnie financière <ENT type="pers.hum">Edmondde Rothschild</ENT></ENT>.

Ils ne peuvent pas, en revanche, faire l'impasse sur la <ENT type="org.com">Bourse de <ENT type="loc.admi">Hongkong</ENT></ENT>, car cette place représente près de la moitié de la capitalisation boursière de la région. Pour sa part, <ENT type="pers.hum">Pierre-Alexis Dumont</ENT>, de <ENT type="org.com">State Street Banque</ENT>, s'est réfugié sur le marché australien, relativement épargné par la tourmente.

<ENT type="org.div">Théâtre Gérard-Philipe</ENT>, <ENT type="loc.addr.post">59, <ENT type="loc.line">boulevard Jules-Guesde</ENT>, 93000 <ENT type="loc.admi.ville">Saint-Denis</ENT></ENT>.

Selon une étude de l'<ENT type="org">Autorité de régulation des télécommunications</ENT> (<ENT type="org">ART</ENT>), le taux d'équipement devrait dépasser les 50 % <ENT type="time.date.abs">en 2002</ENT>.

Évaluation

Une évaluation a été réalisée sur un extrait du journal Le Monde daté du 1er janvier 1999, 7 articles, soit 7 070 mots pour 83.2 ko. En voici les résultats :

Partenaires du projet