Participation à l'équipement d’excellence Istex
Reconnaissance et balisage des entités nommées dans des textes scientifiques

Laboratoire d'informatique de l'Université François-Rabelais de Tours Investissements d’avenir Projet Istex

Résumé du projet

Ce projet est financé par le projet Istex (Initiative d’excellence en Information scientifique et technique), un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est d'offrir tous les moyens accessibles de consultation et d’analyse aujourd’hui disponibles dans toutes les communautés de la Science.

Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre des projet ANR Variling, FEDER Région Centre Entités nommées et nommables et Ortolang. Cette cascade est disponible sur ce site (ci-dessous) sous licence libre LGPL-LR.

Les projets Ortolang et Istex, ont permis la réalisation d'une cascade pour le français dont les étiquettes sont basées sur la TEI. Mais ce projet porte aussi (et essentiellement) sur des textes rédigés en anglais, ce qui a donné lieu à la création d'une nouvelle cascade destinée à ce corpus et appelée sans doute à s'étendre par la suite sur d'autres corpus anglophones.

L'action s'est réalisée du 15 septembre 2014 au 31 décembre 2017.

Les résultats sont disponibles sur le site Istex.

Les étiquettes insérées

Les étiquettes insérées par la version Istex de CasEN sont extraites de la Text Encoding Initiative (TEI). Elles sont au nombre de dix. En voici la liste :

Évaluation

La cascade pour les textes en anglais a été évaluée fin 2015 sur 49 documents contenant 5 414 entités nommées. Celle pour les textes en français a été évaluée fin 2017 sur 34 documents contenant 2 973 entités nommées.

Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :

Nous comptons de plus :

 
#I
#D
#T
#E
#TE
#S
#R
eng
191
437
89
68
48
2 349
2 595
fra
305
555
26
113
106
2 167
2 973

Ce décompte nous permet de calculer le taux d'erreur SER, le rappel et la précision, ainsi que la précision du typage et celle du balisage. Nous attribuons 1 point par erreur I, D ou TE et 0,5 point par erreur T ou E.

   
eng
fra
SER
(I+D+0,5T+0,5E+TE)/R
38,6% 34,8%
Rappel
(S-I)/R
55,7% 62,6%
Précision
(S-I)/S
91,5% 85,9%
Précision du typage
(S-I-T-TE)/S
85,6% 79,8%
Précision du balisage
(S-I-E-TE)/S
79,5% 75,8%

CasEN, version Istex

La cascade CasEN en anglais et le guide d'annotation sont disponibles ici.

Pour la cascade en français, il faut télécharger la version TEI de CasEN et la compléter par de nouvelles cascades, disponibles aussi ici.

Attention : la version Istex obéit au guide et reconnaît de ce fait beaucoup moins d'entités nommées que la version TEI, qui est actuellement la version complète.

Partenaires du projet