Participation à l'équipement d’excellence Ortolang
Découpage en phrase et reconnaissance des entités nommées pour un balisage conforme à la TEI

Laboratoire d'informatique de l'Université François-Rabelais de Tours Investissements d’avenir Projet Ortolang

Résumé du projet

Ce projet a été financé par le projet Ortolang (Outils et Resources pour un Traitement Optimisé de la LANGue), un équipement d’excellence validé dans le cadre des investissements d’avenir. Son but est de proposer une infrastructure en réseau offrant un réservoir de données (corpus, lexiques, dictionnaires, etc.) et d’outils sur la langue et son traitement clairement disponibles et documentés.

Ce projet fait suite à la réalisation d'un système de cascade de transducteurs, le système CasEN, sur la plateforme Unitex, réalisée dans le cadre du projet ANR Variling et du projet FEDER Région Centre Entités nommées et nommables. Cette cascade est disponible sur ce site sous licence libre LGPL-LR.

L'action s'est réalisée du 1er novembre 2013 au 30 avril 2014.

Les étiquettes insérées

Les étiquettes insérées par la version Ortolang de CasEN sont extraites de la Text Encoding Initiative (TEI). Elles sont au nombre de huit. En voici la liste :

Évaluation

L'évaluation a porté sur le texte E161 : 396 ko – 172 894 unités, dont 71 130 séquences de lettres et 2 364 chiffres.

Nous présentons les résultats en utilisant la variante pondérée du slot error rate (SER) (Makhoul et al., 1999) utilisée lors de la campagne Etape. Le principe de base est de fournir un taux d'erreur sur l'ensemble des entités de référence. La base de calcul est donc le nombre d'entités, et non pas le nombre de mots contenus dans les entités de référence. Pour cette variante du slot error rate, on peut distinguer trois types d'erreurs :

Nous comptons de plus :

#I
#D
#T
#E
#TE
#S
#R
191
437
89
68
48
2349
2595

Ce décompte nous permet de calculer le taux d'erreur SER, le rappel et la précision, ainsi que la précision du typage et celle du balisage. Nous attribuons 1 point par erreur I, D ou TE et 0,5 point par erreur T ou E.

SER
(I+D+0,5T+0,5E+TE)/R
29,1%
Rappel
(S-I)/R
83,2%
Précision
(S-I)/S
91,9%
Précision du typage
(S-I-T-TE)/S
86,0%
Précision du balisage
(S-I-E-TE)/S
86,9%

Quelques exemples d'erreurs

1. La présence d'un adjectif n'avait pas été prévue lors du déplacement de la balise placeName par la cascade de synthèse

mon frère et moi avons dévalé les <placeName>pistes enneigées de Verbier</placeName>

Ce qui a été corrigé pour donner :

mon frère et moi avons dévalé les pistes enneigées de <placeName>Verbier</placeName>

2. Un nom sans introducteur ne peut être reconnu que s'il se trouve dans le dictionnaire

qu'à Verbier.

Une solution envisagée serait la construction automatique d'une cascade supplémentaire permettant la reconnaissance de noms introduits précédemment dans le texte pour obtenir :

qu'à <placeName>Verbier</placeName>.

3. Europe avait été placé comme prioritaire dans le dictionnaire (pour éviter l'ambiguïté avec le nom d'un personnage mythologique), mais cela avait comme effet de bloquer la reconnaissance du toponyme polylexical Europe de l'Est

logeaient des réfugiés d'<placeName>Europe</placeName> de l'<placeName>Est</placeName>, il a rencontré

Ce qui a été corrigé pour donner :

logeaient des réfugiés d'<placeName>Europe de l'Est</placeName>, il a rencontré

4. Le prénom Masza était absent dictionnaire et ne pouvait donc servir de preuve interne

Masza Finkielsztein, juive polonaise originaire de <placeName>Varsovie</placeName>

Il a été ajouté :

<persName>Masza Finkielsztein</persName>, juive polonaise originaire de <placeName>Varsovie</placeName>

5. La présence d'une coordination de persName n'avait pas été prévue dans la cascade de synthèse

désormais <persName>Jacques et Maryse</persName> — je ne connaîtrai leurs vrais

Il aurait fallu obtenir :

désormais <persName>Jacques</persName> et <persName>Maryse</persName> — je ne connaîtrai leurs vrais

6. La présence d'un adjectif toponymique n'avait pas été prévue pour les adresses dans la cascade d'analyse

dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement</address> parisien

Ce qui a été corrigé pour donner :

dans un quartier calme et prospère du <address>XVI<hi rend="E">e</hi> arrondissement parisien</address>

Partenaires du projet