ANR : programme Corpus
VARILING
TRAITEMENT DES VARIATIONS LINGUISTIQUES
DANS LES CORPUS

Laboratoire d'informatique de l'Université François-Rabelais de Tours Laboratoire ligérien de linguistique, université d'Orléans et de Tours

Documents

Eshkol I., Gazeau M. A., Maurel D. (2008), Balisage XML des entités nommées et dénommantes du corpus Eslo, First International Workshop on Cataloguing and Encoding of Spoken Language Data (CatCod 2008), 4-5 décembre, Orléans.

Maurel D., Friburger N., Eskhol I., Antoine J.-Y. (2009) Explorer des corpus à l’aide de CasSys : application au corpus d’Orléans, LingCorp’2009, Lorient.

Maurel D., Friburger N., Eshkol I. (2009), Who are you, you who speak? Transducer cascades for information retrieval, 4th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznań, Poland, 6-8 novembre, 220-223.

Eshkol I., Maurel D., Friburger N. (2010), Eslo : from transcription to speakers' personal information annotation, Seventh language resources and evaluation conference (LREC 2010), Malte, 19-21 mai.

Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées, à paraître dans la revue TAL.

Résumé du projet

Voir aussi le site VARILING.

L’un des obstacles récurrents qui se présente dans l’exploitation collective des corpus oraux concerne la protection des personnes qui ont accepté d’être sollicités et de répondre. Comme le prévoient les engagements pris par le chercheur, sous forme contractuelle, l’enquêté a le droit de conserver son anonymat ce qui suppose l’effacement ou le bipage de toutes les indications qui permettraient de lever l’anonymat.

Il en va de même pour les personnes mentionnées au cours de l’interview qui sont en droit d’exiger la protection de leur vie privée.Dans ce cadre, et en prolongement des recherches entreprises dans la base 7, ESLO 1 et ESLO 2 doivent servir de test aux programmes développés dans le cadre du LI concernant la reconnaissance des entités nommées.En recourant à CasSys, un outil qui traite des corpus Unitex et qui permet, entre autres, de détecter les noms propres avec un taux d’efficience supérieur à 90 %, on soumettra les résultats obtenus aux corpus oraux avec deux objectifs :

Sur les centaines d’heures à traiter, on peut concevoir que tous les problèmes de l’anonymisation seront représentés ce qui permettra la confection d’un vade mecum des éléments à prendre en considération à cette étape du travail :

L'action s'est réalisée du 1er janvier 2007 au 31 décembre 2009.

Partenaires du projet