ANR : programme Masses de Données
EPAC
Exploration de masses de documents audios
pour l'extraction et le traitement
de la PArole Conversationnelle

Laboratoire d'informatique de l'Université François-Rabelais de Tours

Documents

Jean-Yves ANTOINE, Abdenour MOKRANE, Nathalie FRIBURGER (2008). Automatic rich annotation of large corpus of conversational transcribed speech, Proc. 8th European conference on Language Resources and Evaluation. LREC'2008, Marrakesh, Maroc [LREC_2008-172].

Abdenour MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008). Cascades de transducteurs pour le chunking de la parole conversationelle : l'utilisation de la plateforme CasSys dans le projet EPAC. Actes TALN'2008, Avignon, France

Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas (2010) The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010.

Manuel d'utilisation du système SECARE

Description des formats d'entrées et sorties du système tels que définis dans le projet EPAC.

Les données concernant le segmenteur en chunks SECARE sont téléchargeable sur ce site.

Résumé du projet

Voir aussi le site du projet EPAC.

Le projet EPAC concerne le traitement de données audio non structurées. Il met en scène quatre laboratoires académiques : IRIT (Toulouse), LI (Tours), LIA (Avignon), LIUM (Le Mans).Le projet EPAC a pour but de proposer des méthodes d’extraction d’information et de structuration de documents spécifiques aux données audio, prenant en compte l’ensemble des canaux d’information : segmentation du signal (parole/musique/jingle/...), identification et suivi du locuteur, transcription de parole, détection et suivi de thème, détection d’émotion, analyse du discours, interactions conversationnelles, etc. Ces tâches de traitement du signal et de la parole sont en grande partie maîtrisées par les différents partenaires du projet dont la plupart ont participé à la campagne d’évaluation TECHNOLANGUE/EVALDA/ESTER.

Dans ce cadre de cette campagne et grâce à la participation de l’IRIT au projet RAIVES (Automatic Retrieval of Audio & Speech Informations, projet CNRS, 2002-2003) nous disposons d’une base d’environ 2000 heures d’émissions radiophoniques francophones (1800 heures provenant d’ESTER, dont l00h manuellement annotées, et 130h venant de RAIVES, dont une grosse dizaine d’heures manuellement annotées, soit 1930 heures en tout, dont 100h manuellement annotés).

En particulier, le projet EPAC mettra l’accent sur le traitement de la parole conversationnelle. Parmi les émissions d’information radiophoniques ou télévisuelles, la parole conversationnelle est souvent marginale : des techniques de détection et d’extraction de la parole conversationnelle seront proposées et développées.Le projet mettra en place des méthodes de traitement de ce type de parole en proposant des descripteurs pertinents et en développant les outils nécessaires à leur exploitation. Cette partie sera l’objet d’une collaboration entre chercheurs en linguistique (LI, LIUM) et chercheurs en traitement automatique de la parole (IRIT, LIA, LIUM).Enfin, un cadre d’évaluation commun aux différents acteurs du projet sera mis en place pour chacune des tâches étudiées. Cette évaluation portera sur une partie des 2000 heures d’émissions radiophoniques disponibles, contribuant ainsi à la valorisation de ces données.

L'action se réalisera du 1er janvier 2007 au 31 décembre 2009.

Partenaires du projet