Segmenteur en chunks SECARE

Laboratoire d'informatique de l'Université François-Rabelais de Tours

Segmenteur en chunks SECARE

Le système SECARE a été développé dans le cadre du projet ANR EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle). Utilisable avec la plate-forme libre Unitex complémentée par le système de gestion de cascades de transducteurs CasSys (distribué librement avec Unitex), il permet le parenthésage d'énoncés en chunks. Il a été développé plus particulièrement pour le parenthèsages de transcriptions de parole spontanée.

Le système considère en entrée des fichiers annotés en catégories morpho-syntaxiques (POS : Part of Speech) par le système LIA_TAGG développée par Frédéric Béchet et diffusée elle-aussi librement. Il consiste simplement en une cascade de transducteurs (cunks.conf) utilisable sous UniteX. D'autres cascades sont également livrées pour permettre une sortie formattée de la segmentation (formatAnalyse.conf et formatEPAC.conf)

Description précise

Conditions d'utilisation du système

Vous pouvez télécharger et utiliser les cascades de transducteurs SECARE a toute fin utilie. En cas d'utilisation dans un contexte scientifique, nous vous demandons comme seul engagement de citer un ou plusieurs des articles suivants, qui présentent respectivement SECARE (LREC 2008), CasSys (TALN 2008) et le projet global EPAC (LREC 2010).

Jean-Yves ANTOINE, Abdenour MOKRANE, Nathalie FRIBURGER (2008) Automatic rich annotation of large corpus of conversational transcribed speech, Proc. 8th European conference on Language Resources and Evaluation. LREC'2008, Marrakesh, Maroc [
LREC_2008-172].

Abdenour MOKRANE, Jean-Yves ANTOINE, Nathalie FRIBURGER (2008) Cascades de transducteurs pour le chunking de la parole conversationelle :

l'utilisation de la plateforme CasSys dans le projet EPAC. Actes TALN'2008, Avignon, France

Yannick Estève, Thierry Bazillon, Jean-Yves Antoine, Frédéric Béchet, Jérôme Farinas (2010) The EPAC corpus: manual and automatic annotations of conversational speech in French broadcast news. Proc. 9th European conference on Language Resources and Evaluation, LREC’2010, Valetta, Malta, May 2010.

Téléchargement

Pour télécharger nos ressources, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.

Cliquez ici : Télécharger Secare.