Corpus de la Renaissance étiqueté en entités nommées (projet Renom)

Centre d'Études Supérieures de la Renaissance Laboratoire d'informatique fondamentale et appliquée de l'université de Tours Région Centre Laboratoire ligérien de linguistique, université d'Orléans et de Tours

Présentation du corpus

Le corpus a été créé dans le cadre du projet Renom, financé par la région Centre-Val de Loire. Les résultats des travaux réalisés dans le cadre de ce projet sont illustrés par le site Renom.

À partir de transcriptions réalisées sur les exemplaires originaux de l’époque (graphies non modernisées), issues du corpus de textes de la Renaissance BVH-Epistemon, les entités nommées ont été pour la plupart repérées par l’outil CasSys d'Unitex avec une cascade de transducteurs développée spécifiquement par le Lifat (Laboratoire d'informatique fondamentale et appliquée). Les textes ont ensuite été relus et corrigés par l'équipe des BVH (Bibliothèques virtuelles humanistes) du CESR (Centre d'Études Supérieures de la Renaissance).

Le corpus est disponible sous la licence Creative Commons CC-BY-NC-SA.

Licence CC-BY-NC-SA

Il est composé des ouvrages suivants :

Présentation de l'annotation

Les éléments de cette annotation ont été choisis parmi ceux proposés par la Text Encoding Initiative (TEI P5). Les textes du corpus sont annotés au niveau des entités nommées par les balises :

Remarque importante : Le balisage ne concerne pas uniquement les entités nommées, mais aussi l'ensemble de la structure originale du document (lignes, pages, corrections, lettrines, etc.). La documentation complète de ces balises, rédigée par l'équipe BVH, est disponible.

Exemples de balisage

Partenaires du projet

Références

Nature des données

Corpus annoté, œuvres originales.

Origine des données

Fiche technique

Version 1.1
Conception Denis MAUREL, Marie-Luce DEMONET, Jorge FINS, Toshinori UETANI, Sandrine BREUIL, Marie OLIVRON
Format XML-TEI
Codage des caractères utf-8 (sans BOM)