La traduction des noms propres :
Alignement des traductions du Tour du monde en quatre-vingts jours (Jules Verne, 1872)

Laboratoire ligérien de linguistique, université d'Orléans et de Tours Laboratoire d'informatique de l'Université François-Rabelais de Tours Faculté de mathématiques de l'Université de Belgrade

English version

Présentation du corpus

Le corpus a été créé dans le cadre d’une étude contrastive des noms propres en traduction (Lecuit, 2013). De ce fait, il comporte un texte source en français, Le Tour du monde en quatre-vingts jours (Jules Verne, 1872), annoté au niveau des noms propres (mais aussi des noms relationnels et des adjectifs relationnels), grâce à l’outil CasSys et à certains transducteurs CasEN, développés par le LI (Friburger et Maurel, 2004).

Les éléments de cette annotation ont été choisis parmi ceux proposés par la Text Encoding Initiative Consortium (TEI P5). Le texte-source (français) est ainsi annoté au niveau :

Il comporte également trois textes-cibles, des traductions anglaise, allemande et serbe (en alphabet latin) du roman.

Enfin, nous fournissons, en plus de ce corpus, des fichiers d’alignement, réalisés grâce à l’aligneur automatique multilingue XAlign (développé au Loria et intégré à la plateforme Unitex), puis corrigés manuellement par nos soins.

Ces fichiers, utilisables avec Unitex, permettent la visualisation de bi-textes, qui se présentent sous la forme d’une fenêtre divisée en deux parties, avec de part et d’autre les deux versions d’un même texte alignées horizontalement sur le plan des unités de traduction ou équivalents traductionnels.

Références

Origine des ressources

Nature des données

Corpus annoté (pour le français uniquement) et aligné, œuvre originale et traductions libres de droit.

Origine des données

Conditions d’utilisation

Ce corpus est sous licence Creative Commons CC-BY-NC-SA et LGPL-LR.

Utilisation

Le corpus se compose de cinq types de fichiers.

  1. Un fichier PDF avec les quatre langues alignées
    • Corpus80Jours.pdf
  2. Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus, mais où les chevrons des balises name et w ont été remplacés par les entités XML correspondantes afin de permettre son chargement dans XAlign
    • Corpus80JoursFrench_Xalign.xml
  3. Un fichier XML contenant le texte du roman balisé comme indiqué ci-dessus pour une utilisation hors Xalign
    • Corpus80JoursFrench.xml
  4. Trois fichiers XML contenant chacun la traduction du roman dans chacune des trois langues présentées :
    • Corpus80JoursEnglish.xml
    • Corpus80JoursGerman.xml
    • Corpus80JoursSerbian.xml
  5. Trois fichiers XML d’alignement en bi-texte :
    • Corpus80JoursFrenchEnglish.xml
    • Corpus80JoursFrenchGerman.xml
    • Corpus80JoursFrenchSerbian.xml

Les alignements sont utilisables sous Unitex. Pour cela, les fichiers sont à enregistrer au préalable dans le répertoire personnel Unitex :

Fiche technique

Version 1.1
Conception Émeline Lecuit, Denis Maurel et Duško Vitas
Format XML-TEI
Codage des caractères utf-8 (sans BOM)

Téléchargement

Le fichier PDF ci-dessous est disponible sous la licence Creative Commons CC-BY-NC-SA.

Licence CC-BY-NC-SA

Cliquez ici : Télécharger le corpus 80 jours au format PDF (11/1/2016).

Le téléchargement ci-dessous nécessite l'acceptation de la licence LGPL-LR.

Cliquez ici : Télécharger les fichiers d'alignement du corpus 80 jours (11/1/2016).