Prolintex : Des ressources lexicales pour le logiciel Intex

Laboratoire d'informatique de l'Université François-Rabelais de Tours

Prolintex : Des dictionnaires de noms propres pour Intex

Le Laboratoire d'Informatique de l'Université François-Rabelais de Tours pilote un projet sur le traitement automatique des noms propres, le projet Prolex. Voir à ce propos la présentation et la bibliographie du projet Prolex)Les dictionnaires Prolintex ont été réalisés dans ce cadre pour mettre à la disposition de la communauté Intex des dictionnaires de noms propres. Pour une amélioration de la recherche des noms propres, nous proposons d'utiliser pour le preprocessing d'Intex un graphe plus complet que le graphe standard.

Ces dictionnaires sont partagés en trois groupes :

PXS Les mots simples
PXC Les mots composés
PXSX Les parties de mots composés non reconnues par les dictionnaires DELAS et PXS (notées .XPR)
Ceci évite de surcharger la fenêtre des erreurs (en utilisant Intex)

Découpage d'un texte en phrases

Ce graphe est le résultat d'une collaboration avec Anne Dister (CENTAL, Université de Louvain). Pour plus d'information, voir :

Friburger N., Dister A., Maurel D. (2000), Améliorer le découpage des phrases sous Intex, Revue Informatique et Statistique dans les Sciences Humaines, vol. 36, n°1-4, p. 181-200.

Le graphe PX-Sentence.fst doit être utilisé au moment du preprocessing d'Intex, à la place du graphe Sentence.fst. Il permet un meilleur découpage du texte en phrases

Nous n'insérons pas de signe de séparation de phrases dans les parenthèses et les crochets, car cela coupe la phrase dans laquelle ces parenthèses ou ces crochets apparaissent. Le revers de ce choix est que l'on rencontre parfois, entre parenthèses ou crochets, d'assez longs textes contenant de nombreuses phrases. Les phrases internes à ces parenthèses ou crochets ne sont donc pas découpées.On trouve les points de suspension lorsqu'on ne veut pas allonger une énumération, dans une phrase volontairement inachevée ou lorsqu'on laisse un temps en suspens avant de terminer la phrase. Si le point de suspension est suivi d'un mot en minuscule ou d'une virgule, ce point de suspension n'est pas la fin d'une phrase. Sinon, nous avons choisi de placer une fin de phrase après le point de suspension.Sous INTEX, le symbole guillemet est le même, qu'il soit ouvert ou fermé. On ne peut donc pas empêcher que la phrase dans laquelle on a une citation entre guillemets soit découpée en morceaux, car on ne peut distinguer le cas où l'on a une citation dans une citation de celui où l'on a deux citations consécutives très proches.Nous avons choisi de placer une fin de phrase après les deux points lorsqu'ils sont suivis de guillemets. Dans les autres cas (énumération, explication, information supplémentaire, etc.), nous ne plaçons pas de fin de phrase.

Toponymes

Les dictionnaires PX?-Toponymes contiennent des toponymes, gentilés (noms d'habitants) et adjectifs toponymiques.
Ils sont (dans la version actuelle) limités aux continents, aux communes françaises et aux pays indépendants (avec régions administratives, capitales nationales et régionales).Pour les toponymes, Prolintex utilise les traits suivants :

+PR Les noms propres
+Hum Les humains (les gentilés)
+Toponyme Les toponymes et les gentilés
+Ville Les villes et les gentilés
+Region Les régions et les gentilés
+Pays Les pays (indépendants) et les gentilés
+DetLe
+DetLes
+DetLa
+DetL
Les noms précédés obligatoirement d'un déterminant (vrai ou faux),
comme Le Mans
+DetZ +Les noms sans déterminant

Un gentilé se distingue d'un toponyme par le trait supplémentaire +Hum

PXS-Toponymes

Le dictionnaire PXS-Toponymes contient des mots simples

Exemples :

PXC-Toponymes

Le dictionnaire PXC-Toponymes contient des mots composés:

Exemples :

PXSX-Toponymes

Le dictionnaire PXSX-Toponymes contient 8256 parties de mots composés.Exemple :

aale,.XPR
qui provient de
Bu'aale,.N+PR+DetZ+Toponyme+Ville:ms:fs
(dictionnaire PXC-Toponymes)

Hydronymes

Pour les hydronymes, Prolintex utilise deux traits :

+PR Les noms propres
+Hydronyme Les hydronymes

PXS-Hydronymes

Le dictionnaire PXS-Hydronymes contient 2664 mots simples.Exemple:

Loire,.N+PR+Hydronyme:fs

PXC-Hydronymes

Le dictionnaire PXC-Hydronymes contient 1588 mots composés.Exemple:

lac d'Annecy,.N+PR+Hydronyme:ms

PXSX-Hydronymes

Le dictionnaire PXSX-Hydronymes contient 1289 parties de mots composés.Exemple:

Greek,.XPR
qui provient de
Alpha Greek,.N+PR+Hydronyme:ms:fs
(dictionnaire PXC-Hydronymes)

Téléchargement

Pour télécharger nos ressources, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.

Cliquez ici :

Télécharger Prolintex.

Télécharger le graphe de découpage en phrases pour Intex.

Pour nous citer :

Friburger N., Dister A., Maurel D. (2000), Améliorer le découpage des phrases sous Intex, Revue Informatique et Statistique dans les Sciences Humaines, vol. 36, n°1-4, p. 181-200.

Piton O., Maurel D. (2004), Les Noms Propres Géographiques et le Dictionnaire Prolintex, les lieux situés hors de France, Cahiers de la MSH Ledoux, Série Archive, Bases, Corpus, n° 1, p. 53-76.