![]() |
Le Laboratoire d'Informatique de l'Université François-Rabelais de Tours pilote un projet sur le traitement automatique des noms propres, le projet Prolex. Voir à ce propos la présentation et la bibliographie du projet Prolex)Les dictionnaires Prolintex ont été réalisés dans ce cadre pour mettre à la disposition de la communauté Intex des dictionnaires de noms propres. Pour une amélioration de la recherche des noms propres, nous proposons d'utiliser pour le preprocessing d'Intex un graphe plus complet que le graphe standard.
Ces dictionnaires sont partagés en trois groupes :
| PXS | Les mots simples |
| PXC | Les mots composés |
| PXSX | Les parties de mots composés non reconnues par les dictionnaires DELAS et PXS (notées .XPR) Ceci évite de surcharger la fenêtre des erreurs (en utilisant Intex) |
Ce graphe est le résultat d'une collaboration avec Anne Dister (CENTAL, Université de Louvain). Pour plus d'information, voir :
Friburger N., Dister A., Maurel D. (2000), Améliorer le découpage des phrases sous Intex, Revue Informatique et Statistique dans les Sciences Humaines, vol. 36, n°1-4, p. 181-200.
Le graphe PX-Sentence.fst doit être utilisé au moment du preprocessing d'Intex, à la place du graphe Sentence.fst. Il permet un meilleur découpage du texte en phrases
Nous n'insérons pas de signe de séparation de phrases dans les parenthèses et les crochets, car cela coupe la phrase dans laquelle ces parenthèses ou ces crochets apparaissent. Le revers de ce choix est que l'on rencontre parfois, entre parenthèses ou crochets, d'assez longs textes contenant de nombreuses phrases. Les phrases internes à ces parenthèses ou crochets ne sont donc pas découpées.On trouve les points de suspension lorsqu'on ne veut pas allonger une énumération, dans une phrase volontairement inachevée ou lorsqu'on laisse un temps en suspens avant de terminer la phrase. Si le point de suspension est suivi d'un mot en minuscule ou d'une virgule, ce point de suspension n'est pas la fin d'une phrase. Sinon, nous avons choisi de placer une fin de phrase après le point de suspension.Sous INTEX, le symbole guillemet est le même, qu'il soit ouvert ou fermé. On ne peut donc pas empêcher que la phrase dans laquelle on a une citation entre guillemets soit découpée en morceaux, car on ne peut distinguer le cas où l'on a une citation dans une citation de celui où l'on a deux citations consécutives très proches.Nous avons choisi de placer une fin de phrase après les deux points lorsqu'ils sont suivis de guillemets. Dans les autres cas (énumération, explication, information supplémentaire, etc.), nous ne plaçons pas de fin de phrase.
Les dictionnaires PX?-Toponymes contiennent des
toponymes, gentilés (noms d'habitants) et adjectifs toponymiques.
Ils sont (dans la version actuelle) limités
aux continents, aux communes françaises et aux pays indépendants
(avec régions administratives, capitales nationales et régionales).Pour les toponymes, Prolintex utilise les traits suivants :
| +PR | Les noms propres |
| +Hum | Les humains (les gentilés) |
| +Toponyme | Les toponymes et les gentilés |
| +Ville | Les villes et les gentilés |
| +Region | Les régions et les gentilés |
| +Pays | Les pays (indépendants) et les gentilés |
| +DetLe +DetLes +DetLa +DetL |
Les noms précédés obligatoirement d'un déterminant (vrai ou faux), comme Le Mans |
| +DetZ | +Les noms sans déterminant |
Un gentilé se distingue d'un toponyme par le trait supplémentaire +Hum
Exemples :
Le dictionnaire PXC-Toponymes contient des mots composés:
Exemples :
Le dictionnaire PXSX-Toponymes contient 8256 parties de mots composés.Exemple :
aale,.XPRPour les hydronymes, Prolintex utilise deux traits :
| +PR | Les noms propres |
| +Hydronyme | Les hydronymes |
Le dictionnaire PXS-Hydronymes contient 2664 mots simples.Exemple:
Loire,.N+PR+Hydronyme:fs
Le dictionnaire PXC-Hydronymes contient 1588 mots composés.Exemple:
lac d'Annecy,.N+PR+Hydronyme:ms
Le dictionnaire PXSX-Hydronymes contient 1289 parties de mots composés.Exemple:
Greek,.XPR
qui provient de
Alpha Greek,.N+PR+Hydronyme:ms:fs
(dictionnaire PXC-Hydronymes)
Pour télécharger nos ressources, il faut accepter les termes de la licence LGPL-LR, dont le texte est rappelé sur ce site.
Cliquez ici :
Télécharger le graphe de découpage en phrases pour Intex.
Pour nous citer :
Friburger N., Dister A., Maurel D. (2000), Améliorer le découpage des phrases sous Intex, Revue Informatique et Statistique dans les Sciences Humaines, vol. 36, n°1-4, p. 181-200.
2.6.2 Piton O., Maurel D. (2004), Les Noms Propres Géographiques et le Dictionnaire Prolintex, les lieux situés hors de France, Cahiers de la MSH Ledoux, Série Archive, Bases, Corpus, n° 1, p. 53-76.