• Aucun résultat trouvé

Article pp.217-220 du Vol.43 n°3 (2002)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.217-220 du Vol.43 n°3 (2002)"

Copied!
4
0
0

Texte intégral

(1)

Résumés de thèses

Rubrique préparée par Anne Condamines (ERSS-CNRS)

Elmar Eggert

La dérivation toponymes-gentilés en français. Mise en évidence des régularités utilisables dans le cadre d’un traitement automatique.

Thèse de linguistique en cotutelle, Université de Tours (Groupe de recherche L&R,

« Langues et représentation ») et Université de Munster (Allemagne).

Jury : D. Maurel et V. Nolke (codirecteurs), F. Guenthner (rapporteur), M. Plénat (rapporteur), O. Piton (examinateur), G. Veldre (examinateur).

Le traitement automatique de textes d’une langue naturelle cherche, finalement, à pouvoir extraire des informations d’un texte pour les utiliser ultérieurement (résumé, traduction, fouille de textes, etc.). Tandis que les noms communs ne constituent pas d’obstacle pour le traitement automatique, les noms propres, qui recouvrent jusqu’à 10 % des mots d’un texte journalistique, sont difficiles à traiter, parce qu’ils sont en général absents des dictionnaires. Le projet PROLEX, dans le cadre duquel se situe cette thèse, cherche à constituer un dictionnaire électronique relationnel des noms propres et à développer une « boîte à outils » adaptée à cette catégorie de mots.

Avant de pouvoir traiter les noms propres, il faut les reconnaître en tant que tels.

Cette difficulté se présente, entre autres, pour les noms des habitants (= les gentilés, p. ex. Lyon > Lyonnais, Charleville > Carolopolitain, Pau > Palois), car on ne dispose que d’une toute petite liste de ces appellations et que ces noms présentent parfois une formation si déviante que la relation qu’ils entretiennent avec le toponyme associé n’est guère perceptible. C’est dans cette phase primaire de la reconnaissance des gentilés dans des textes que s’inscrit l’objet de la thèse. Comme les locuteurs francophones disposent d’un système dérivationnel productif (par suffixation) pour former les gentilés, ils en créent constamment, souvent en accord avec les gentilés officiels, mais pas toujours, surtout si leurs formes sont complexes (p. ex. Charlevillois pour les habitants de Charleville, au lieu de Carolopolitain).

L’objectif de la thèse était premièrement d’élargir la liste des gentilés officiels et la description de ce corpus, deuxièmement l’analyse des processus dérivationnels en

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(2)

218 TAL. Volume 43 – n° 3/2002

vue d’un recensement des régularités dans la formation des gentilés. Pendant longtemps, cet aspect fortement régulier n’a pas été accepté à cause de l’énorme hétérogénéité dans la formation des gentilés officiels. La prise d’une nouvelle perspective a permis de percevoir la régularité même dans les gentilés dits auparavant « irréguliers » en conférant un statut synchronique aux traces de l’évolution historique. Les régularités peuvent être utilisées par un algorithme informatique de comparaison pour décider automatiquement sur la relation qu’entretient un gentilé avec un toponyme ou non (relier automatiquement Charlevillois à Charleville malgré le gentilé officiel Carolopolitain).

La thèse expose d’abord, dans l’introduction, les objectifs et les limites de l’étude en se centrant sur l’aspect mentionné ci-dessus ; discute, dans le deuxième chapitre, de la base théorique de la morphologie dérivationnelle ; résume et commente, dans le troisième chapitre, les travaux précurseurs de ce domaine ; décrit le corpus pour ensuite l’analyser, dans le quatrième chapitre, et retrace à la fin les principes ainsi que le procédé de la reconnaissance d’un gentilé dans le cadre d’un traitement automatique.

Pour la description systématique de la formation des gentilés, la constitution et l’analyse d’un corpus d’environ dix mille couples toponyme/gentilé a été menée dans deux directions : l’examen de la construction de la base du gentilé et la sélection du suffixe.

a) Les bases ont été classées en fonction des changements subis lors de la formation des gentilés. Les critères de la forme exacte de la base du gentilé abordent la question de ou des éléments du toponyme qui rentrent dans la base, l’intégralité des éléments formateurs et les allomorphies appliquées aux éléments.

b) La sélection du suffixe est elle-même régie par deux critères, un facteur morphophonologique et un facteur géographique. Le facteur morphophonologique décrit l’interdépendance des domaines phonologique et morphologique, ici la détermination quasi systématique du morphème dérivationnel (le suffixe) à partir de la structure phonologique de la base du dérivé. Ce n’est pas la terminaison du toponyme qui détermine le suffixe du gentilé, mais la terminaison de la base construite du gentilé qui en est responsable (p. ex. la terminaison [-iz] détermine le suffixe -ien). Le facteur géographique est le résultat d’une description des processus dérivationnels selon la situation régionale. Il s’est avéré que certains suffixes prévalent dans une région et non dans une autre. La construction de la base (p. ex.

les consonnes intercalaires) semble aussi différer selon la région.

Alors que le facteur morphophonologique pourra être utilisé dans le traitement automatique de textes, le facteur géographique n’y est que difficilement intégrable, parce que l’origine régionale du locuteur/auteur d’un texte n’est normalement pas connue, ni décelable. Dans cette thèse, ces tendances régionales ont été prises en compte dans l’interprétation des exceptions.

Elmar.Eggert@ruhr-uni-bochum.de

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(3)

Résumés de thèses 219

Helka Folch

Articuler les classifications sémantiques induites d’un domaine.

Thèse d’informatique, Université de Paris 13.

D. Kayser (directeur), B. Habert (codirecteur), B. Victorri et P. Zweigenbaum (rapporteurs), S. Lahlou et A. Nazarenko (examinateurs).

Nous montrons la nécessité d’une analyse sémantique endogène pour faciliter l’accès au volume croissant de documents disponibles suite au développement exponentiel de l’internet. Cet afflux de texte on-line génère la constitution de corpus hétérogènes qui rendent complexes la conception de modèles d’accès sémantique aux documents. Dans de tels cas, la projection de structures sémantiques a priori n’est pas une démarche adaptée pour un accès efficace aux documents. De même la recherche plein texte par mots-clés n’est pas appropriée lorsque ceux-ci sont polysémiques. Le sens des mots est souvent contextuel et leur ambiguïté est plus problématique dans les corpus hétérogènes.

Nous avons montré ensuite que cette approche requiert une modélisation particulière du corpus de documents permettant de classer les contextes en fonction de la répartition de leurs traits ou les traits en fonction des contextes partagés et qu’il est nécessaire d’apporter des raffinements à cette modélisation, notamment par le biais de modules d’inférence en amont.

Comme exemple d’affinage de traits, nous avons montré que l’inférence de traits syntaxiques dans le cadre d’un langage de description logique (les quasi-arbres) permet de construire des classes basées sur des proximités de comportement fin entre les mots. Nous avons montré aussi que les contraintes imposées par cette approche induisent des besoins en termes d’architecture de corpus. L’architecture que nous avons bâtie permet : l’extraction, à partir des corpus hétérogènes, d’unités textuelles pertinentes, la représentation des corpus extraits permettant le retour au document d’origine et le suivi de leur historique de traitements et la projection sur la base de documents des classes sémantiques obtenues afin de permettre une navigation hypertextuelle dans la base. Nous avons montré les limites des langages hypertextuels comme HTML et la nécessité d’utiliser un langage (Topic Maps) qui permet d’associer une sémantique aux liens.

Helka.Folch@limsi.fr

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(4)

220 TAL. Volume 43 – n° 3/2002

Nathalie Friburger

Reconnaissance automatique des noms propres. Application à la classification automatique de textes journalistiques.

Thèse d’informatique de l’Université de Tours.

Université de Tours (LI, Laboratoire d’informatique).

Jury : D. Maurel (directeur), M. El Bèze et F. Guenthner (rapporteurs), G. Arnaud, M. Noailly, M. Silberztein-Max (examinateurs).

La quantité d’information disponible sur Internet ou sur support informatique est de plus en plus abondante, mais non structurée ; des recherches nombreuses sont menées pour extraire, de manière automatique, les données pertinentes des textes.

Dans cette thèse, nous cherchons à extraire les noms propres dans des textes de style journalistique. Les résultats de cette extraction sont utilisés pour évaluer l’importance des noms propres dans un processus de classification de textes. Cette thèse s’insère dans le projet Prolex, mené au Laboratoire d’informatique de l’Université de Tours, de création de ressources et de traitement automatique des noms propres.

Dans les textes journalistiques, les noms propres représentent 10 % des mots. Ils sont très importants pour une compréhension précise des textes et constituent une catégorie de noms très vaste qu’il est difficile de cerner et de répertorier ; les noms propres sont actuellement très peu représentés dans les ressources lexicales disponibles. Le travail réalisé ici cherche à automatiser leur extraction et leur catégorisation. De nombreux travaux de ce type existent déjà en langue anglaise, sous l’impulsion des conférences MUC, mais il n’existe pas de travail de même ampleur sur le français.

Nous avons tout d’abord implanté un système, nommé CasSys, qui permet la mise en œuvre de cascade de transducteurs : les cascades sont très utilisées pour la description linguistique, l’analyse syntaxique ou l’extraction d’informations. CasSys utilise les outils de traitement automatique de textes fournis par Intex et sera mis prochainement à la disposition des chercheurs en traitement automatique des langues.

Le formalisme des transducteurs permet de décrire les noms propres et leurs contextes. Les transducteurs, passés en cascade sur les textes, autorisent la gestion des phénomènes d’ambiguïtés, de segmentation et de catégorisation des noms propres. Le système d’extraction ainsi créé, ExtracNP, utilise CasSys et procède en deux temps : une première cascade de transducteurs permet d’extraire les noms propres et de les catégoriser au moyen de leurs contextes gauches et droits, et de preuves internes (présence d’un prénom, d’un mot comme Société, etc.), une seconde cascade est générée automatiquement au moyen des noms propres trouvés par la première. Par cette méthode, nous avons obtenu un rappel de 93 % avec une précision de plus de 94 %.

A titre d’application, nous avons testé le rôle des noms propres dans la classification automatique de textes journalistiques.

friburger@univ-tours.

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

Références

Documents relatifs

Des cas d ’ acidose lactique sur déficit en thiamine ont en effet été décrits dans la littérature [6,7], notamment chez des patients en nutrition parentérale exclu- sive

Il se découvre alors une « instinctive et déconcertante animalité » confirmée lors d’un épisode délirant où il constate « une force décuplée, cette violence, cette

Le fait qu ’ elle commence par « normale- ment non » et qu ’ elle dise plus tard « pour l ’ instant non » montre qu ’ elle est maintenue dans une incertitude, et que, dans

H1 : Si la réduction des coûts et l’améliora- tion du service au consommateur sont consi- dérées comme ayant joué un rôle détermi- nant pour le management de la chaîne logis-

Enfin, dans cette thèse, nous avons introduit une mesure appelée OccRV qui ordonne les collocations selon leur nombre d’occurrences et les collocations ayant le même

Le regain d’intérêt pour l’utilisation des corpus et des statistiques en linguistique a lieu dans un contexte où l’on observe de nouvelles formes d’interaction entre

– Hektoen (« Probabilistic parse selection based on semantic cooccurrences ») présente une méthode (Semco) qui introduit des informations sémantiques dans le parsing (fréquences

Un dialogue entre êtres humains peut faire intervenir des processus plus ou moins complexes suivant le nombre de participants qu’il implique et la relation de pouvoir qui les