• Aucun résultat trouvé

Résumé de thèse

N/A
N/A
Protected

Academic year: 2022

Partager "Résumé de thèse"

Copied!
1
0
0

Texte intégral

(1)

Résumé de thèse

Recensement et description des mots composés – méthodes et applications Agata Savary

Ce mémoire décrit les recherches en informatique linguistique menées par l’auteur dans le domaine des mots composés, et plus spécialement de la composition nominale en anglais général et spécialisé, au sein de deux organismes : le Laboratoire d’Automatique Documentaire et Linguistique (LADL) de l’Université Paris 7, et la société LCI Informatique.

Le point de départ pour toutes les recherches que nous présentons a été le système de traitement automatique de grands corpus INTEX

.

Nous nous sommes penchée sur le problème du recensement des mots composés à grande échelle. Nous avons essayé de répondre aux questions suivantes :

1) Comment ce recensement peut être effectué ? 2) Est-il utile de le réaliser ?

La réponse à la première question est donnée dans le contexte de la création de dictionnaires électroniques, sous formats disponibles dans le système INTEX. Nous avons d’abord analysé certaines propriétés linguistiques des mots composés, et plus particulièrement des noms composés, du point de vue de leur morphologie flexionnelle en trois langues : le français, l’anglais et le polonais. Cette analyse nous a permis de proposer une méthode formelle de description du comportement flexionnel des composés, et de mettre au point un algorithme qui génère leurs formes fléchies. Ensuite, nous avons décrit la construction du dictionnaire électronique de mots composés anglais. Le format bien adapté au recensement des mots composés productifs étant celui d’automates et de transducteurs finis, nous avons illustré ceci par les déterminants numéraux cardinaux et ordinaux de l’anglais. Finalement, nous avons décrit la création d’un dictionnaire électronique terminologique du domaine de l’informatique.

Une fois que des ressources lexicographiques et terminologiques existent sous un format adapté au traitement automatique, leur emploi améliore en principe la qualités de nombreuses applications du TALN. Nous avons choisi deux types d’applications pour vérifier cette hypothèse. Premièrement, nous avons élaboré une méthode d’extraction terminologique basée sur l’hypothèse que des séquences contiguës de termes connus ont de grandes chances d’être de nouveaux termes. Cette hypothèse pouvait être vérifiée grâce aux dictionnaires électroniques, généraux et spécialisés, décrits dans la première partie du mémoire. Les résultats obtenus s’avèrent, de certains points de vue, meilleurs de ceux obtenus par un extracteur terminologique de référence, Acabit, qui est basé sur un calcul statistique et n’emploie pas de ressources terminologiques initiales.

Deuxièmement, nous avons élaboré un algorithme de correction orthographique, indépendant

en principe de la langue, basé sur la consultation d’un dictionnaire sous format d’automate

fini. D’habitude les outils de correction orthographique recherchent les mots simples inconnus

d’un texte, et proposent leurs corrections étant aussi des mots simples. Nous avons étendu

cette stratégie à des mots composés, i.e. pour les mots simples inconnus nous avons cherché

des mots composés proches existant dans notre dictionnaire (VisualAge – Visual Age), puis

pour des séquences de mots non reconnues comme mots composés, nous avons aussi cherché

des mots composés proches (compile options – compiler options). Les résultats de cette

expérience sont faibles du point de vue de la précision.

Références

Documents relatifs

- mettre en activité les stagiaires dans des situations semblables à celles d’apprenants sourds, les placer en situation de double piste, apprenants en formation et enseignants

Service sauté Serve with a jump When hitting the ball, the server jumps, coming down on the take-off foot (left foot for a right-handed person). Service slicé Sliced serve

• Objectif : Se servir du logiciel Unitex pour faire les dictionnaires électroniques des noms du persan. ● Caractéristiques d’Unitex :

Ce modèle a été mis au point dans le cas de deux lacs européens (Lac d'Annecy, France, et Ammersee, Allemagne) représentatifs de la majorité des lacs de moyennes latitudes. Le

Le plat préféré de ma belle-mère est le gratin de chou-fleur servi avec des pommes de terre grillées.. Son grand-père

Le plat préféré de ma belle-mère est le gratin de chou-fleur servi avec des pommes de terre grillées.. Son grand-père

[r]

v Les jeunes mamans promènent leur enfant dans un.. v Certaines publicités sont