• Aucun résultat trouvé

Article pp.343-346 du Vol.42 n°2 (2001)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.343-346 du Vol.42 n°2 (2001)"

Copied!
4
0
0

Texte intégral

(1)

Editorial

En 1995, la revue TAL publiait un double volume sur les « Traitements probabilistes et corpus » (Volume 36 – n° 1-2) sous la direction de B. Habert. Ce numéro voulait rendre compte de l’engouement de l’époque pour les approches statistiques et probabilistes appliquées sur « corpus ». Cet engouement était expliqué par la nouvelle disponibilité de grandes quantités textuelles et les progrès de l’informatique, tant en matière de stockage que de puissance de calcul. Le terme

« corpus » référait à ces grandes collections textuelles monolingue ou bilingue qu’il s’agissait d’étiqueter, d’analyser ou d’aligner. Aujourd’hui, le déploiement de la toile, la disponibilité toujours croissante de publications et documentations diverses sous format électronique place toujours le « corpus » au centre du Traitement Automatique des Langues. Si la plupart des problématiques de l’époque sont toujours d’actualité, comme l’annotation, l’analyse linguistique ou l’alignement, de nouvelles sont apparues comme la détection de thèmes ou de genres textuels.

Inspirée des travaux de B. Biber (1988), la détection des thèmes ou des genres répond au besoin des acteurs du monde de l’ingénierie documentaire de classer automatiquement des documents issus de ces grandes collections textuelles.

Parallèlement au développement de ces applications purement informatiques, les chercheurs ont continué à travailler sur la normalisation des annotations en corpus de manière à permettre leur exploitation par différents logiciels et systèmes d’exploitation. Les recommandations pour l’annotation de textes exprimées par la TEI (C.M. Sperberg-McQueen et L. Burnard 1995 ; N. Ide et J. Véronis 1996) couvrent la description d’un nombre très important de types de documents et de phénomènes linguistiques. Ces recommandations ont favorisé l’apparition de nombreux corpus annotés dont le plus célèbre est sans conteste le British National Corpus (BNC). Il demeure qu’un chemin important reste à parcourir pour que voient le jour de vrais standards de représentation de ces corpus accompagnés de leurs annotations, de manière à garantir le développement de ressources et outils réutilisables au sein de notre communauté. La mise en place au sein du comité technique 37 de l’ISO (International Organization for Standardization) d’un nouveau sous-comité dédié aux ressources linguistiques est à ce titre un événement important qu’il faut suivre au plus près.

Pour la linguistique de corpus, qui relève de la linguistique appliquée, principalement dans les domaines de l’enseignement des langues et de la lexicographie, le corpus joue un rôle central puisqu’il permet d’effectuer des recherches sur la langue elle-même. À l’inverse, les corpus sont nécessaires au TAL mais plutôt pour construire et valider des applications informatiques. Malgré ces divergences d’approche sur le rôle du corpus dans ces deux disciplines, la

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(2)

344 TAL. Volume 42 – n° 2/2001

linguistique de corpus a vite compris l’intérêt des applications informatiques et des annotations pour l’étude de la langue. Celles-ci, des premiers concordanciers sur textes bruts aux logiciels d’exploration de corpus annotés comme SARAH pour le BNC (G. Aston et L. Burnard, 1998) ou WordSmith (M. Scott, 1997), ont facilité considérablement l’exploration des pratiques langagières. Les techniques plus élaborées de TAL comme l’analyse syntaxique permettent maintenant l’accès à des phénomènes linguistiques typiques étudiés par les linguistes de corpus comme la collocation. Symétriquement, l’observation et l’étude de phénomènes linguistiques en corpus améliorent considérablement de nombreuses applications du TAL.

La revue TAL, en proposant ce numéro spécial « TAL et Linguistique de corpus », souhaite rendre compte à la fois des nouvelles avancées de la linguistique de corpus grâce à l’utilisation de techniques issues de la recherche en TAL, mais aussi présenter les récents travaux pour le traitement, l’annotation et la constitution de corpus.

Le numéro s’articule autour des trois problématiques suivantes : – annotation et analyse linguistique,

– textes, thèmes et genres,

– corpus et ELAO (Enseignement des Langues Assisté par Ordinateur).

Nous décrivons successivement les objectifs de ces trois problématiques et présentons les articles qui s’y attachent.

Annotation et analyse linguistique

Ce premier ensemble d’articles montre combien la mise au point et l’implantation de schémas d’annotation d’une part, et l’exploitation de ressources annotées d’autre part, se complètent pour cerner le champ des exploitations linguistiques possibles, mais aussi pour contribuer itérativement à l’approfondissement de la compréhension des phénomènes, parfois dans le cadre d’une réévaluation du corpus lui-même. Les trois premiers articles de cette section apportent ainsi des éclairages complémentaires sur le lien entre phénomènes syntaxiques et corpus. K. Sima’an et ses collègues (« Buiding a Tree-Bank of Modern Hebrew Text ») présentent une méthodologie d’annotation semi-automatique de construction de banque d’annotations syntaxiques dans la lignée des travaux menés par plusieurs équipes à l’heure actuelle (e.g. en Allemagne autour du Negra Treebank ou en France dans le cadre des travaux de l’équipe d’A. Abeillé), mais qui pose problème pour une langue comme l’hébreu dont la morphologie est particulièrement riche. L’article de N. Gala Pavia (« A two-tier corpus-based approach to robust syntactic annotation of unrestricted corpora ») aborde plus spécifiquement le problème de l’analyse robuste de grand corpus en mettant en évidence une méthode de prise en compte de la grande variabilité structurelle que l’on peut y rencontrer. De façon moins classique, J.-Y. Antoine et J. Goulian (« Linguistique de corpus et ingénierie des langues appliquées à la CHM orale ») mettent en évidence l’apport d’un corpus de dialogues

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(3)

Editorial 345

oraux, par le biais du repérage précis de son contenu linguistique, pour l’étude d’un phénomène syntaxique particulier, à savoir les structures d’extraction.

Dans une toute autre perspective, l’interaction entre corpus parallèle aligné et annotation terminologique est abordé par A. Casillas et R. Martinez (« Bitext segmentation and alignment for specialized document composition ») afin de mettre en évidence le rôle des annotations pour appréhender la structure même des textes (segmentation, abstraction de DTD XML, indexation etc.).

Cette partie se termine par deux articles plus méthodologiques sur l’annotation de ressources linguistiques. S. Salmon-Alt (« Entre corpus et théorie : l’annotation (co)référentielle ») montre ainsi la difficulté de mettre en œuvre un schéma d’annotation référentielle générique, mais qui soit malgré tout suffisamment riche pour permettre l’observation de phénomènes qui dépassent la simple co-référence classique. Enfin, un article plus prospectif de Karel Oliva (« Phenomena Oriented Corpora ») explore les façons de mieux représenter les phénomènes ambiguës dans des corpus annotés morpho- syntaxiquement ou syntaxiquement par le biais d’un codage plus fin des résultats que peuvent fournir la plupart des outils utilisés pour ces tâches.

Textes, thèmes et genres

Cette deuxième partie aborde la notion de corpus de façon plus macroscopique pour en dégager des caractéristiques globales liées à leurs contenus structurel ou sémantique, sur la base de méthodes d’inspiration statistique. G. Illouz et M. Jardino (« Analyse statistique et géométrique de corpus textuels ») proposent d’utiliser des méthodes de classification pour étudier la corrélation entre une classification en genres et des indices textuels de bas niveau. O. Ferret et B. Grau (« Utiliser des corpus pour amorcer une analyse thématique ») utilisent quant à eux des réseaux de collocations pour initier la description thématique d’une base de textes, avant d’affiner itérativement, dans un deuxième temps, ces descriptions. Au niveau encore plus global du genre, D. Malrieu et F. Rastier (« Genres et variations morphosyntaxiques ») montrent comment une classification fine définie a priori peut être confirmée par des analyses univariées et multivariées portant sur un ensemble élaboré de variables, calculées notamment à partir d’une annotation morphosyntaxique. En écho à cette étude, T. Beauvisage (« Morphosyntaxe et genres textuels ») aborde le problème du genre dans le cadre spécifique du roman policier, pour déterminer une méthodologie générique qui permettrait de réaliser une détection automatique des genres dans un corpus.

Corpus et ELAO

Ce numéro spécial sur corpus et traitement automatique se clôt sur deux contributions dédiées à l’enseignement des langues, où le corpus, couplé à des méthodes d’exploration permet d’évaluer ou d’enrichir la situation d’apprentissage.

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

(4)

346 TAL. Volume 42 – n° 2/2001

S. Granger et ses collègues (« Analyse de corpus d’apprenants pour l’ELAO basé sur le TAL ») explorent des méthodes de repérage des erreurs au sein d’un corpus d’apprenants, leur codage, ainsi que leur possible exploitation pour mieux caractériser les situations d’apprentissage correspondants. A l’opposé de cette démarche d’évaluation, Petra Ludewig (« LogoTax — un outil exploratoire pour l’étude de collocations en corpus »), montre comment l’apprenant peut bénéficier de l’utilisation d’outils d’analyse de collocation pour construire ou enrichir son propre dictionnaire.

Nous remercions les auteurs pour la qualité de leurs soumissions, l’ATALA, le comité de rédaction de la revue TAL et plus particulièrement Claire Gardent pour son accompagnement dans le suivi de ce numéro, et les relecteurs spécifiques : Anne Abeillé, Claire-Blanche Benveniste, Claire Beyssade, Christian Boitet, Didier Bourigault, Lynne Bowker, Etienne Brunet, Lou Burnard, Jean Carletta, Dan Cristea, Gaston Gross, Nancy Ide, Patrice Lopez, Fiametta Namer, Elena Paskaleva, Jennifer Pearson, Marie-Paule Péry-Woodley, Jean-Marie Pierrel, François Rastier, Anne Reboul, André Salem, Pascale Sébillot, Anatole Shaikevich, Michel Simard, Gary Simons, John Sinclair, Wolfgang Teubert, Agnès Tutin, Jean Véronis, Dusko Vitas.

Bibliographie

Aston G. et Burnard L. (1998), The BNC Handbook, Edinburgh, Edinburgh University Press.

Biber D. (1988), Variation across Speech and Writing, Cambridge, Cambridge University Press.

Ide N. et Véronis J. (1996), « Présentation de la TEI », TEI: Text Encoding Initiative, Cahier GUTenberg, 24:4-22.

Scott M. (1997), « PC Analysis of Key Words - and Key Key Words », System, vol. 25, n° 2, p.

233-45.

Sperberg-McQueen, C. M. et Burnard L. (1995), « The Design of the TEI Encoding Scheme », Computers and the Humanities, 29.1: 17-39, in The Text Encoding Initiative:

Background and Contexts, eds Nancy Ide and Jean Veronis, Dordrecht, Boston, Kluwer Academic Publishers.

Béatrice DAILLE Institut de Recherche en Informatique de Nantes (IRIN) Université de Nantes – 2 Rue de la Houssinière, BP 92208 F-44322 Nantes cedex 3 daille@irin.univ-nantes.fr

Laurent ROMARY Laboratoire Loria B.P. 239, F-54506 Vandœuvre-les-Nancy Laurent.Romary@loria.fr

Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com

Références

Documents relatifs

morphologie nominale: erreurs de genre (*i mani au lieu de le mani), nombre (*Alle fine au lieu de Alla fine) et cas (*persone come tu au lieu de persone come te) dans les

Prenons à titre d’exemple un problème bénin comme la dyslalie 3 caractérisé par des distorsions phonatoires comme la production d’un son [s] avec une projection de la langue

lles contribuent aussi au mouvement d’anal se réflexive sur les corpus engagée dans Garric et Longhi (2012) qui vise à « déterminer comment faire évoluer les corpus

Le diagnostic d ’ angi œ dème bradykinique était alors sus- pecté devant les caractéristiques cliniques évocatrices, la localisation particulière aux muqueuses de la face et

Diverses instances d’évaluation, dont le Comité mixte FAO/OMS d’experts en additives alimentaires (JECFA) en 1975, 1976, 1977 résumés en 1980 [9]; la US Food and Drug

dans les interfaces administrateur et usager 118 4.2 Le traitement des données audio dans Elan 121 5 Les défis de la construction d’un corpus de français parlé à visée

En langues de spécialité, les recherches appuyées par corpus sont devenues le paradigme quasi incontournable puisque la multiplicité des langues et des discours spécialisés est

La normalisation des annotations dans le cadre des archives du LACITO Le choix de XML comme formalisme de représentation pour l’ensemble des annotations des documents d’archives