Introduction
Ce numéro de la revue TAL est exceptionnel à plus d’un titre : pour son contenu d’abord, mais également pour son histoire. Il ne s’agit en effet ni d’un numéro thématique classique, ni d’une sélection d’articles hors thème. Ce numéro est autre chose, le reflet à la fois d’une évolution scientifique de notre domaine, mais également d’une volonté politique affichée par les deux sociétés savantes animant notre communauté : l’ATALA (Association pour le Traitement Automatique des Langues) et l’AFCP (Association Francophone de la Communication Parlée). Ces deux associations ont décidé depuis plus de cinq ans d’œuvrer au rapprochement des communautés travaillant sur le traitement de l’écrit et de la parole. Ce qui apparaît comme une évidence scientifique ne se traduisait en effet pas toujours dans les faits ni même dans les travaux. Il a donc été décidé de rapprocher les conférences TALN (Traitement Automatique des Langues Naturelles) et JEP (Journées d’Etude sur la Parole), organisées sous l’égide de ces associations. La conférence TALN fut créée en 1994 et se tient depuis à un rythme annuel. Elle traite des problèmes liés au traitement automatique de la langue : lexique, analyse de texte, résumé automatique, génération de texte, dialogue homme-machine en langage naturel, traduction automatique, recherche d’information, enseignement assisté par ordinateur, etc.
TALN abrite en outre et depuis 1999 RECITAL (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues), une session spéciale dédiée aux jeunes chercheurs dans le domaine. Les JEP ont une longue histoire, puisque la première édition eut lieu en 1970 à Grenoble. Ces journées ont regroupé depuis, tous les deux ans, les chercheurs travaillant sur les différentes facettes du domaine très pluridisciplinaire de la communication parlée : reconnaissance automatique, synthèse, production, perception, pathologie…
La première conférence commune TALN – JEP + RECITAL fut organisée en 2000 à Nancy et son grand succès nous a incités à conférer à ce rendez-vous important un caractère régulier. La seconde édition s’est ainsi tenue du 21 au 24 avril 2004, à Fès, au Maroc, et fut à nouveau une très belle réussite, en rassemblant 270 participants, présentant au total 234 communications, réparties dans quatre événements, JEP, TALN, RECITAL et une session spéciale sur la langue arabe, écrite et orale. La revue TAL a saisi cette occasion et a proposé aux comités scientifiques de ces conférences d’effectuer une sélection d’articles pouvant donner lieu à une publication dans la revue. Cette sélection forme ce numéro.
Les articles présentés ici ont donc d’abord été sélectionnés sur la base de leur qualité scientifique et sont de ce point de vue représentatifs des courants présents dans nos conférences. Ils montrent, de plus, les points de convergence existants ou en devenir : techniques utilisées, domaine d’étude, applications, approches théoriques. On note ainsi un souci commun d’étudier précisément les problématiques
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
8 TAL. Volume 45 – n° 3/2004
de constitution de ressources enrichies, dans la perspective d’une analyse prenant en compte des aspects variés abordant différents domaines de l’analyse linguistique. On constate également une évolution de nos travaux vers la prise en compte et l’analyse d’une langue en situation, véritablement naturelle, à la fois du point de vue des conditions de production mais également du type de discours produit. On remarque enfin une évolution parallèle des deux domaines de l’écrit et de la parole vers une meilleure synergie entre approches numériques et symboliques : les techniques probabilistes ne sont plus une alternative aux systèmes basés sur les règles, il existe aujourd’hui une véritable convergence notable de part et d’autre.
Ce numéro spécial de la revue TAL apporte ainsi une pierre supplémentaire à l’édifice que nous voulons construire et qui permettra de rapprocher davantage deux communautés travaillant sur le même objet, la langue, considéré dans son acception la plus générale et la plus naturelle, au sens propre du terme. Nous sommes de plus heureux par cette contribution de montrer le dynamisme de la communauté scientifique francophone en la matière. Nous jouons en effet un rôle précurseur : la conjonction de ces conférences, la publication d’articles sur des supports communs sont autant d’avancées qui se concrétiseront dans un futur proche par des résultats scientifiques novateurs. Quelques mots de présentation du contenu de ce volume :
N. Boufaden, G. Lapalme, Y. Bengio, Repérage de mots informatifs dans les textes conversationnels. Dans cet article les auteurs proposent une approche permettant d’annoter des corpus de textes conversationnels grâce à l’identification de mots informatifs. Cet étiquetage sémantique, obtenu automatiquement permet d’envisager des applications sur des types de données différentes (orales ou écrites) dans une perspective d’extraction d’information.
J.-L. Gauvain, G. Adda, L. Lamel, F. Lefevre et H. Schwenk, Transcription de la parole conversationnelle, décrivent le développement d’un système de reconnaissance de la parole conversationnelle, à partir d’un système à l’état de l’art pour la transcription d’émissions d’information. Outre le fait que l’ensemble des techniques utilisées dans un système de reconnaissance de la parole continue sont présentées, le travail proposé met en évidence les nombreuses différences, en termes d’acoustique et de type de parole, entre les deux environnements applicatifs. Les solutions palliant ces différences sont également présentées.
L. Kallmeyer et S. Yoon, Tree-local MCTAG with Shared Nodes: An Analysis of Word Order Variation in German and Korean, proposent une variante du formalisme des TAGs permettant une meilleure prise en compte du problème de l’ordre des mots, en particulier lorsque celui-ci est peu contraint. Plusieurs constructions, en particulier des phénomènes d’extraposition dont certains sont perçus comme étant spécifiques de l’oral, sont étudiées en s’appuyant sur une comparaison entre différentes langues.
E. Moreau, Apprentissage partiel de grammaires lexicalisées, aborde la question de l’acquisition des langues naturelles et se propose de la traiter du point de vue de l’acquisition automatique. Il s’agit de techniques permettant, à partir d’informations
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Introduction 9
simples, de construire une grammaire complète. Cette proposition est décrite dans le cadre des grammaires catégorielles, mais peut être généralisée à d’autres approches.
E. Morin et B. Daille, Extraction de terminologies bilingues à partir de corpus comparables d’un domaine spécialisé, présentent une technique originale permettant d’identifier des termes complexes et leur traduction à partir de corpus proches dans des langues différentes. Cette approche s’appuie sur l’étude du contexte des termes en apportant un point de vue nouveau multilingue sur l’extraction de termes.
G. Perrier, La sémantique dans les grammaires d’interaction : la question de l’interaction syntaxe-sémantique est un problème fondamental permettant d’aborder plus généralement la question de l’interaction entre les différents domaines linguistiques. L’approche proposée dans cet article repose sur une simple fonction de liage entre les différentes structures qui permet d’envisager une généralisation à d’autres types d’interactions.
S. Salmon-Alt, L. Romary et J.-M. Pierrel, Un modèle générique d’organisation de corpus en ligne : application à la FReeBank : la question de la mise à disposition des ressources linguistiques est un problème central au développement des recherches dans notre domaine, à la fois du point de vue de la représentation des informations mises à disposition (standardisation des annotations), mais également du point de vue de la conception d’une archive de corpus de ce type. cet article fait le point sur la question et décrit une expérience en cours, qui a vocation à être généralisée.
F. Valente, C. Wellekens, Regroupement de modèles de locuteurs par méthode Bayesienne variationnelle : dans cet article, l’apprentissage des modèles dans le cadre des méthodes statistique est revisité. L’utilisation des méthodes variationnelles Bayesiennes offre un cadre totalement Bayesien pour l’apprentissage des modèles.
Ce cadre variationnel intègre également les approches classiques telles que le maximum a posteriori (MAP) ou la vraisemblance maximale (ML). Si l’article présenté prend pour exemple applicatif le regroupement de locuteurs, les techniques présentées sont adaptées à toute application nécessitant de sélectionner un modèle statistique adapté et d’apprendre ses paramètres.
Pour conclure, nous ne pouvons que souhaiter que le type d’initiative concrétisé par ce volume se renouvelle : d’autres conférences jointes, d’autres publications communes. C’est la condition pour que les communautés « écrit » et « parole » échangent mieux leurs données, leurs méthodes et leurs résultats pour une meilleure description, une meilleure compréhension du fonctionnement de la langue et de la parole.
Philippe Blache, Jean-François Bonastre, Noël Nguyen Responsables scientifiques de la conférence TALN-JEP
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com