Rubrique préparée par Denis Maurel
LI (Laboratoire d’informatique de l’Université de Tours) [email protected]
Jean Véronis, Parallel Text Processing: Alignment and Use of Translation Corpora, Kluwer Academic Publishers, 2000, 428 pages, ISBN 0-7923-6546-1.
par Nathalie Gasiglia Silex, Université Lille 3 [email protected]
Cet ouvrage de 425 pages, impulsé par les travaux réalisés dans le cadre du projet ARCADE, projet de quatre ans entamé en 1995, permet au directeur de publication, J. Véronis, et à ses partenaires, d’offrir aux lecteurs une vue d’ensemble des systèmes disponibles d’alignements de textes, c’est-à-dire de systèmes permettant de mettre en regard un document dans sa langue source (la langue dans laquelle il a été rédigé) et sa ou ses traductions en langue(s) cible(s) en présentant en vis-à-vis, avec un degré de finesse variable, chaque segment de texte des versions disponibles (le paragraphe, la phrase, voire le mot).
Ce volume, subdivisé en une introduction et trois parties majeures au sein desquelles s’insèrent dix-huit contributions, rédigées par trente-cinq auteurs seuls ou en collaboration, offre des études d’un degré de technicité variable mais d’un intérêt constant sur les trois thématiques abordées : (i) les méthodes d’alignement, thème fondamental puisque découlant directement des savoirs acquis autour du projet ARCADE, font l’objet de neuf chapitres, (ii) pour mieux mettre en valeur les enjeux de ces recherches, la description de cinq applications et enfin (iii) la présentation de corpus existants ou en construction avec, en clôture, une évaluation des méthodes d’alignement qui permet à J. Véronis et P. Langalais de revenir sur le projet ARCADE lui-même.
Après une préface (p. XV-XX) où M. Kay évoque les systèmes d’alignement de textes qui ont émergé à la suite de celui qu’il a mis en place avec M. Roscheisen en 1987, l’introduction de J. Véronis met en perspective les différentes contributions présentées dans les chapitres à suivre. Ce travail de synthèse et de cadrage occupe vingt-cinq pages (p. 1-24) structurées, isomorphiquement à l’ouvrage dans son ensemble, en trois parties suivant l’introduction (1) : méthodologies d’alignement (2), applications (3), puis ressources et évaluation (4).
La présentation de l’ouvrage commence par une réflexion sur la nouveauté très relative du besoin de présenter en colonnes parallèles des blocs textuels constitués respectivement par la rédaction en langue source et sa ou ses traduction(s) : la pierre de Rosette était déjà un exemple de mise en parallèle d’un écrit présenté dans trois langues (grec, égyptien hiéroglyphique et démotique) sur un même support – seul ce dernier point constituant un élément remarquable, puisque les textes parallèles sur supports dépareillés étaient courants dès que deux ou plusieurs langues se trouvaient être en contact. Le fait nouveau, observable depuis une vingtaine d’années, est l’utilisation de ces textes parallèles dans des systèmes de recherche d’informations tels que nous les concevons aujourd’hui, mais cette émergence récente de techniques d’exploitation des données textuelles présentes dans les textes ne doit pas faire oublier la préexistence de ressources de ce type.
Un rapide historique permettra aux lecteurs les moins informés de réaliser à quel point les progrès réalisés dans le domaine sont fulgurants puisque, si en 1980 la nouveauté consistait à envisager de stocker en machine des extraits de traduction, il s’est agi, dès 1987, de mettre au point des méthodes d’alignement automatiques. Les recherches qui ont ensuite abondé dans cette optique et visé un alignement au niveau des phrases relèvent de deux grandes écoles où seules des informations internes aux textes en langues source et cible à aligner sont exploitées, mais en misant ou non sur la présence de paires lexicales dans les phrases traduites. D’autres recherches, plus succinctement présentées dans cette introduction, ont visé un alignement au niveau des mots ou expressions (section 2.2) ou de segments de phrases (section 2.3), que ce soit pour obtenir des mises en parallèle à ce degré de granularité ou, plus réalistement, pour contribuer à l’amélioration des alignements phrases par phrases. La section 2.4 traite des questions d’alignements de textes structurés, c’est-à-dire dont les contenus textuels sont balisés en langage SGML, HTML ou XML ou relèvent de bases de données.
Neuf présentations de méthodes d’alignement sont proposées qui, par leurs vertus didactiques, répondent aux besoins d’informations des lecteurs les moins spécialisés :
– I. Dan Melamed (Pattern recognition for mapping bitext correspondence, p. 25-47), via la présentation des deux systèmes SIMR (Smooth Injective Map Recognizer) et GSA (Geometric Segment Alignment), aborde les questions d’alignement tant en génération qu’en reconnaissance a posteriori ;
– M. Simard (Multilingual text alignment. Aligning three or more version of a text, p. 49-67) s’interroge sur la pertinence qu’il y a, si on souhaite aligner un document disponible en trois langues (ici français, espagnol et anglais), à chercher les deux langues les plus proches pour procéder à un premier alignement puis à étendre l’alignement à la troisième langue à partir de ce premier résultat ;
– Y. Choueka, E.S. Conley et I. Dagan (A comprehensive bilingual word alignment system. Application to disparate languages: Hebrew and English, p. 69-96) proposent d’aligner des textes rédigés dans des langues pour lesquels il est impossible de se baser sur des chaînes de caractères communes pour peu qu’ils disposent pour chacune d’un étiqueteur grammatical et d’un lemmatiseur ;
– L. Ahrenberg, M. Andersson et M. Merkel (A knowledge-lite approach to word alignment, p. 97-116), en présentant le système LWA (Linköping Word Aligner), plaident pour la collaboration de méthodes statistiques et de modules intégrant des savoirs linguistiques, dits légers c’est-à-dire facilement compilables pour une pluralité de langues sans recourrir à des dictionnaires bilingues, lemmatiseurs ou étiqueteurs grammaticaux réputés actuellement peu accessibles pour certaines langues ;
– S. Piperidis, H. Papageorgiou et S. Boutsis (From sentences to words and clauses, p. 117-138) envisagent l’alignement de corpus bilingues avec différents degrés de granularité (de la phrase au mot) et présentent des résultats encourageants pour le couple grec/anglais, aligné au niveau de la proposition et du mot, mais surtout mettent en valeur la nécessaire articulation de différents repères pour parvenir à un alignement de ce type ;
– D. Wu (Bracketing and aligning words and constituents in parallel text using Stochastic Inversion Transduction Grammars, p. 139-167) réfléchit à la validité de systèmes principalement à états finis à partir de quelques problèmes observés en corpus bilingues chinois/anglais ;
– D. Santos (The translation network. A model for a fine-grained description of translations, p. 169-186), en illustrant son propos d’exemples extraits de textes littéraires anglais/portugais, plaide pour la mise en place d’un « réseau de traductions » permettant d’avoir une représentation schématique des traductions présentes dans un corpus bilingue parallèle ;
– C. Fluhr, F. Bisson et F. Elkateb (Parralel text alignment using crosslingual information retrieval techniques, p. 187-200) rapprochent la mise en parallèle d’une phrase et de sa traduction avec la recherche de phrases répondant à une requête (la phrase en langue source) au sein d’un vaste corpus en langue cible ;
– L. Romary et P. Bonhomme (Parallel alignment of structured documents, p. 201-217) montrent comment la structuration des documents (ici en SGML) peut aider à l’alignement et comment dans certains cas les balisages s’avèrent être des repères de mauvaise qualité.
Le deuxième thème abordé dans cet ouvrage permet de mieux comprendre les enjeux présents dans ces questions en permettant aux lecteurs de voir à quoi les corpus alignés peuvent servir. Cinq chapitres sont consacrés à des exploitations relevant des domaines majeurs que sont la constitution de lexiques (terminologiques ou lexicographiques dédiés ici à des systèmes informatiques), la traduction et l’apprentissage de langues étrangères (assistés par ordinateur) ou la recherche d’informations multilingues :
– P. Fung (A statistical view on bilingual lexicon extraction. From parallel corpora to non-parallel corpora, p. 219-236) présente deux méthodes d’extractions de lexiques bilingues, l’une, DKvec, dédiée aux corpus parallèles bruités, l’autre, Convec, pour les corpus bilingues comparables, ces méthodes ayant été appliquées à des corpus anglais/japonais (pour la première seulement) et anglais-chinois ;
– I. Blank (Terminology extraction from parallel technical texts, p. 237-252) se concentre sur la valeur des termes techniques rencontrés dans la documentation multilingue (ici des extraits de deux corpus allemand/anglais/français relatifs à la législation des brevets) et extraits semi-automatiquement, rendant ainsi accessibles des équivalents traductionnels, des contextes d’emploi typiques ou encore des listes de termes dont une partie des constituants sont communs ;
– E. Gaussier, D. Hull et S. Aït-Mokhtar (Term alignment in use – Machine- aided human translation, p. 253-274) se concentrent sur les méthodes d’extractions permettant de constituer des lexiques terminologiques bilingues et des mémoires de traductions fiables à partir de corpus bilingues alignés ;
– R.D. Brown, J.G. Carbonell et Y. Yang (Automatic dictionary extraction for cross-language information retrieval, p. 275-298) comparent différentes méthodes d’extractions, dont l’une exploite un dictionnaire généré automatiquement avec des techniques statistiques, appliquées à un corpus d’entraînement bilingue espagnol/
anglais ;
– J. Nerbonne (Parallel texts in computer-assisted language learning, p. 299-311) démontre les bénéfices qui peuvent être tirés de l’exploitation de corpus bilingues pour l’apprentissage d’une seconde langue par des apprenants de niveaux intermédiaire et avancé en s’appuyant sur les résultats observés chez les utilisateurs du logiciel Glosser.
Après la présentation des méthodes d’alignement actuellement développées et d’un éventail d’exploitations significatives, la troisième et dernière partie de l’ouvrage, plus hétérogène, se focalise sur les modalités de constitution de corpus parallèles japonais/anglais ou anglais/panjabi en chantier, puis sur une proposition de format de structuration de corpus bilingue pour se clore par un bilan du projet ARCADE :
– H. Isahara et M. Haruno (Japanese-English aligned bilingual corpora, p. 313-334) présentent le projet JEIDA (Japan Electronics Industry Development Association), qui vise la constitution d’un corpus aligné japonais/anglais dont les modalités de mise en œuvre sont ici décrites ;
– S. Singh, T. McEnery et P. Baker (Building a parallel corpus of English/Panjabi, p. 335-346) examinent comment construire deux corpus parallèles anglais/panjabi, l’un pour la langue du XVIe siècle, l’autre pour le panjabi moderne ;
– A. K. Melby (Sharing of translation memory databases derived from aligned parallel text, p. 347-368) présente le format TMX (Translation Memory eXchange), codé en XML, qui est dédié à la structuration de bases de données de mémoire de traduction, mais peut également être utilement employé pour l’alignement de textes parallèles ;
– J. Véronis et P. Langlais (Evaluation of parallel text alignment systems. The ARCADE project, p. 369-388) font le point sur les avancées observées en méthodologie d’évaluation grâce au projet ARCADE, qui, durant quatre ans, a permis d’apprécier les productions de douze systèmes d’alignement au niveau des phrases et de cinq systèmes agissant au niveau des mots et de fournir un substantiel corpus de référence.
Federica Busa, Pierrette Bouillon, The Language of Word Meaning, Cambridge University Press, 2001, 202 pages, ISBN 0521780489.
par Emmanuel Bellengier
Laboratoire Parole et Langage, Université de Provence [email protected]
Cet ouvrage est une collection d’articles qui abordent l’épineux problème des relations entre le sens des unités lexicales et la créativité lexicale. Ce livre se propose de répondre à la question suivante : quelle est la signification d’un mot ? La question de la signification des unités lexicales est abordée dans le cadre théorique proposé par James Pustejovsky en 1995, le Lexique Génératif. Le Lexique Génératif (désormais LG) est une théorie formelle de la sémantique lexicale qui se propose d’examiner la manière dont on peut créer une infinité de sens à partir d’un ensemble fini de significations. Cette théorie est dite générative dans le sens où elle permet la prédiction de sens neufs. Le LG est une théorie qui fait porter au niveau du lexique des informations minimales qui seront modifiées par une série d’opérations génératives comme la coercition de types par exemple. L’un des éléments qui fonde le LG est la structure qualia. La structure qualia est le lieu de l’interface entre la syntaxe et la sémantique. La structure qualia est une structure divisée en quatre catégories, chaque catégorie exprime une information sur l’entrée lexicale et permet de déterminer les types de rôles sémantiques en jeu dans cette entrée. Ces catégories sont les suivantes : le rôle constitutif détermine la relation entre un objet et ses constituants, le rôle formel détermine ce qui distingue l’objet à l’intérieur d’un domaine plus large, le rôle télique détermine le but, la fonction et l’activité réalisés par l’objet, enfin, le rôle agentif détermine les facteurs intervenant à l’origine de l’objet.
L’ouvrage est divisé en quatre parties. Nous reprenons ces quatre parties dans l’ordre et détaillons les contributions qui les constituent.
La première partie Linguistic Creativity and the Lexicon propose d’interroger les fondements philosophiques de la théorie envisagée tout au long de l’ouvrage. Cette partie est la partie la plus théorique de l’ouvrage. Elle permet de replacer le LG dans le cadre épistémologique dans laquelle la théorie se situe.
James Mc Gilvray passe en revue les arguments proposés par Chomsky en faveur d’une science de la signification qui doit être une science interne de la langue avec une syntaxe qui lui est propre.
A la suite de cet article, J. Fodor et E. Lepore attaquent la vision internaliste du LG. Les auteurs refusent de voir la signification d’une expression linguistique comme étant constituée par les relations inférentielles qu’elle permet. Pour eux, les concepts doivent être des atomes de sens sans structure interne. Seule la référence doit être marquée au niveau du lexique.
En guise de réponse, J. Pustejovsky réaffirme le principe du Lexique Génératif : la structure qualia est le principe constitutif de la description lexicale qui permet d’interroger la bonne formation des concepts. Décrire une entrée lexicale revient donc à décrire une structure complexe constituée d’éléments simples.
Enfin, Y. Wilks apporte un certain nombre de contre-exemples aux propositions de J. Fodor et E. Lepore en montrant que les relations inférentielles sur le lexique sont possibles et surtout nécessaires à la création de systèmes d’intelligence artificielle.
La deuxième partie, The Syntax of Word Meaning, fournit une série d’analyses de sujets classiques en sémantique lexicale. L’article de J. Pustejovsky apporte des éléments nouveaux à la théorie en proposant une méthode de calcul des types ontologiques. Il distingue trois catégories de types qui sont les types naturels, les types fonctionnels et enfin les types complexes qui permettent de capter des phénomènes avec des dénotations multiples.
J. Jayez pose le problème de l’influence du contexte sur le lexique. Pour l’auteur, il existe un mécanisme complémentaire de sélection du contexte qu’il s’agit de mettre à jour. L’existence de ce phénomène est prouvé par le fait que certains éléments lexicaux contraignent le type de contexte dans lequel ils peuvent apparaître. Ce phénomène est illustré par l’étude de trois verbes français : faire penser à, suggérer et attendre. J. Jayez montre que cette sélection ne peut être réduite à un cadre sémantique général comme celui proposé par J. Pustejovsky mais nécessite le développement d’un cadre plus large.
La contribution de P. Bouillon et F. Busa offre un traitement, dans le cadre du LG, du verbe français attendre. Les auteurs donnent une description sous-spécifiée de ce verbe qui sélectionnera ses types en contexte. La structure qualia est ici envisagée comme une structure fondamentalement dynamique.
L’article de P. Saint-Dizier propose des extensions de la structure qualia. En particulier, plusieurs extensions du rôle télique sont proposées afin de rendre compte de certains phénomènes de variation sémantique. P. Saint-Dizier ajoute des types et traite de l’influence du prédicat dans la construction de la représentation sémantique des couples Nom+Adjectif et dans la relation Verbe+Argument.
S. Climent adresse le problème des constructions partitives en espagnol.
L’argument principal de l’auteur est que la description de ces constructions doit passer par la description des parties en jeu dans la construction partitive. La description est donnée dans le cadre du Lexique Génératif qui permet un découpage aisé des différentes parties de l’information sémantique ainsi qu’un assemblage riche à l’aide des opérations génératives.
L. Danlos analyse les relations qu’entretiennent les unités lexicales et le discours. Elle traite du problème des discours causaux qui expriment une cause directe. A l’aide de la structure événementielle complexe proposée par J. Pustejovsky, l’auteur montre que les verbes causatifs impliquent une relation de coréférence événementielle lorsque le résultat est exprimé par un verbe causatif en emploi transitif.
Cette partie de l’ouvrage appelée The syntax of word meaning doit son nom au fait que toute la créativité du lexique dans la théorie de J. Pustejovsky réside dans la structure qualia qui peut être vue comme le lieu où se réalise la syntaxe de la signification à savoir les règles de combinaison qui permettent de créer des sens nouveaux. Cette partie est constituée d’articles qui développent et critiquent le plus la théorie.
La troisième partie, Interfacing the Lexicon, aborde les relations qu’entretient le lexique avec certains phénomènes qui sont en apparence extra-lexicaux mais qui sont constitutifs de la connaissance lexicale.
J. Moravcsik réaffirme les principes de sa théorie linguistique qui utilise une structure de types internes similaire à la structure qualia du LG. Il propose de créer une théorie de la signification métaphorique qui devra montrer que le phénomène métaphorique est avant tout un processus sémantique interne. Asher et Lascarides proposent une méthode de calcul de l’interprétation métaphorique. Les auteurs utilisent deux cadres d’analyse, un ensemble de règles lexicales et une sémantique formelle du discours, qui, liés, leur permet de produire une analyse de la métaphore qui prend en compte la contribution de la connaissance sur le monde et de la structure rhétorique.
L’article de J. Hobbs réinterprète la relation entre la syntaxe et la sémantique dans le but de traiter des phénomènes de métonymie. Pour l’auteur, l’extraposition est une métonymie. La connaissance n’est pas uniquement située dans la structure interne du lexique mais viendrait aussi des phénomènes de raisonnement comme le phénomène d’enlèvement par exemple.
A. Kilgariff propose de mettre le LG à l’épreuve d’une étude empirique de phénomènes non standard. Les phénomènes non standard que Kilgariff étudie sont des utilisations métonymiques et métaphoriques de certains termes. L’auteur critique le LG et affirme qu’une théorie de la sémantique lexicale qui ne prend en compte que des phénomènes sémantiques individuels ne peut pas rendre compte des variations contextuelles.
Le sentiment général qui ressort de cette partie est qu’une sémantique lexicale interne seule ne peut pas rendre compte de manière satisfaisante des modifications du sens lexical induites par le contexte. Il est donc nécessaire d’y intégrer des mécanismes externes permettant de gérer des informations d’ordre extérieur.
Enfin, la quatrième partie, Building Resources, fait un état de l’art des projets de constructions de ressources lexicales à large couverture basées sur le Lexique Génératif. L’idée générale est que le type de représentation lexicale envisagée affecte directement la forme des données à coder.
Les deux premiers articles traitent du projet SIMPLE (Semantic Information for Multifunctional Plurilingual Lexica). L’article de Busa et al. décrit l’architecture du modèle basé essentiellement sur le Lexique Génératif. Ce modèle génère des concepts à partir d’un ensemble de catégories ontologiques.
L’article suivant décrit les résultats du développement d’un lexique sémantique italien dans le cadre du projet SIMPLE. L’article s’attarde plus particulièrement sur les noms abstraits.
Le dernier article traite des problèmes de gestion de la polysémie que présente le projet EuroWordnet. L’auteur adopte une perspective générative et propose d’utiliser des types complexes, afin de réduire l’énumération des sens particuliers.
On pourra reprocher à cette partie, qui se propose de faire un état de l’art des projets de constitution de corpus sémantique à large couverture, de ne pas fournir de résultats empiriques quantifiés et de se contenter de grandes présentations méthodologiques.
Analyse critique de l’ensemble
Les contributions au présent ouvrage offrent une vision d’ensemble intéressante des problèmes épineux qu’offre la sémantique lexicale. La division nette de l’ouvrage en quatre parties permet un accès rapide à l’information. De plus, l’introduction rédigée par les éditeurs introduit clairement les articles. Pour ce qui est de la forme générale de l’ouvrage, un index général est fourni à la fin du volume.
Les contributions sont relativement homogènes tant dans leur taille que dans leur intérêt scientifique.
Toutefois, on peut regretter la reproduction de la controverse opposant J. Fodor et E. Lepore à J. Pustejovsky. Il aurait été intéressant d’avoir un point de vue plus
neuf sur ce problème de la part des protagonistes. De plus, l’article de Y. Wilks, dont le point de vue est strictement computationnel, est légèrement en décalage par rapport aux préoccupations des auteurs.
La plupart des articles sont des travaux qui présentent une application de la théorie de Pustejovsky. Seul son propre article, Type construction and the logic of concepts, apporte des éléments nouveaux au modèle. Cet ouvrage intéressera tout particulièrement les linguistes français qui pourront y lire quatre contributions dont les études sont largement illustrées par des exemples français. Ce nombre important de contributions d’auteurs francophones marquent l’importance que revêtent aujourd’hui, en France, les études en sémantique formelle. Ces contributions reflètent bien la tendance actuelle des travaux qui s’attaquent au problème de la prise en compte du contexte et qui le résolvent en mettant en œuvre des structures sous-spécifiées. Cette deuxième partie offre les points de vue les plus critiques sur la théorie de J. Pustejovsky et pointe une des limites du LG qui est la prise en compte de données contextuelles.
En résumé, The Language of Word Meaning offre des éléments de réponse à la question posée au début de l’ouvrage. Le grand intérêt de cet ouvrage réside dans le fait que les contributions se divisent autour des pôles qui construisent la sémantique lexicale i.e. la philosophie, la linguistique et la pragmatique et l’informatique. On peut toutefois regretter le manque d’étude sur l’aspect. Cet ouvrage offre un état de l’art de très grande qualité des études autour du Lexique Génératif. Il est à conseiller à toute personne intéressée par le modèle de J. Pustejovsky.
Antonis Botinis, Intonation: analysis, modelling and technology, Kluwer Academic Publishers, 2000, 408 pages, ISBN 0-7923-6605-0.
par Jean-Sylvain Liénard LIMSI-CNRS
Le présent ouvrage est consacré à l’« intonation », c’est-à-dire aux aspects de la prosodie qui sont linguistiquement significatifs au niveau de la phrase et de ses composants. Plus précisément, l’intonation comprend tout ce qui concerne le groupement des mots, les frontières des groupes, leur hiérarchisation dans la phrase, et les compléments de sens tenant à l’interaction entre les interlocuteurs (question, déclaration, mise en relief de telle ou telle partie du discours). L’ouvrage, issu d’un colloque international tenu en 1997, est introduit par un chapitre général et présente ensuite diverses études, classées en trois grandes rubriques selon l’approche et la finalité : analyse, modélisation et technologie.
Dans l’introduction Mario Rossi constate l’émergence d’un puissant courant d’intérêt pour l’intonation et distingue deux tendances complémentaires, l’une visant à faire des mesures sur le signal, l’autre à élaborer des modèles à partir des
observations ou des théories linguistiques. Il indique deux approches possibles de l’intonation, vue soit comme une succession d’unités prosodiques, soit comme la superposition de contours intonatifs de portée différente. Il mentionne deux grandes tendances de la recherche, selon la place accordée à l’étude des courbes prosodiques elles-mêmes (et en premier lieu l’évolution de la fréquence fondamentale de la voix, F0), et aux fonctions linguistiques qui leur sont associées. Dans cette dernière tendance il indique clairement que l’idée d’une congruence parfaite entre la syntaxe et l’intonation appartient au passé, et que les fonctions à prendre en compte sont plutôt d’ordre sémantique et pragmatique.
La deuxième partie est consacrée à l’analyse, c’est-à-dire à l’étude du matériau de parole dans le but de comprendre comment la prosodie permet de mettre en relief certains composants du discours (syllabes, mots, groupes), de délimiter et d’identifier ces composants. On y trouve un article consacré à la notion relativement récente de « proéminence », qui vise à fonder l’étude de l’intonation sur l’ensemble des paramètres prosodiques au lieu du seul F0. La proéminence relève à la fois de la perception et de la production. L’objectif des recherches est de la mettre en correspondance avec les structures linguistiques ou pragmatiques de plus haut niveau.
Un autre article vise à démontrer que des phrases ambiguës à l’écrit peuvent être désambiguïsées par la seule prosodie. Le dernier article de cette partie présente également une étude sur les conditions de l’accent focal dans deux langues différentes. L’accent focal permet d’attirer l’attention de l’auditeur sur l’un des éléments de la phrase et supplée ainsi à l’absence de contexte.
La troisième partie traite du rôle démarcatif de l’intonation dans le discours, c’est-à-dire du découpage de celui-ci en constituants et de leur rôle dans l’échange verbal entre interlocuteurs. Elle débute par une étude distinguant quatre types de phrases : phrases déclaratives, phrases interrogatives, questions appelant une réponse par oui ou non, et enfin, « questions déclaratives » dont seule la prosodie indique l’intention interrogative. Une remontée finale de F0, brève et marquée, est sans aucun doute un indice fréquent de structure interrogative, mais ce n’est pas le seul et il n’apparaît pas dans toutes les formulations interrogatives. De nombreux indices prosodiques manifestent sans ambiguïté l’intention exprimée par le locuteur, et ceci bien avant la fin de la phrase.
Une autre étude s’intéresse à la répartition des indices intonatifs dans un corpus de parole quasi spontanée, constitué d’histoires racontées de mémoire par des sujets, juste après les avoir lues à voix haute. Les courbes de F0 sont ensuite mesurées, stylisées, modélisées, étiquetées en termes d’accents, de tons et de frontières de groupes prosodiques, et ces étiquettes sont mises en rapport avec les structures linguistiques et informationnelles du discours. De cette étude il ressort que les locuteurs utilisent divers indices prosodiques pour indiquer la présence d’une information nouvelle dans le discours et pour souligner des concepts importants,
plus que pour marquer des frontières de nature syntaxique ou pour hiérarchiser les unités du discours.
Cette même question de la position des accents prosodiques en fonction des contraintes de tous ordres gouvernant le discours est reprise dans l’article suivant à partir de deux corpus, l’un constitué d’annonces radiophoniques enregistrées dans des conditions réalistes, et l’autre de textes lus par des professionnels. L’article vise en particulier à mettre en évidence un « effet de discours » (de longue portée) sur le placement des accents.
La quatrième partie, consacrée à la modélisation de l’intonation, regroupe des articles dont l’ambition est non seulement de rendre compte de faits observés, mais aussi d’en élaborer les lois d’organisation sous la forme de modèles plus ou moins formels. Elle commence par une étude de l’intonation vue à deux niveaux d’abstraction différents. Le premier niveau est celui de la courbe représentant l’évolution de la fréquence F0 elle-même. Cette courbe, telle qu’elle est fournie par les nombreux algorithmes existant depuis une cinquantaine d’années, comporte de nombreux accidents et lacunes. Les auteurs proposent de la représenter par une suite de points caractéristiques (cibles) qui aient une pertinence sur le plan de l’intonation et qui permettent de reconstruire une courbe de F0 perceptivement identique à celle de la séquence originale. Le second niveau est celui de l’interprétation intonative de cette suite de points-cibles. Le résultat en est une suite de symboles décrivant objectivement les évolutions de l’intonation, sous un aspect phonologique, tout au long de la séquence. Comme pour le premier niveau, la pertinence de cette analyse automatique est vérifiée par synthèse et comparaison avec la courbe de F0 originale.
L’article suivant propose une décomposition de la courbe intonative de la phrase française en deux types d’unités prosodiques de niveaux d’abstraction distincts : au bas niveau une unité dite « accentuelle », sorte de « mot prosodique » dont la forme de base comporte deux accents syllabiques, et au niveau supérieur (phonologique), une unité plus vaste (unité « intonative »), délimitée par un accent final bien marqué. Les auteurs plaident pour la prise en compte d’un troisième type d’unité dite « intermédiaire », permettant notamment de rendre compte de phénomènes intonatifs tels que l’accent focal.
L’étude qui suit traite du phénomène de la décroissance progressive de F0 au long d’une phrase déclarative. Ce phénomène a été observé dans de nombreuses langues et situations, mais il est difficile de le mettre en évidence de manière non ambiguë, car l’évolution de F0 dépend de nombreux facteurs phonétiques, syntaxiques et pragmatiques. Le mandarin permet une approche élégante de ce problème : si les mots utilisés pour construire les phrases de test sont constitués uniquement de tons hauts, de nombreuses causes de variation intonative se trouvent neutralisées et l’on peut plus facilement isoler le phénomène de déclinaison.
Le dernier chapitre de cette partie examine de manière approfondie la position temporelle de l’accent dans un type de groupe prosodique constitué par une montée suivie d’une descente et d’un ton bas (profil d’un groupe déclaratif monoaccentué).
La position du pic de F0 ne se réduit pas à un retard fixe par rapport au début de la première syllabe, ni à un certain pourcentage de la durée totale du groupe. Le modèle proposé pour prédire cette position prend en compte diverses « parties » du groupe prosodique : les parties initiale et centrale de la syllabe accentuée, ainsi que le reste du groupe.
La dernière partie est relative à la technologie, envisagée non seulement comme terrain d’application des recherches sur l’intonation, mais aussi comme outil de recherche. On y trouve en premier lieu la description d’un ensemble de travaux menés en Suède sur l’intonation et son application à la synthèse. Les auteurs adoptent une démarche empirique, à partir de l’étude par analyse et resynthèse de divers corpus de parole spontanée. Ils s’efforcent de prendre en compte un ensemble d’informations de divers niveaux, syntaxique, pragmatique, discursif, fournies par des auditeurs experts.
Par un travail interactif d’analyse, modélisation et synthèse, les chercheurs s’efforcent de reconstruire un signal qui soit perceptivement comparable à l’original. Par ailleurs certaines des connaissances ainsi acquises sont appliquées à un système de synthèse à partir du texte (donc sans analyse préalable), destiné soit à convertir en parole un texte donné, soit à servir d’interface dans un système de dialogue homme-machine, conjointement avec un système de reconnaissance automatique.
L’étude suivante traite sensiblement du même sujet, pour la langue française. La démarche est cependant bien différente de la précédente et constitue en fait le développement d’une théorie de l’intonation du français, avec application à la synthèse. Cette application est mise en œuvre dans un système de synthèse à partir du texte dont la qualité perceptive est évaluée au moyen de tests comparatifs.
Le dernier chapitre traite d’une possible utilisation des paramètres prosodiques comme aide à la reconnaissance automatique. L’auteur limite son propos à l’utilisation de certains paramètres prosodiques pour améliorer la reconnaissance de mots-clés dans un système de service vocal (numérotation automatique, renseignement sur les spectacles). L’idée est de réévaluer le résultat donné par un système de reconnaissance classique (markovien), en prenant en compte lors d’un post-traitement des contraintes prosodiques observées sur les mots ou expressions attendus. Les résultats semblent positifs, en termes de réjection de mots erronés. Le paramètre prosodique le plus efficace pour cette tâche est la durée syllabique.
Finalement, nous avons là un ouvrage destiné à des spécialistes, linguistes, ingénieurs, phonéticiens, psychologues, qui possèdent déjà les bases de l’étude de la communication parlée et qui souhaitent s’ouvrir au domaine de l’intonation.
Certains des articles sont très techniques, et nul article d’introduction n’est là pour préciser des notions qui apparemment vont de soi, comme les présupposés du système ToBI de notation de l’intonation, la difficulté qu’il y a à mesurer F0 dans le signal de parole ordinaire et bien d’autres connaissances de tous ordres. Mais, s’il parvient à surmonter ces difficultés, le lecteur sera récompensé par une compréhension d’ensemble des outils et des points de vue qui constituent, dans leur diversité, un domaine de recherche en pleine émergence.
Frédérique Segond, Multilinguisme et traitement de l’information, Hermès- Lavoisier, 2002, 252 pages, ISBN 2-7462-0523-8.
par Pascal Vaillant
GEREC-F, Université des Antilles et de la Guyane [email protected]
Curieux pari que celui de ce livre : il rassemble, en une dizaine de chapitres, à la fois l’exposé des questions les plus problématiques concernant les limites du TAL cognitiviste lorsque celui-ci s’attaque à la variété des langues et des textes, et des descriptions sans état d’âme de ses utilisations technico-industrielles.
Multilinguisme et terminologie
Si l’on veut entrer dans le vif du sujet, il faut lire d’emblée le texte de Slodzian qui constitue le chapitre 4 (et, d’une certaine manière, le noyau) de cet ouvrage. Il pose les termes des problématiques qui inquiètent, ou devraient inquiéter, tous les spécialistes de traitement de l’information confrontés à une routinière
« ontologisation » de leur travail. Devant la multiplication de travaux de linguistique informatique qui font intervenir, pour résoudre la question du sens, des terminologies, des ontologies, des hiérarchies de concepts, et des logiques de description par types, il y a, en effet, matière à s’arrêter un moment et à réfléchir.
Tous les travaux qui, dans cette lignée de la terminologie logiciste, cherchent à rationaliser les significations en les faisant entrer dans des grilles statiques et convertibles d’une langue à l’autre, partent en effet du même a priori ontologique : l’information est véhiculée par des termes, et ces termes doivent être clairs et non ambigus, car ils doivent référer sans ambiguïté à des concepts bien définis. C’est bien cet ancrage dans une réalité conceptuelle – sinon chosale – qui doit garantir l’indépendance de ces termes vis-à-vis de telle ou telle langue particulière, et qui donne à la terminologie l’autorité de se poser au centre du problème du multilinguisme. Or, comme le démontre Slodzian, il n’est malheureusement pas possible de créer empiriquement une terminologie logique, universelle, et non ambiguë. La terminologie ontologique voudrait définir le terme non au sein de la langue, en relation avec ses contextes d’emploi, mais au sein d’un système extralinguistique, en relation avec d’autres entités immuables du même système ; quête vaine et sans fin visible, tant les efforts pour stabiliser les termes (en particulier dans les domaines de spécialités) se voient sans cesse débordés par l’emploi. La perspective ontologique bute en réalité sur l’indépassable donnée que les textes, même techniques, sont toujours des textes, et que les rédacteurs, même techniques, utilisent des langues pour écrire.
Dans le chapitre de Chiao et Sta consacré à l’extraction de terminologie à partir de corpus multilingues (chapitre 5), des producteurs et consommateurs de terminologie le notent eux-mêmes : dans les textes les plus « intéressants », ceux des domaines de connaissance en développement, les concepts émergents n’ont pas encore de « terme » attitré ; ils le cherchent à tâtons dans les trouvailles linguistiques des rédacteurs. Seuls les concepts usés correspondent à des termes – ce qui fait écrire à Y.C. Chiao et J.-D. Sta cette formule plaisante mais un peu décourageante :
« par définition, une terminologie est toujours obsolète » (p. 114). La solution suggérée ici par, entre autres, Chiao et Sta, est de replonger régulièrement dans les textes pour renouveler sa terminologie. Sans hésiter à affronter l’amoncellement de documents disparates que constitue la toile.
Cela étant, s’il existe des domaines émergents pour lesquels « une terminologie est toujours obsolète », c’est-à-dire des zones de l’activité de connaissance où les normes terminologiques futures sont encore en genèse dans les textes, il existe également des domaines où la rigidité des définitions et le respect d’une norme déjà fixée entrent légitimement dans le rôle que l’on assigne aux textes. Le treillis conceptuel d’une ontologie correspond au fond à la densité de recouvrement des expériences au sein d’une communauté de pratique : deux ouvriers qui se servent de deux outils en tous points identiques, et effectuent avec lui les mêmes gestes, ont probablement en effet un « concept » en commun, si une telle chose existe et la correspondance des « termes » qu’ils utilisent, pour peu qu’ils n’emploient pas la même langue, peut être postulée. C’est donc tout naturellement pour le cas de domaines aux pratiques fortement encadrées que ce livre donne des exemples d’utilisation de terminologies rigides : celui des notices de médicaments (chapitre 6, Caroline Brun et Marc Dymetman), et celui des guides techniques dans l’aéronautique (chapitre 7, Sylvie Regnier et Eva Dauphin).
Ces deux chapitres semblent illustrer à l’extrême les choix critiqués par Slodzian : ils décrivent l’usage de spécifications linguistiques extrêmement figées, tant en ce qui concerne les termes qu’en ce qui concerne leur combinatoire possible.
Brun et Dymetman se placent dans le cadre d’un système de génération multilingue (ou plutôt, de rédaction contrôlée) de notices d’utilisation de médicaments. Leur système permet aux rédacteurs de composer un texte comme on compose son menu dans un restaurant : en sélectionnant les différentes branches d’un arbre de choix. Il ne s’agit plus alors d’écrire, mais simplement de contrôler au fur et à mesure que la version générée dans sa langue maternelle correspond à ce que l’on attend (le système se chargeant tout en même temps des autres langues). Régnier et Dauphin rapportent l’expérience d’utilisation de langues contrôlées (simplified english, puis français rationalisé) dans la rédaction de tous les textes techniques d’une grande entreprise. Dans les deux cas, on est en présence de domaines : (a) figés (par nécessité) ; (b) hautement normalisés ; et (c) fortement contraints (notamment à cause des implications, en termes de sécurité des personnes, de la compréhension des textes techniques).
On comprend la nécessité de rédiger des guides de maintenance de moteurs d’avion dans un anglais qui pourra être rédigé par un Allemand et lu par un Espagnol. On conçoit de même l’importance de fournir des notices de médicaments qui laissent le moins d’incertitudes possibles à leurs utilisateurs. Les domaines se prêtent certes à cette normalisation des concepts : les citoyens européens partagent par exemple un nombre considérable de pratiques communes en ce qui concerne les soins médicamenteux, et « gélule » se traduit admirablement en « capsule » et en
« Kapsel » (en aurait-il été de même à une autre époque ?) Et pourtant, même au coeur de cette langue spécifiée à l’avance, il existe des variantes de style et de niveau d’expertise, qui conduisent à choisir, selon à qui l’on s’adresse, tantôt
« malaria » et tantôt « paludisme », tantôt « whooping cough » et tantôt
« pertussis ».
Par ailleurs, l’un des enseignements tirés par Régnier et Dauphin de plusieurs années d’expérience d’introduction d’outils d’ingénierie linguistique auprès des rédacteurs ou traducteurs de textes techniques, appelés à travailler pourtant sur une langue ultra-spécifiée et quasiment artificielle, a de quoi laisser pensif : le TAL ne résout pas leurs problèmes comme ils l’espéraient. Les systèmes de génération, pour aller vite, sont pénibles en entrée et ne donnent rien de bon en sortie ; les systèmes de traduction automatique butent sur l’analyse de phrases techniques, notamment celles rédigées en style télégraphique (courant dans ce domaine, cf. p. 169). Pire : la mise en place généralisée d’outils de TA provoque un rejet général et durable (p. 171). Enfin, langue contrôlée ou pas, « une part non-négligeable de subjectivité intervient dans les mesures de qualité de l’information, les notions de compréhensibilité et de lisibilité étant souvent sujettes à interprétation » (p. 172). La langue contrôlée est donc toujours une langue : elle ne parvient pas à supprimer la liberté du lecteur.
Les chapitres 6 et 7 ne sont donc en fin de compte pas contradictoires avec le chapitre 4, mais confirment plutôt, par les limites mêmes – honnêtement décrites – des méthodes terminologiques classiques, dans les domaines où elles sont précisément les plus justifiées, le rôle fondamental de la dimension textuelle, de la liberté de l’auteur et du lecteur. Le TAL à sa manière, la normalisation linguistique à la sienne, sont des machines à broyer la langue – mais elles n’arrivent jamais totalement à leurs fins.
Multilinguisme et l’internet
Pour une terminologie dynamique, donc, si l’on en revient à la solution de Chiao et Sta, il y a la toile. Mais la toile est-elle elle-même une source fiable de données ? Est-elle réellement multilingue, et que peut-on espérer en faire ? Ce sont à ces questions que se consacrent les trois premiers chapitres de l’ouvrage.
Dans le chapitre 3, Chaudiron fait une analyse de l’utilité du web dans une perspective de veille informationnelle. Il met le doigt sur les défauts persistant
depuis la naissance – et toujours d’actualité – de ce gigantesque réservoir sans propriétaire ni autorité de contrôle : sur l’internet, il n’existe aucune procédure garantissant la fiabilité et l’authenticité de la source, ce qui laisse ouvertes toutes les possibilités de désinformation, involontaire ou volontaire ; les informations périmées sont majoritaires ; les sites affichent de nouvelles versions à des localisations différentes de celles des anciennes, qui ne sont par ailleurs pas supprimées ; des versions pirates des documents sont accessibles sur différents sites, sans qu’on puisse savoir laquelle est l’originale ; certains documents sont fragmentés sur plusieurs sites ; l’absence de méta-information, enfin, rend la plupart du temps impossible l’attribution d’une date ou d’un auteur (p. 67-69). Stéphane Chaudiron aurait sans doute pu mentionner les efforts récents du groupe « web sémantique » du W3C pour développer des normes de méta-information comme RDF ; mais vu l’ambition de ces normes, et, parallèlement, l’ardeur avec laquelle elles sont appliquées jusqu’à maintenant, le sujet reste effectivement annexe.
Stéphane Chaudiron donne par ailleurs un panorama utile des questions techniques en relation avec le sujet du multilinguisme sur l’internet : il fait le point sur les systèmes d’encodage de différents jeux de caractères, et sur les différents protocoles d’application construits sur la couche de base de l’internet (TCP/IP), en comparant leur adaptation plus ou moins grande à la prise en charge d’autres langues que l’anglais.
L’anglais est en effet, depuis la naissance de l’internet aux Etats-Unis, la langue toujours largement majoritaire sur le web, et l’une des questions qui fait débat est justement de savoir si ce dernier va favoriser l’hégémonie croissante de cette langue hyperdominante, ou plutôt offrir un nouveau terrain d’expansion aux langues dominées. Certains indices laissent penser que les deux tendances sont à l’œuvre, et Nunberg (chapitre 1) présente divers éléments de réponse à ces questions, sans qu’aucun fait, comme il se doit, ne permette réellement de trancher.
L’étude de Geoffrey Nunberg date malheureusement un peu (1999), et l’on sait comme les mois qui passent périment vite les chiffres en ce qui concerne l’internet ; mais on peut penser que pour ce qui concerne les tendances générales, ces réflexions sont toujours d’actualité. C’est le cas notamment du phénomène de
« localisation » (ce paradoxal corollaire inversé de la « mondialisation ») : comme toutes les grandes firmes multinationales cherchent à s’adresser à chacun dans sa
« langue régionale », on voit une proportion moins grande d’anglais qu’il y a une dizaine d’années dans les produits destinés au grand public ; en revanche, le français, l’allemand, ou le portugais dans lequel ces messages sont rédigés est de plus en plus contaminé par des calques ou des structures de phrases américaines – sans parler de la Weltanschauung qui les accompagne. G. Nunberg égratigne par ailleurs avec bonheur les agaçants mythes panglossiens : de l’internet comme forum public mondial où tous les sites sont égaux (en réalité, 95 % des clics concernent 2 % des sites, essentiellement des sites commerciaux) ; de l’internet comme moyen pour les petits pays de donner à leur langue une audience internationale (en réalité, dans les pays à faible taux de pénétration du réseau, les sites surcompensent en
offrant 80 % des pages en anglais) ; de l’internet comme moyen pour n’importe quel citoyen de faire entendre sa voix (en réalité, la communication sur l’internet exige la maîtrise de certains cadres et de certaines techniques, et que ceux-ci soient nouveaux par rapport à ceux de la prose écrite traditionnelle ne change pas le fait) ; de l’internet comme moyen de fonder une démocratie virtuelle intégrale. Malgré cet iconoclasme mesuré, le texte de Nunberg reste imprégné d’un certain optimisme de bon ton, du type anglocentré mais rassurant envers les petites langues, qu’on a du mal à complètement partager – d’autant que certaines affirmations semblent manquer de nuance (« on ne peut plus parler d’un public scientifique pour le français ou l’italien », p. 45).
Pour chiffrer le débat sur la part des différentes langues sur la toile, G. Greffenstette (chapitre 2) propose une technique simple et ingénieuse d’évaluation de la proportion de chaque langue dans la base de données indexée par le moteur de recherche AltaVista – dont la recette ne sera pour le suspense pas dévoilée ici. Au-delà de ce sujet précis, le chapitre de G. Greffenstette illustre bien le fait qu’avec le retour aux textes et aux corpus évoqué par M. Slodzian, l’activité qui tend à devenir prépondérante au sein de l’ingénierie de l’information est le bricolage. Avec des corpus, quelques règles statistiques, et de l’inventivité, on peut résoudre empiriquement des questions comme celle de la meilleure traduction d’un composé nominal. G. Greffenstette pêche cependant peut-être par naïveté en supposant que l’on pourrait systématiser ce type de méthodes en les appuyant sur des dictionnaires bilingues ne mentionnant que des correspondances entre un mot simple et un autre mot simple. S’il faut consacrer des forces à ce type de ressources, le développement rapide d’expériences de dictionnaires collaboratifs, fondés sur la mise en commun des connaissances des utilisateurs (comme par exemple dict.leo.org, dictionnaire électronique gratuit et collectif, Université de Munich) prouve que l’on peut également produire des choses utiles avec des êtres humains.
Applications des techniques du TAL
Les trois derniers chapitres du livre, enfin, regroupés sous le titre « Applications multilingues », décrivent plus en détail des techniques de traitement de l’information et leurs applications possibles dans des contextes multilingues. Elisabeth André et Thierry Declerck (chapitre 9) évoquent les enjeux de l’extraction d’information lorsqu’au multilinguisme s’ajoute le problème de la multimodalité : on peut ainsi espérer indexer des objets non textuels (comme des séquences vidéo) sur la base de termes extraits des textes coémis (transcription de la bande son, ou textes collatéraux).
Caroline Brun, Thibault Parmentier, Agnes Sándor et Frédérique Segond (chapitre 10) décrivent les diverses extensions que le basculement dans le monde de l’enseignement à distance en ligne peut permettre de greffer au domaine, plus traditionnel, de l’enseignement assisté par ordinateur. Là encore, outre la nouvelle dimension que constitue l’interactivité, les énormes masses de textes de la toile attendent d’être exploitées en fonction des intérêts de chaque utilisateur, grâce à des outils de recherche
d’information, de dictionnaire dynamique capable de désambiguïsation sémantique, ou de repérage automatique des structures linguistiques.
Luca Dini (chapitre 8) décrit un système d’extraction d’information capable de retrouver, dans une masse de textes puisée sur la toile, les information nécessaires pour remplir les cases vides de schémas prédéfinis ; ces schémas sont ensuite utilisés pour générer des comptes-rendus dans diverses langues, qui ne sont pas forcément la langue des documents source. Ici, les domaines d’application sont supposés suffisamment normalisés pour que le multilinguisme ne soit qu’un problème technique de mise en correspondance de termes équivalents : il s’agit, pour ce qui est décrit dans cet ouvrage, des nouvelles concernant les conseils d’acquisitions financières (un grand classique de MUC), et d’informations touristiques dans l’Union européenne. Là encore, on ne peut se forcer à être complètement convaincu que, même dans ces domaines rigoureusement délimités, l’équivalence terminologique exacte puisse exister. L’auberge française n’est ni l’albergo italienne, ni vraiment non plus la penzione, qui elle-même n’est pas tout à fait la pension, qui n’est pas la Penzion allemande, sans parler des différences de traitement auxquelles on peut s’attendre entre une Zimmer frei et un Bed and Breakfast... Mais à un lecteur exagérément tatillon, on expliquera peut-être dans quelques années que c’est la mise en correspondance, de force, des termes, qui aura créé l’équivalence, de fait, des concepts ?
Conclusion
En conclusion, cet ouvrage, hétéroclite mais non incohérent, présente les réflexions de chercheurs envisageant le multilinguisme sous des abords très différents, de la réflexion épistémologique (Slodzian) au foisonnement technologique (C. Brun, T. Parmentier, A. Sándor et F. Segond). Il donne ainsi au moins une première illustration, par ce fait même, de l’ambiguïté terminologique, en l’espèce celle du mot « multilinguisme ». Puisque toute réflexion touchant au multilinguisme implique une réflexion sur la correspondance des sens, une ligne de tension des recherches actuelles en TAL traverse, par la force des choses, tout l’ouvrage : celle qui sépare le paradigme cognitiviste, hérité de l’intelligence artificielle et le paradigme empirique, qui fait provenir toutes les connaissances des textes. Dans Multilinguisme et traitement de l’information, on voit les deux paradigmes à l’œuvre. Les contributeurs de l’ouvrage sont majoritairement des empiristes, mais ils utilisent bien souvent les outils qui relèvent du concept.
Dans la forme, on regrettera simplement que pour un livre consacré au multilinguisme, cet ouvrage laisse subsister, par inattention, tant de traces d’une rédaction fondamentalement anglophone, à l’origine, de ses contributions : les noms de langue en anglais dans le tableau de la p. 54, les « version(s) française(s) de l’interface » qui sont en fait en anglais (p. 147), ou encore les schémas partiellement traduits (p. 188, entre autres).