Article pp.155-166 du Vol.44 n°1 (2003)

(1)

Rubrique préparée par Denis Maurel

LI (Laboratoire d’informatique de l’Université de Tours) maurel@univ-tours.fr

Frank Van Eynde, Dafydd Gibbon, Lexicon Development for Speech and Language Processing, Text, Speech and Language Technology n° 12, Kluwer Academic Publishers, Dordrecht, 2001.

par Françoise Gayral LIPN, Université Paris 13 fg@lipn.univ-paris13.fr

Paru trois ans après, ce livre provient de la 5^e école d’été sur « Language and Speech Communication » qui s’est tenue pendant l’été 1997 à Leuven en Belgique.

Il réunit 9 chapitres écrits par des conférenciers présents. Que les lecteurs intéressés par la sémantique lexicale (ce qui est mon cas) passent leur chemin ! Il n’est à aucun moment question de sémantique dans ce livre qui est plutôt consacré aux tâches de plus bas niveau. C’est bien dommage que le titre ne l’indique pas davantage.

Le premier chapitre par D. Gibbon propose une vue d’ensemble du champ de la lexicographie computationnelle. Il sert aussi d’introduction aux concepts de base qui vont être utiles pour la lecture des articles qui suivent. Ces deux objectifs s’entremêlant, ce chapitre apparaît comme une présentation un peu fourre-tout allant d’approches très générales à d’autres beaucoup plus techniques. L’orientation

(2)

scripts). Ce mélange de niveaux et le manque d’explicitation des objectifs de la construction d’un lexique font qu’on est très déçus par cette introduction. Le recul qu’on aurait pu en attendre n’y est pas.

Le deuxième chapitre de G. Boum, F. Van Eynde et D. Flickinger concerne le formalisme HPSG qui donne beaucoup d’importance au lexique. Dans ce cadre, la question de l’élimination de la redondance et de la prise en compte de régularités lexicales est cruciale. Les techniques habituelles en HPSG sont la définition de règles lexicales et l’héritage. L’article présente une nouvelle technique basée sur des contraintes relationnelles. Celles-ci expriment des relations entre attributs qui peuvent soit forcer l’instanciation des valeurs de certains attributs, soit seulement les contraindre. Les auteurs présentent une comparaison entre les trois méthodes sur la question de l’inversion sujet/auxilaire.

Le troisième (L. Cahyl, J. Carlson-Berndsen, G. Gaznar), très technique, est un tutoriel sur DATR, langage de description lexicale développé en Allemagne. Ce langage peut être utilisé aussi bien pour des applications en phonologie, en morphologie, en syntaxe et en sémantique.

L’information y est organisée comme un réseau de nœuds. A chaque nœud est attaché un ensemble d’informations, sous forme d’équations exprimant des fonctions de chemins (les partie gauches des équations) vers des valeurs (leurs parties droites). Les exemples donnés concernent la phonologie.

Le quatrième de W. Daelemans, G. Durieux concerne l’apprentissage symbolique pour l’acquisition de données lexicales à partir de données phonologiques. La première application touche l’apprentissage de la prononciation des mots et la deuxième prédit la catégorie grammaticale du genre des mots en allemand. Pour cette dernière application, leurs résultats montrent que l’on peut acquérir (à près de 80 %) cette catégorie grammaticale. Assez surprenant si l’on pensait que l’assignation d’un genre à un mot était largement arbitraire. Très peu de détails techniques sont donnés.

G. Grefenstette, A. Schiller, S. Aït-Mokhtar présentent dans le chapitre 5 un ensemble de techniques « bas-niveau » permettant de reconnaître et d’extraire des structures lexicales à partir de corpus de textes portant sur un domaine spécifique ; ces patterns, une fois extraits, pourront être utilisés à la construction de lexique.

Mais la présentation ne va pas jusqu’à la réalisation de cet objectif. Sont présentées quatre étapes d’un traitement de bas niveau d’analyse de corpus : la segmentation, l’étiquetage et le shallow-parsing. La technique utilisée dans ces étapes repose essentiellement sur les automates d’états finis. A chacune de ces étapes, l’annotation du texte s’enrichit, se précise. Les auteurs se concentrent sur la présentation de IFSP (Incremental Finite-State-Parsing) développé à Xerox qui permet d’introduire de nouveaux marqueurs dans le texte taggé (marqueur de fin de segment, de fin de groupe nominal/verbal…).

(3)

Les trois chapitres suivants se concentrent sur des applications concernant le langage oral. Le premier (C. Draxler) donne un point de vue général sur la constitution de speech database. Le deuxième (S. Quantia, H. Van Den Heuvel) se concentre sur le lexique comme élément clé en synthèse vocale d’abord sur des questions d’assignation à un mot d’un accent tonique et d’une classe grammaticale, ensuite dans des tâches plus ciblées comme la synthèse vocale de noms propres dans un système de réponses téléphoniques. Le troisième (M. Adda-Decker, L. Lamel) s’intéresse à la question inverse : la reconnaissance vocale.

Le dernier chapitre (R. Baayen, R. Schreuder, R. Sproat) propose un modèle psycho-linguistique pour la tâche de décision lexicale. Comment un sujet décide-t-il le plus vite et le plus précisément possible si une chaîne de caractères est un mot d’une langue ? La chaîne est supposée lue en un seul coup d’œil. L’identification visuelle d’un mot cible donné va consister à le comparer à des mots stockés dans une mémoire à long terme, le lexique, (mot est ici employé de façon générique et recouvre la notion de morphème, mot complexe : dérivé, composé…). Le processus de compétition entre le mot cible et les mots du lexique est un processus dynamique qui s’appuie sur un niveau d’activation associé au mot du lexique qui évolue au cours du temps selon une fonction d’activation reposant sur une mesure de similarité. Ce modèle permet, entre autres, de ne pas rejeter a priori d’analyses du mot et en conséquence, de reconnaître certains néologismes.

Christian Jacquemin, Spotting and discovering terms through Natural Language Processing, MIT Press, Cambridge, Mass., MIT Press, 2001, ISBN 0262100851.

par Thierry Poibeau INaLCO/CRIM

Thierry.Poibeau@thalesgroup.com

Christian Jacquemin a concentré depuis plus de dix ans ses recherches sur le traitement automatique de la variation terminologique. Il est notamment l’auteur du système FASTR. Ce système prend en entrée une liste de termes et permet de reconnaître automatiquement un ensemble de variantes attestée (ou non) en corpus.

Ces variantes peuvent être de nature diverse, morphologique, syntaxique ou sémantique. Ce livre fait un bilan de ces recherches. Par rapport à la thèse d’habilitation à diriger des recherches de l’auteur (variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, 1997), le propos a été revu et considérablement étendu, en ce qui concerne notamment l’état de l’art. Le livre est organisé en 9 chapitres principaux dont nous donnons un rapide aperçu.

(4)

Le chapitre 1 (Introduction) rappelle l’importance de l’analyse terminologique pour les grandes masses de données textuelles aujourd’hui disponibles. Les textes étant rédigés par un public de plus en plus large, il n’est pas possible de contraindre les rédacteurs à utiliser un vocabulaire limité et spécialisé. Il est donc nécessaire de mettre au point des techniques et des outils capables de repérer les termes puis de les normaliser pour faciliter la création d’index, de thésaurus ou enrichir des terminologies existantes.

Le chapitre 2 (Studies in term extraction) est un état de l’art très complet sur les techniques à l’œuvre pour l’analyse linguistique de surface, les analyseurs disponibles et les systèmes d’acquisition de termes proprement dits. De nombreux systèmes ont été développés pour le repérage des termes à partir des textes et une vue d’ensemble manquait dans la littérature. A cet égard, ce chapitre constitue un bon complément à l’article de M.T. Cabré et al. paru dans le recueil d’articles Recent Advances in Computational Terminology (édité par D. Bourigault, C. Jacquemin et M.-C. L’Homme [2000]). L’étude de C. Jacquemin offre un aperçu plus approfondi des techniques à l’œuvre, des avantages et des inconvénient propres à chaque système. Les systèmes développés au cours des dix dernières années sont détaillés (citons, entre autres, A^CABIT, A^NA, LÊXTER, TÊRMS, TÊRMINO...) ; d’autres systèmes, plus anciens mais gardant un intérêt scientifiques, sont aussi évoqués (systèmes S^PIRIT, TTP...).

Le chapitre 3 présente le formalisme sur lequel est fondé le système F^ASTR développé par l’auteur. F^ASTR repose sur un formalisme d’unification inspiré de PATR-II [Shieber, 1986]. Le chapitre présente la façon dont sont représentés les mots simples, leur combinaison lors de l’analyse de séquences complexes et l’algorithme d’analyse lui-même.

Le chapitre 4 est la partie centrale de l’ouvrage. L’auteur y présente la métagrammaire de FÂSTR, qui utilise les informations lexicales et morphologiques détaillés au chapitre précédent pour calculer des variantes possibles sur les schémas de base. L’approche de C. Jacquemin est fondée sur la théorie développée par Z. Harris : Harris a montré qu’un sous-langage donné (langue de spécialité) peut être modélisé sous la forme d’un ensemble de schémas de base (les termes) pouvant subir des transformations (la variation terminologique). Les métarègles de FÂSTR respectent le formalisme présenté au chapitre précédent. Une règle se présente sous la forme d’une séquence d’entrée (le terme) et d’une séquence de sortie (le terme associé) assortie de contraintes linguistiques. L’auteur étudie enfin le rapport entre ces métarègles et les mécanismes similaires proposés par ailleurs pour des formalismes syntaxiques comme GPSG ou FB-LTAG. Les métarègles de FÂSTR permettent de calculer les variantes d’un terme de base, et de dessiner un lien entre ces variantes et le terme de base, ouvrant ainsi la voie à une indexation de qualité.

Le chapitre 5 présente l’élaboration de métarègles pour l’anglais (et non le français, comme il est dit dans le résumé du chapitre ; pour des exemples en français, on se reportera plutôt à la thèse d’habilitation à diriger des recherches de

(5)

l’auteur). Quatre types de règles sont présentées, permettant de traiter des phénomènes de coordination (hepatitis B virus → hepatitis B and C virus), de permutation (cell fraction → fraction of cells), de modification/substitution (il s’agit en fait de l’ajout d’un modifieur au sein d’une structure : transformation of cells → transformation of endothalial cells) et d’élision (scanning electron microscopy → scanning microscopy). Le cas des bitermes (termes composés de 2 mots pleins) est détaillé puis étendu aux termes n-aires, ambigus par nature.

Le chapitre 6 (Term enrichment) présente des techniques pour l’enrichissement automatique d’un ensemble de termes, par analyse de corpus. Le chapitre débute par un état de l’art des techniques permettant d’évaluer la pertinence d’un terme par rapport à un domaine. Diverses mesures statistiques sont présentées et évaluées pour le filtrage de candidats termes. Une technique d’ordre symbolique est aussi proposée pour retrouver, à partir d’un terme donné, la forme de base correspondante puis générer un ensemble de variantes possibles. L’évaluation de ces méthodes montre qu’elles permettent d’obtenir des variantes avec un grand degré de précision et qu’elles aident également la structuration d’un ensemble de termes donné.

Le chapitre 7 (Morphosyntactic variants) présente une amélioration du formalisme de F^ASTR pour traiter les phénomènes de variations mettant en jeu des mots de même famille à travers des catégories morphosyntaxiques différentes. On trouve en effet en corpus des variations mettant en jeu des couples nom-verbe (age estimation → estimated peak age), nom-adjectif (analysis method → analytic method), adjectif-adverbe (genetic variant → genetically variant). Le formalisme de F^ASTR permet d’exprimer des contraintes de morphologie compositionelle afin d’isoler pour chaque mot une racine et des affixes. Les techniques mises en œuvre dépendent de la langue à traiter, la morphologie du français étant largement plus complexe que celle de l’anglais (pour lequel des techniques de type stemming peuvent s’avérer suffisantes).

Le chapitre 8 (Semantic variation and applications) présente enfin la mise en correspondance de termes reliés sur une base sémantique. Ce chapitre montre l’intérêt d’une ressource extérieure pour la reconnaissance de variantes sémantiques (sur ce sujet, cf. les études de T. Hamon et A. Nazarenko [1998]). La synonymie est difficile à capter en corpus, il semble beaucoup plus efficace de partir d’une liste de synonymes ou d’une ressource spécialisée où sont déjà enregistrés des cas d’équivalences sémantiques (C. Jacquemin utilise ainsi le thesaurus A^GROVOC de l’I^NIST pour traiter un corpus du domaine agricole). L’auteur montre que les équivalences sémantiques entre termes simples peuvent valablement être projetés sur un ensemble de termes complexes pour calculer de nouvelles équivalences sémantiques. Le chapitre se termine sur un aperçu rapide des applications possibles de ^FASTR et sur quelques extensions envisagées (traitements multilingues, application à la recherche d’information...).

(6)

Le chapitre 9 (Conclusion) insiste sur le fait que de nombreux traitements linguistiques restent à améliorer et que de nouvelles perspectives se dessinent, notamment pour traiter les documents de nature vocale.

L’ouvrage se termine par une bibliographie très complète sur le sujet et deux index (des notions et des auteurs). On regrettera que ce dernier soit incomplet (sans doute du fait d’une absence d’indexation des noms d’auteurs quand ils ne sont cités qu’à travers une référence ; on aimerait par exemple retrouver le lien vers le système S^PIRIT discuté à la page 103 à partir des noms de Fluhr, Andreewsky ou Debili par exemple).

Spotting and discovering terms through Natural Language Processing constitue d’ores et déjà une référence, non seulement pour le traitement de la variation terminologique mais aussi pour le traitement automatique des langues.

Par-delà la terminologie, on a en effet entrevu dans ce court résumé des notions de morphologie, de syntaxe et de sémantique. Le formalisme employé par F^ASTR est inspiré des grammaires d’unifications et les algorithmes implantés sont pour la plupart originaux. La richesse du propos, l’ampleur des traitements et la qualité de la présentation rendent le livre de C. Jacquemin aussi indispensable aux linguistes-informaticiens qu’aux informaticiens-linguistes (nous laissons le soin au lecteur de juger s’il s’agit-là de variantes terminologiques ou de deux termes en tant que tels).

Bibliographie

Bourigault D., Jacquemin C. et L’Homme M.-C. (éd.), Recent Advances in Computational Terminology, John Benjamins Publisher, Londres, 2000.

Jacquemin C., Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches, Université de Nantes, 1997.

Hamon T. et Nazarenko A., “Detection of synonymy links between terms:

experiment and results”, in Recent Advances in Computational Terminology, John Benjamins, Londres, 2001, p. 185-208.

Shieber S., An Introduction to unification-based approaches to grammar, MIT Press, Cambridge, 1986.

(7)

Multimodality in Language and Speech Systems, édité par Björn Granström, David House, et Inger Karlsson, coll. “Text, Speech and Language Technology”, vol. 19, Kluwer Academic Publishers, Dordrecht, juin 2002, 256 pages, ISBN 1-4020-0635-7.

par Andrei Popescu-Belis

ISSCO/TIM/ETI, Université de Genève andrei.popescu-belis@issco.unige.ch

Les contributions rassemblées dans le présent ouvrage couvrent un ensemble de recherches allant de l’étude de la multimodalité dans la communication humaine, jusqu’à l’implémentation de systèmes multimodaux de dialogue humain-machine.

Ces contributions proviennent de conférences données lors de la 7^e école d’été ELSNET et c’est pourquoi le présent ouvrage apparaît davantage comme un échantillon de recherches, que comme un manuel qui viserait la description exhaustive mais moins approfondie du domaine. L’introduction à l’ouvrage, rédigée par les trois éditeurs, présente dans une perspective cohérente l’ensemble des chapitres, qui sont résumés un par un sur une demi-douzaine de pages.

La notion de multimodalité

Les tout premiers paragraphes de l’introduction tentent de mettre en place les notions fondamentales du domaine, notamment la « multimodalité » – et il nous a semblé utile de situer ce terme ici. Une fois reconnue la difficulté de trouver une définition unique, on peut, avec les éditeurs, estimer que « en essence … la multimodalité est l’utilisation de deux ou plusieurs parmi les cinq sens en vue de l’échange d’informations » (p. 1, nous traduisons). Cette définition nous semble toutefois mettre en porte-à-faux la notion de « multimédia », avec laquelle elle se superpose.

Nous préférons alors considérer, par exemple avec A.D.N. Edwards (p. 74-78), que la communication s’effectue en effet par le biais de nos cinq sens : vue, ouïe, odorat, goût et toucher, ce dernier se divisant en sensibilité tactile, kinesthésie, et équilibre ; seuls la vue, l’ouïe et le toucher sont utilisés en pratique dans les interfaces humain-machine. Le « médium » désigne alors la nature du canal de communication, lié à l’organe de sens utilisé. La « modalité » se réfère quant à elle à la forme du contenu communiqué : contenu linguistique (qui peut être parlé, écrit, signé), contenu graphique (plusieurs formes de dessins, graphes, diagrammes), contenu gestuel, etc. Ainsi, un même médium peut servir à transmettre différentes modalités.

(8)

Présentation critique des huit chapitres

Le premier chapitre, rédigé par J. Allwood, décrit les différentes possibilités d’utilisation des gestes, postures, et autres indices corporels dans la communication entre individus. Son introduction, très théorique, relie les types d’information que l’on peut communiquer (information indexicale, iconique, ou symbolique) à la façon de communiquer (indication, démonstration, ou signalisation). Puis, l’auteur opère une classification des mouvements corporels : expressions du visage, mouvements de la tête, des lèvres, des bras, posture, etc. – quinze classes au total. Suit alors une classification du contenu qui peut être communiqué par des gestes : états physiologiques, émotions, gestion de l’interaction, et même des informations factuelles (par exemple, « je ne sais pas »). Le restant du chapitre propose des relations entre ces différentes classifications, avec une analyse théorique du lien entre geste et parole dans l’interaction humaine. Ce chapitre offre une perspective générale, souvent spéculative (non expérimentale), sur le rôle des gestes dans la communication. Les tentatives de synthèse semblent toutefois insuffisamment exploitées, et on regrette les erreurs typographiques dans quelques tableaux pourtant prometteurs (tableau 2 sans contenu, tableau 3 incomplet).

Le deuxième chapitre (D. McNeill et al.) présente une étude expérimentale détaillée du rôle des gestes dans le monologue oral, réalisée à partir d’enregistrements filmés. La définition du protocole d’analyse des gestes, de la parole (aspects prosodiques), et du contenu (aspects discursifs) est minutieusement décrite, permettant ainsi une évaluation des résultats présentés, voire une réutilisation de ces protocoles. L’analyse détaillée d’un enregistrement de 32 secondes portant sur la description d’une maison, notamment par le biais de la transcription annotée, montre que les gestes permettent de découper la narration en unités discursives (catchments), qui sont en accord avec le découpage sémantique du discours. De plus, alors que les gestes sont corrélés aussi avec la prosodie, ils permettent un découpage plus fin et plus précis du discours que celle-ci.

Le troisième chapitre (D.W. Massaro) présente une autre série d’expériences de facture psycholinguistique, portant sur l’apport de la vision à la compréhension de la parole, dans ce que l’auteur appelle la « parole visualisée » (« visible speech »). Les expériences visent à déterminer l’effet perçu par les sujets lorsqu’ils sont exposés simultanément à des stimuli auditifs – par exemple, le son de la syllabe « ba » ou

« da » synthétisée – et à des stimuli visuels – le visage prononçant « ba » ou « da ».

L’effet perçu dépend de la combinaison de stimuli. L’auteur propose un modèle probabiliste, fondé sur la logique floue, qui modélise l’intégration perceptive des deux stimuli. Le modèle est testé en comparant ses prédictions aux réponses moyennes des sujets. L’impact d’autres facteurs sur la perception des phonèmes est également discuté, par exemple l’intégration dans un mot ou l’expression du visage qui les prononce.

Ainsi, ce chapitre, tout autant que le précédent, met en évidence l’importance de la multimodalité pour la perception de la parole par l’individu. Les gestes et les

(9)

mouvements des lèvres apparaissent donc comme des facteurs essentiels. Il n’est pas certain que ces études trouvent une application rapide au domaine de la communication humain-machine, mais inversement, les avancées technologiques – visages ou voix de synthèse, détection des gestes – apportent une aide significative à ces études. Toutefois, la réalisation d’outils d’aide aux personnes handicapées bénéficie plus directement de ce genre d’études (cf. p. 87, les visualisateurs de parole, ou p. 218, le projet Teleface).

Le chapitre rédigé par A.D.N. Edwards (« Interaction multimodale et personnes handicapées ») commence par une bonne synthèse des notions liées à la

« multimodalité ». L’auteur introduit notamment le concept de conversion (mapping) d’une modalité de communication vers un canal de communication lié à l’un des cinq sens de l’individu récepteur. Par exemple, le langage parlé est par défaut perçu grâce à l’ouïe, mais sa conversion par transcription permet une perception visuelle sans trop de pertes d’information (l’intonation est mal rendue, toutefois). Cette même modalité (la parole) peut être aussi convertie vers le canal de communication lié au toucher (alphabet Braille). Edwards applique ainsi, de façon très intéressante, le concept de conversion à la réalisation d’outils d’aide pour les personnes ayant un handicap dans un canal de communication. Plusieurs exemples d’outils figurent en fin de chapitre, telle la représentation tactile de partitions musicales ou de diagrammes, développée par l’auteur lui-même.

Le chapitre rédigé par N.O. Bernsen occupe environ un quart du livre (56 pages). Il s’agit d’une synthèse des différentes possibilités offertes à la technique par les modalités de communication, qui sont tout d’abord organisées dans une taxonomie dont les principes de construction sont décrits en détail. Le chapitre se consacre surtout aux représentations monomodales des « sorties » (output) d’un système, qui sont classifiées selon les caractéristiques suivantes : linguistique ou non, analogue ou non, arbitraire ou non, statique ou dynamique. Le « médium » de transmission peut être visuel, sonore ou haptique (lié au toucher). Les différentes combinaisons de traits, dans ce modèle dit « génératif », sont explicitées dans un tableau quelque peu laborieux (2 × 2 × 2 × 2 × 3 entrées), puis de nombreux exemples de représentations « atomiques » sont fournis et commentés. Par exemple, les représentations analogues et statiques et graphiques et sous forme de graphes peuvent être des graphes à courbes, ou à histogrammes, ou en secteurs. Le chapitre se présente ici comme une description des représentations usuelles associées à chaque entrée de la taxonomie. La visée théorique, à savoir la « théorie des modalités », est présente dans l’ambition de définir chaque modalité dans un formalisme unifié. La théorie, implémentée dans l’outil SMALTO d’aide au choix d’une modalité lors de la conception d’un système (http://disc.nis.sdu.dk/smalto), est surtout appliquée au langage parlé. L’étude analyse les arguments en faveur du choix de cette modalité qui ont été recueillis dans la littérature. Une brève conclusion portant sur la combinaison des modalités clôt le chapitre.

(10)

d’unifier un domaine souvent difficile à cerner (notamment à cause de la diversité des médias ou des capteurs utilisés) et de décrire les instanciations présentes ou à venir des représentations. La méthodologie guidant le choix des modalités en fonction du type d’application présente des liens intéressants avec l’évaluation des applications en fonction du contexte d’utilisation. On regrette toutefois la longueur du chapitre, qui fait parfois perdre de vue l’objectif d’ensemble (les exemples et les commentaires pour chaque modalité auraient pu figurer dans une annexe). Plus sérieusement, on peut se demander si au stade actuel la conception d’un logiciel multimodal passe véritablement par une réflexion aussi théorique sur les modalités à utiliser. On peut en douter : souvent le choix des modalités est imposé de façon assez directe par la tâche et les capteurs disponibles. Mais qui plus est, la théorie des modalités ne donne pas encore d’indication sur la façon de combiner les modalités, et on peut craindre que l’explosion combinatoire qui apparaît à ce niveau ne limite les ambitions théoriques.

Les trois chapitres restants décrivent des systèmes multimodaux d’interaction humain-machine. Le chapitre de T. Brøndsted et al. décrit essentiellement le système C^HAMELEON, qui permet à un utilisateur de demander des renseignements sur l’organisation et le personnel d’un laboratoire dont le plan est posé sur une table.

Le système est muni d’une caméra pouvant détecter les actes de pointage de l’utilisateur, d’un système de compréhension de la parole, d’un synthétiseur de parole et d’un pointeur laser. L’architecture interne, fondé sur un tableau noir, fait en réalité intervenir les modules dans un ordre assez prévisible : d’abord le traitement de la requête et des gestes, puis la mise en relation de la requête avec les données disponibles, enfin la synthèse de la réponse et le pointage du laser. En particulier, les dialogues ne semblent pas dépasser la séquence question-réponse.

Cette réalisation est significative par l’intégration des différents équipements dans un système fonctionnel et met en évidence les problèmes liés aux traitements nécessaires pour répondre à des requêtes bimodales par des réponses également bimodales. Par exemple, l’usage des expression déictiques dans la réponse complémente convenablement l’usage du pointeur laser.

Le chapitre de K.R. Thórisson présente un modèle ambitieux intégrant des mécanismes de perception et d’action dans un agent logiciel, matérialisé sur un moniteur et disposant d’une caméra. Cet agent, nommé Gandalf, est une instanciation d’une architecture plus ambitieuse, YTTM (« Ymir turn-taking model » : modèle Ymir pour les tours de parole). Après une synthèse de différentes modélisations des tours de parole dans le dialogue entre humains, l’auteur présente les nombreux modules déclaratifs qui composent le YTTM, et lui permettent de gérer les tours de parole en fonction des mots et des gestes de l’interlocuteur, et d’utiliser ses propres mots et gestes. Ces modules sont organisés en trois couches, et l’une des idées les plus originales du modèle est d’assigner à ces couches des vitesses de réaction variables : la « couche réactive » est déclenchée environ 2-10 fois par seconde, la « couche de contrôle du processus de dialogue » environ 2 fois par seconde, et la « couche du contenu du dialogue » une fois par seconde ou moins.

(11)

On ne peut résumer ici cette architecture complexe, mais l’agent obtenu permet, selon l’auteur, d’assurer un dialogue multimodal relativement naturel. L’objet du dialogue est la visite d’un système solaire représenté sur un écran. Une expérience pour mesurer l’interactivité du système classe cet agent entre un humain et un chien de compagnie (p. 203). On constate ainsi que les résultats ne sont pas faciles à évaluer, alors même que la complexité de l’architecture décrite suscite quelques interrogations sur son fonctionnement en conditions réelles.

Le dernier chapitre du livre (B. Granström et al.) présente un ensemble de systèmes réalisés autour d’un modèle de visage développé au KTH. Le visage de synthèse est capable de reproduire les mouvements du visage humain lors de l’articulation de phonèmes et de mots (talking face), ou lors de l’expression de mimiques et d’émotions. Les différents visages construits à partir d’un même modèle paramétrique sous-jacent, qui prend en compte aussi des parties cachées telle la langue, sont utilisés dans plusieurs applications de dialogue humain- machine. Dans le projet Teleface, ces visages aident les personnes malentendantes à comprendre un signal de parole bruité, en lisant les phonèmes sur les lèvres du visage artificiel. L’évaluation de l’apport d’un tel visage à la compréhension montre de façon convaincante son utilité. Dans les systèmes Waxholm et Olga, un personnage animé interagit avec l’utilisateur pour le guider dans différents contextes, et un autre projet étudie l’usage des visages parlants pour l’apprentissage d’une langue étrangère. On constate donc, dans ce chapitre final, une primauté des applications technologiques, aussi bien sur l’étude théorique des humains ou des modalités, que sur l’élaboration d’architectures informatiques complexes.

Analyse critique de l’ensemble

Les contributions au présent ouvrage apparaissent en somme comme une série de recherches qui recouvrent plusieurs aspects fondamentaux du vaste domaine de la multimodalité. L’ouvrage ne prétend pas constituer un manuel, mais bien plutôt une introduction par l’exemple – et il s’agit en l’occurrence d’exemples approfondis et solides. Quelques chapitres adoptent une position plus théorisante : le premier, par J. Allwood, le cinquième, par N.O. Bernsen, et dans une moindre mesure le quatrième, par A.D.N. Edwards. Ce dernier, par son équilibre entre l’analyse théorique et l’illustration par l’exemple, est l’un des plus attractifs de l’ouvrage.

On peut regretter, pour ce qui est de la forme générale de l’ouvrage, une certaine impression d’inachevé, due à la présence de coquilles (par exemple dans plusieurs tableaux), et à une harmonisation insuffisante des présentations (la mise en page des tableaux, les bibliographies par chapitre). Une bibliographie générale et un index auraient certainement accru la valeur de l’ouvrage, ainsi qu’une division plus nette en deux ou trois parties. La qualité graphique des images et des dessins laisse parfois à désirer. Enfin, on peut aussi regretter le retard dans la publication (juin

(12)

Dans la perspective du traitement automatique des langues, on peut se demander dans quelle mesure le contenu du livre est fidèle à son titre, Multimodality in Language and Speech Systems. En effet, moins de la moitié de l’ouvrage traite véritablement de systèmes informatiques, alors qu’une large place est dévolue aux expériences psycholinguistiques, dans lesquelles les systèmes informatiques sont parfois un instrument important. Il n’est pas facile d’exploiter les résultats de ces expériences psychologiques pour la conception de systèmes multimodaux de dialogue humain-machine, bien que le chapitre de K.R. Thórisson, par exemple, contienne de nombreuses références aux études du comportement humain relatif aux tours de parole. On constate également une nette séparation entre une vue théorique des modalités, déclinées en de très nombreuses variétés potentielles, et une vue applicative, où seules les plus évidentes sont utilisés : langue (parlée et écrite), représentations visuelles (schémas, graphes, mais aussi gestes et expressions du visage), modalités haptiques (souris). Des périphériques moins courants viennent compléter cette gamme, tels les écrans tactiles ou les pointeurs laser. Ce sont encore une fois les outils d’aide aux personnes handicapées qui manifestent la plus grande variété.

Enfin, toujours en se référant au titre de l’ouvrage, on peut se demander si la multimodalité est simplement la somme de plusieurs modalités, ou quelque chose de plus. Certains chapitres évoquent simplement différentes modalités (par exemple la taxonomie de N.O. Bernsen s’intéresse aux « sorties » monomodales), mais les chapitres de D. McNeill et al. et de D.W. Massaro montrent clairement que chez l’humain, les modalités sont corrélées, et s’enrichissent l’une l’autre. La multimodalité est alors plus que la juxtaposition des modalités, comme le montre, par l’exemple, le chapitre de K.R. Thórisson. La théorie de l’intégration multimodale ne semble pas abordée directement dans l’ouvrage, pas plus que l’évaluation des systèmes d’interaction multimodale, bien que les études présentées fournissent plusieurs éléments en ce sens. Dans l’ensemble, le présent ouvrage nous semble donc proposer d’intéressants exemples de réflexion sur la multimodalité, et permettra aux chercheurs du domaine de s’ouvrir vers des aspects multidisciplinaires, grâce à la diversité des contributions.