Article pp.183-200 du Vol.45 n°2 (2004)

(1)

Rubrique préparée par Denis Maurel

LI (Laboratoire d’informatique de l’Université de Tours) maurel@univ-tours.fr

Ruslan Mitkov, The Oxford Handbook of Computational Linguistics, Oxford University Press, 2003, 804 pages, ISBN 0-19-823882-7.

par Nicolas Hernandez LIMSI-CNRS

Nicolas.Hernandez@limsi.fr

« Dans une ère de croissance vigoureuse et continue des différentes disciplines du Traitement Automatique des Langues (TAL), The Oxford Handbook of Computational Linguistics (OHCL), se présente comme un ouvrage guide et de référence », commente son éditeur, Ruslan Mitkov.

En effet, l’état de l’art de la linguistique informatique compte peu d’ouvrages de même nature.

L’OHCL est avant tout un manuel qui couvre en un seul volume les thèmes majeurs de la linguistique computationnelle, des fondements théoriques aux applications dans le monde réel, en passant entre autres par les technologies de base, les méthodes, les ressources, etc.

Plus exactement il permet d’introduire des personnes étrangères à une discipline du TAL les notions essentielles de celle-ci, ses enjeux, ses approches et ses principales réalisations.

L’ouvrage s’adresse aussi bien à l’étudiant qu’au professeur, au chercheur qu’à l’ingénieur, et ce, que l’on soit informaticien ou linguiste. Réunissant cinquante et un auteurs de diverses nationalités, faisant tous partie des figures de proue de leur discipline, le manuel se divise en trente-huit chapitres (onze sont coécrits) comptant en moyenne entre quinze et vingt pages (au total 784 pages). Chaque chapitre traite d’un thème particulier de la linguistique informatique.

La majorité des auteurs ont adopté une approche commune et pédagogique dans leur rédaction : après un résumé indicatif du contenu, ils posent en général les termes du domaine, éventuellement en donnent un historique. Puis ils développent les thèmes principaux de leur discipline, et terminent en offrant la possibilité au lecteur d’approfondir sa compréhension avec une liste de références commentées (beaucoup de pointeurs accessibles sur le web).

(2)

L’OHCL se structure en trois parties reflétant une progression naturelle des bases théoriques aux achèvements applicatifs de la linguistique informatique.

La première partie introduit les « bases ». Elle considère, selon une perspective computationnelle, les principaux domaines de la linguistique tels que 1) la phonologie (S. Bird), 2) la morphologie (H. Trost), 3) la lexicographie (P. Hanks), 4) la syntaxe (R. M. Kaplan), 5) la sémantique (S. Lappin), 6) le discours (A. Ramsay), et 7) la pragmatique et le dialogue (G. Leech et M. Weisser). A cela s’ajoute deux chapitres majeurs en linguistique mathématique à savoir : 8) grammaires formelles et langages (C. Martín-Vide) ainsi que 9) complexité (B. Carpenter).

La deuxième partie est dédiée aux « technologies de base, aux méthodes et ressources » intervenant et requises dans des traitements automatiques de la langue naturelle. Sont examinés 10) la segmentation de textes (A. Mikheev), 11) l’étiquetage morpho-syntaxique (A. Voutilainen), 12) l’analyse syntaxique (J. Carroll), 13) la désambiguïsation sémantique (M. Stevenson et Y. Wilks), 14) la résolution d’anaphores (R. Mitkov), 15) la génération en langue naturelle (J. Bateman et M. Zock), 16) la reconnaissance de la parole (L. Lamel et J-L. Gauvain), 17) la synthèse de la parole à partir de textes (T. Dutoit et Y. Stylianou), 18) les technologies fondées sur les états finis (L. Karttunen), 19) les méthodes statistiques (C. Samuelsson), 20) les méthodes d’apprentissage automatique (R. J. Mooney), 21) l’acquisition de connaissances lexicales (Y. Matsumoto), 22) l’évaluation (L. Hirschman et I. Mani), 23) les sous-langages et langages à vocabulaires contrôlés (R. I. Kittredge), 24) les corpus linguistiques (T. McEnery), 25) les ontologies (P. Vossen), et 26) les grammaires d’arbres adjoints (A. K. Joshi).

La troisième partie décrit des « applications du monde réel » fondées sur des techniques de linguistique informatique. Elle inclut 27) la traduction automatique – une présentation générale – (J. Hutchins), 28) la traduction automatique – les derniers développements – (H. Somers), 29) la recherche documentaire (E. Tzoukermann, J. L. Klavans et T. Strzalkowski), 30) l’extraction d’information (R. Grishman), 31) les systèmes de question-réponse (S. Harabagiu et D.

Moldovan), 32) le résumé automatique (E. Hovy), 33) l’extraction terminologique et l’indexation automatique (C. Jacquemin et D. Bourigault), 34) la fouille de données (M. A. Hearst), 35) l’interaction en langue naturelle (I. Androutsopoulos et M. Aretoulaki), 36) le langage naturel pour des systèmes multimédias et multi- modaux (E. André), 37) des techniques de linguistique informatique en apprentissage de langues assisté par ordinateur (J. Nerbonne) et 38) traitements automatiques multilingues et en ligne (G. Grefenstette et F. Segond).

Comme le montre l’énumération ci-dessus, la première des particularités de l’OHCL est de couvrir un large éventail de thèmes ayant trait à l’informatique linguistique : des aspects du traitement de textes jusqu’à la parole en passant par le dialogue, et ce, aussi bien selon une perspective d’analyse que de génération. Une

(3)

autre de ses particularités est qu’il considère comme objets d’étude à part entière les méthodes, ressources et formalismes communs à plusieurs champs du TAL (e.g. complexité, évaluation, méthodes statistiques, méthodes d’apprentissage, automates à états finis, etc.) ; ce qui permet d’alléger des chapitres plus centraux.

Outre sa large couverture du domaine, on notera aussi un réel effort de lisibilité de la part des auteurs pour permettre l’accès aux disciplines du TAL à un public ayant des connaissances limitées en linguistique informatique. L’OHCL trouve ainsi sa place comme un ouvrage plus généraliste et fédérateur, sans priver ses lecteurs de la possibilité d’approfondir les thèmes qu’ils désirent.

La qualité et l’actualité du contenu de chaque chapitre sont en général très bonnes. L’expérience et le recul des auteurs dans leur domaine font, d’une part, que les chapitres se suffisent en général à eux-mêmes (i.e. qu’ils contiennent l’information nécessaire à leur bonne appréhension) et que, d’autre part, ils témoignent d’une grande lisibilité. Celle-ci reste néanmoins relative au degré de complexité de la discipline.

Un travail important a été réalisé pour favoriser la cohérence globale de l’ouvrage, notamment par un style de présentation uniforme entre les chapitres, qui permet au lecteur de rapidement accéder aux informations qui l’intéressent. D’autre part, un bon nombre de références croisées ont été insérées au sein des chapitres par l’éditeur, pour permettre une lecture transversale de l’ouvrage. Néanmoins, nous regrettons que ces références ne soient pas d’une échelle plus fine (elles renvoient généralement au thème global des chapitres porté par leur titre), et parfois plus complètes. Par exemple, une référence croisée pourrait être rajouté entre les états de l’art des chapitres « Extraction terminologique » et « Acquisition de connaissances lexicales », respectivement sur les systèmes d’acquisition de termes et ceux des acquisitions de collocations ; d’autant plus qu’ils partagent certaines descriptions communes. De manière similaire, le chapitre « Lexicographie » ne contenant pas de références à la théorie sens-texte, il serait judicieux d’y insérer un lien pointant vers le chapitre « Génération » où l’on peut trouver une brève présentation du modèle.

Selon nous, la précision de la table des matières serait aussi à revoir. En effet, alors qu’elle est présentée comme l’entrée principale de l’ouvrage, il est un peu dommage qu’elle ne contienne que les titres des chapitres accompagnés du nom de leur auteur ; on aurait apprécié un degré de précision supplémentaire décrivant brièvement le contenu des chapitres.

Bien que le contenu de l’actuel OHCL soit déjà très complet, il sera intéressant d’y voir inclus dans ses futures éditions un certain nombre de thèmes additionnels.

Par exemples, le chapitre « Techniques d’Apprentissage » pourrait s’étendre aux techniques d’apprentissage non supervisé, et le chapitre « Discours » pourrait compléter son analyse théorique par des travaux sur la détection automatique de structures de textes.

En résumé, la large étendue des thèmes traités, l’accessibilité et la qualité de ses chapitres font effectivement de l’OHCL un ouvrage guide et de référence. Tout en

(4)

ne se substituant pas à des ouvrages spécialisés, le manuel réussit à donner les moyens à quiconque qui aurait une connaissance modérée de la linguistique informatique d’appréhender parfaitement une activité du traitement automatique des langues ; et ce, aussi bien pour découvrir une discipline, que pour s’approprier une méthode d’une activité voisine de la sienne. Nous souhaiterions voir les éditions prochaines avancer dans trois directions : d’une part, la cohérence globale de l’ouvrage afin de faciliter la navigation inter-chapitres (en favorisant la coécriture par exemple), d’autre part, la considération des particularités propres de chaque langue et enfin une édition à un prix plus abordable.

Bernard FRADIN, Nouvelles approches en morphologie, PUF, collection Linguistique nouvelle, 2003, 360 pages, ISBN 2130515487.

par Georgette Dal

UMR 8528 « SILEX », CNRS et Université Lille III dal@univ-lille3.fr

Bernard Fradin, directeur de recherche au CNRS, a publié de nombreux travaux dans le domaine de la morphologie. Son ouvrage Nouvelles approches en morphologie réutilise une partie des résultats dégagés dans ses travaux antérieurs. Il se scinde en deux parties quantitativement équilibrées. Après un chapitre premier intitulé « Fondement et arrière- plan », la première partie de l’ouvrage, intitulée « Approches de la morphologie », qu’illustrent des données issues de nombreuses langues (52, d’après l’index), constitue un état de l’art sur la morphologie (flexionnelle et constructionnelle) : Bernard Fradin y retrace les deux grandes étapes qu’a connues le domaine (morphologie morphématique combinatoire, et morphologie lexématique qu’il appelle « classique »), en montrant leurs limites respectives. La seconde partie, intitulée « L’ancrage lexical de la morphologie », est davantage axée sur la morphologie constructionnelle et sur le français. Bernard Fradin commence par s’interroger sur le rapport entre morphologie et lexique, faisant apparaître que, si la morphologie constructionnelle a pour vocation de fabriquer des lexèmes complexes, elle n’est pas la seule à le faire (chap. V). Il montre ensuite, analyses à l’appui, que le concept de lexème, tel qu’on le définit habituellement, doit être redéfini si on veut voir en lui une unité pertinente pour la morphologie constructionnelle (chap. VI). Cette seconde partie se clôt sur une discussion du rapport entre règle et régularité, étayée sur l’analyse de deux phénomènes constructionnels : suffixation par -able, et dérivation dite « parasynthétique » (chap. VII). L’ouvrage s’achève sur une abondante bibliographie suivie d’un index thématique (on peut cependant regretter l’absence d’un index des auteurs cités).

L’ouvrage de Bernard Fradin s’adresse à « tous ceux travaillant dans le domaine des sciences du langage, enseignants, chercheurs ou étudiants avancés » (p. 1). De fait, il s’agit d’un ouvrage très dense, trop dense parfois, dans lequel le lecteur, même linguiste, aura certainement du mal à entrer, pour peu qu’il soit néophyte en morphologie (le fait que Bernard Fradin ait dû supprimer trois chapitres de la version initiale pour des contraintes éditoriales explique peut-être ceci). Malgré ce défaut (qui,

(5)

du reste, est aussi une qualité : Bernard Fradin est un auteur exigeant, envers ses lecteurs, mais aussi envers lui-même), et même si, d’un point de vue pratique, l’ouvrage était perfectible (par exemple, bien que Bernard Fradin prenne un soin rigoureux à définir les concepts et décoder les symboles qu’il utilise, il arrive parfois qu’il oublie de le faire, comme à la page 37 où il utilise le symbole µ, absent de la table des symboles et abréviations de l’ouvrage), Nouvelles approches en morphologie est destiné à faire date dans le paysage morphologique, français et international :

– l’ouvrage est véritablement un essai (Bernard Fradin le définit lui-même comme tel), en tant qu’il laisse la discussion ouverte. Bernard Fradin n’est jamais dogmatique, il ne prétend jamais que la solution qu’il préconise pour un fait donné est définitive ; cela ne signifie pas qu’il ne se fonde pas sur des principes, au contraire même, il commence par énoncer un certain nombre d’exigences et de principes forts, qu’il appliquera tout au long de son ouvrage : exigences notationnelles d’abord, avec les exigences de complétude et de parallélisme (p. 9), principes ensuite, avec le principe de réalisation imposant que « toute entité postulée au niveau abstrait de l’analyse soit corrélée au substrat phonique, fût-ce de manière multivoque » (p. 12), et trois principes inspirés de Beard (1995), que Bernard Fradin considère comme des acquis de la linguistique moderne, auxquels vient s’ajouter l’hypothèse heuristique selon laquelle « [l]es unités données comme atomiques à chaque composante construisant des unités linguistiques qui sont des signes sont inaccessibles pour cette composante » (p. 13) ;

– l’ouvrage comble un manque dans la littérature linguistique française, pour qui veut s’y retrouver dans les théories ayant cours en morphologie, qu’elles soient spécifiques au domaine ou seulement utilisées par lui, et comprendre les changements épistémologiques de la dernière décennie ; ainsi, à ma connaissance du moins, il n’existe aucun ouvrage en France qui fasse une critique aussi serrée et aussi documentée de ce que Bernard Fradin appelle la « morphologie morphématique combinatoire » (désormais MMC), issue du structuralisme, selon laquelle l’unité atomique de la construction du complexe lexical est le morphème, conçu comme l’association biunivoque d’une forme et d’un sens ; indépendamment des problèmes théoriques qu’elle soulève (négation de l’existence d’un niveau d’organisation spécifique qui serait celui de la construction des lexèmes complexes, assignation des mêmes propriétés aux affixes et aux lexèmes), la MMC achoppe à un certain nombre de données empiriques, constituant autant d’entorses au principe définitoire du morphème : cas de cumul, phénomènes de multimarquage, phénomènes morphologiques non strictement concaténatoires¹, non- ou

1. Signalons qu’en 1987 déjà, D. Corbin argumentait longuement « contre une morphologie de la concaténation » dans le domaine de la construction des mots (p. 101-139), tout en revendiquant une « morphologie du morphème » (p. 182-sq). Il est vrai qu’à l’époque, le débat opposait morphologie du mot et morphologie du morphème, selon l’aptitude ou l’inaptitude du segment identifiable en tant que base à constituer un atome pour la syntaxe, pourvu de l’habillage flexionnel adéquat. En préconisant une morphologie du morphème, D. Corbin entendait donner le statut de base à des séquences comme lud-, auxquelles la

« Word-Based Morphology » d’Aronoff (1976) refusait ce statut. Dans son ouvrage à paraître

(6)

suprasegmentaux, etc. (cf. p. 38-sq) ; elle engendre par ailleurs une pléthore de

« morphèmes zéro », dont la seule raison d’être est précisément la préservation de la notion de morphème ; la critique que mène Bernard Fradin est d’autant plus utile que, dans un certain nombre de domaines applicatifs (traitement automatique des langues, avec les formalismes morphologiques dits à deux niveaux, ou ouvrages à vocation pédagogique), la MMC continue de faire figure de modèle ;

– Bernard Fradin préconise d’abandonner la notation par arborescence ou par parenthésage qu’utilisent nombre de morphologues (p. 149-150), sans toujours mesurer les conséquences de cette pratique² (j’en parle avec d’autant plus d’aisance que je suis de ceux-là), au profit d’une notation multistratale, distinguant le plan du substrat (i.e. l’aspect matériel du signe), et le plan de l’abstrat, qui englobe la représentation sémantique, ainsi que ce que Mel’čuk (1993) appelle le

« syntactique » (catégorie lexicale, informations morphologiques, type de rection, etc.), chaque strate étant indépendante des autres ; cette exigence est d’abord de type notationnel ; mais elle n’est pas que cela : en effet, dès lors qu’on l’adopte systématiquement, et qu’on accepte que les unités morphologiques complexes résultent non pas de la combinaison de morphèmes mais de l’application de fonctions à des lexèmes, chacune des fonctions que sont les règles de construction de lexèmes enclenchant d’autres fonctions susceptibles de s’appliquer à plusieurs rubriques à la fois (p. 110), on s’aperçoit qu’une partie des problèmes auxquels se heurte la MMC disparaissent d’eux-mêmes : le marquage substratal ne doit plus nécessairement être de type segmental (p. 111), les lexèmes à radicaux multiples ne font plus problème (p. 138-sq), il devient possible d’intégrer les éléments idéophoniques que sont les phonesthèmes (p. 146-sq), etc.

Dans le détail, il existe naturellement des points qui mériteraient d’être discutés.

Faute de place, j’en reporte la discussion à un compte rendu circonstancié à paraître dans Lexique, 16 : faut-il catégoriser les bases de construction de lexèmes ? L’hypothèse, reprise à F. Kerleroux (cf. par exemple Kerleroux, 1997), qu’un nom ne peut pas être accourci quand il a une structure argumentale, est-elle toujours vérifiée³ ?, etc.

Pour résumer, Nouvelles approches en morphologie est assurément destiné à constituer un ouvrage de référence à très court terme. Aussi ne saurais-je qu’en recommander très chaleureusement la lecture à tout chercheur, apprenti morphologue ou morphologue averti, aussi bien pour les éclaircissements qu’il apporte que pour les questions qu’il suscite.

(chap. 1, § 4.1.), elle considère que le morphème n’est pas une unité pertinente pour la morphologie (P. Corbin, Communication personnelle).

2. On est donc surpris que lui-même recoure au parenthésage p. 114, alors que, p. 141, il souligne qu’il s’agit là d’une représentation typique de la MMC.

3. Les quelques exemples suivants, relevés sur la toile via Google le 06 février 2004, montrent qu’il s’agit, au mieux, d’une tendance : « Manip de Boa par Stéphane MAZEAU » ;

« J’ai effectué par 2 fois la manip de désactiver le bloc info et de vider le cache : rien ».

(7)

Harry Bunt et William Black, Abduction, Belief and Context in dialogue, Studies in Computational Pragmatics, John Benjamins, 2000, 471 pages, ISBN 1 55619 794 2.

par René Joseph Lavie

MODYCO (Modèles, Dynamiques, Corpus), UMR 7114, Paris X et CNRS rlavie@waika9.com

La pragmatique computationnelle étudie comment le contexte peut être mis au service des processus de compréhension et de production du langage. Elle espère réduire l’important obstacle que représente la difficulté que l’on a actuellement à le faire (Blunt, p. 81). Quatre articles (sur quatorze) vont être commentés. En italiques, les auteurs cités ou résumés ; les opinions et commentaires du recenseur sont en caractères romains.

The ABC of computational pragmatics, Harry Bunt (Tillburg, Hollande) et Bill Black (Manchester, Royaume-Uni)

L’utilisation d’informations de contexte dans les processus de compréhension et de génération demande l’application de raisonnements de forme abductive. Parmi les différentes sortes d’informations de contexte utilisées par les locuteurs et auditeurs, les croyances des uns à propos les autres jouent un rôle central car les actes de communication n’ont d’effet que par les changements qu’ils opèrent sur les croyances de l’auditeur à propos du locuteur. Par conséquent, il convient de faire une place à l’abduction (A), de traiter les croyances (B comme belief) et le contexte (C), c’est l’ABC de la pragmatique computationnelle.

Dialogue pragmatics and context specification, Harry Bunt (Tilburg, Hollande) Le présupposé de départ de la DIT (Dynamic Interpretation Theory) est le suivant : Il est avantageux d’étudier la signification des énoncés en combinaison avec les mécanismes de dialogue dans un cadre unique.

Le recenseur se demande ce qui qualifie le cadre proposé comme théorie. La chose est reconnue par les auteurs eux-mêmes. Acte de dialogue, fonction communicative, contenu sémantique, ces concepts n’ont pas un statut théorique fondamental. Leur statut est comparable à celui des représentations sémantiques dans des théories comme la grammaire de Montague.

L’exposé est thétique, on ne discute presque jamais deux alternatives avec des raisons de choix. On voit proliférer les termes de métalangage (peut-être soixante) ; on asserte des listes de catégories et sous-catégories, des arbres de sous- classification et des listes de features ; ces listes sont en général raisonnables, mais on se demande en quoi elles sont falsifiables. Il y a peu d’efforts pour réduire et

(8)

faire interagir autrement que de manière ad hoc ; on cherche en vain les dispositifs à incidences multiples, la variété d’effets obtenue à partir de ressorts non spécifiques.

Prédiction : les systèmes construits sur cette base seront limités, fragiles et rapidement difficiles à maintenir et à améliorer. Peut-être ne peut-on faire mieux actuellement dans le champ.

Au moins l’article est-il un inventaire de questions et de problèmes et il est manifeste que l’on s’est confronté aux faits. Il peut servir notamment aux sémanticiens qui ambitionnent de faire œuvre théorique, car si l’ingénierie en est aujourd’hui à ce point d’attrition, c’est que la linguistique ne lui fournit pas les outils théoriques nécessaires. Par conséquent, la DIT, en dépit de son nom, n’est pas de la théorie mais de l’ingénierie. Elle ne vaut donc que par ses résultats. Or l’article n’en rapporte pas de sorte que tout est possible, même que la DIT soit efficace et utile.

Pragmatics in langage understanding and cognitively motivated architectures, Gérard Sabah (Orsay, France)

Ce travail connaît trois stades : 1) Paradigme classique de l’IA : représentation et utilisation de connaissances pragmatiques, 2) Architecture distribuée : utiliser une

« source » quand nécessaire, c’est CARAMEL-1, et 3) Sketchboard : interactions assouplies entre modules, ambiguïtés traitées sans métarègles, c’est le modèle CARAMEL-2 qui se différencie du précédent par des retours d’un processus de plus haut niveau vers un processus de plus bas niveau, permettant à ce dernier de réinterpréter ses données-objet et de fournir un nouveau résultat différent, sans que ce retour demande un pilotage explicite. Ce modèle attire l’attention.

Constatant la carence d’une théorie linguistique qui intégrerait les diverses connaissances issues de la sphère pragmatique nécessaires à la compréhension d’un texte, la démarche se positionne comme TAL, et comme un modèle (l’implémentabilité est explicitement recherchée). Mais ce modèle n’est-il pas lui- même gros d’une théorie, au moins d’une théorie du contrôle (an. « control », fr.

« pilotage »), qui est latente dans l’article ? L’auteur distingue, pour l’IA, trois métaphores (ou analogies) possibles : a) l’analogie symbolique, b) la métaphore du réseau et c) l’IA distribuée, c’est-à-dire la pensée vue comme un phénomène collectif. Il dit s’intéresser à la première et à la troisième et écarter la seconde (le réseau) parce qu’il « ne travaille pas dans le paradigme connexionniste ». On en prend acte sans du tout en faire un reproche. En chemin, par les multiples interactions entre agents et sketchboards, on perçoit pourtant un ensemble dont le caractère est bien réticulé (la connaissance est distribuée entre plusieurs frames, etc.). Ce qui est écarté paraît donc être spécifiquement le connexionisme neuromimétique (de type McClelland, 1986, et successeurs), mais le modèle proposé paraît tout de même au recenseur être bien un modèle qui, à sa façon, a un caractère de réseau. D’ailleurs, certaines des questions traitées avec bonheur sont de

(9)

celles qui plaisent aux connexionnistes comme par exemple la compétition ou l’interaction des plans (ici des modules). Mais la technique implémentationnelle n’est pas la même. L’auteur concède que l’analogie symbolique (ci-dessus), dont il fait un de ses deux thèmes (l’autre est le caractère distribué), est « sans aucune référence au cerveau » quand, dans la métaphore du réseau, « le fonctionnement mental est celui du cerveau et l’intelligence une activité non symbolique de réseau ». Que cette activité doive être non symbolique est-il aussi évident et aussi nécessaire (ou alors que veut dire « symbole » ?) lorsque, depuis le giron même du connexionisme, on évalue (Marcus, 2001) que les réseaux connexionnistes doivent impérativement (ceci avec deux autres impératifs) devenir capables de traiter des symboles, ce qu’ils n’auraient pas encore suffisamment fait. Que, d’autre part, le fonctionnement des réseaux connexionnistes fournisse un modèle de celui du cerveau, ceci reste à évaluer : il en a certains caractères mais on est encore loin du compte. Au point où nous sommes aujourd’hui, les modèles connexionnistes doivent se rendre capables d’effets de symboles plus marqués, au contraire de l’opinion initiale les concernant qui était qu’il leur suffisait d’abolir le symbole. La voie symboliste de son côté doit arrondir les angles des symboles, se monter capable de gradations, de mélanges de points de vue, de réactions mutuelles général- particulier, ce à quoi ce travail contribue.

L’article comporte aussi un modèle opératoire de la conscience qui s’approche de la falsifiabilité. Il tente, de manière précise, de lier la conscience à des processus et à l’apprentissage. Il reste sans doute à détailler et à évaluer ce modèle (ce que l’article ne fait pas) mais la précision de la proposition contraste heureusement avec la littérature dominante sur le sujet (issue il est vrai de champs connexes différents, surtout de la philosophie).

Dialogue analysis using layered protocols, Martin Taylor et David Waugh (Ontario)

Cet article propose une architecture, le modèle de protocoles en couches LP (layered protocol). Combien de couches dans LP ? La proposition en distingue deux : query-response level et proposition level, la première utilisant la seconde qui utilise à son tour un niveau « mots et expressions ». L’article n’est pas explicite sur ce qui se passe entre le proposition level et le niveau « mots et expressions ». Le recenseur doute que ce dernier puisse être défini comme un service et suspecte que ce qui se passe à ce point est substantiellement différent de la relation entre query- response level et proposition level. En quoi le layering le LP est finalement assez peu layered, à la différence du modèle OSI où s’observent, entre les six couches du modèle, cinq occasions de relations consécutives qui sont autant d’instances du schéma IMPLEMENTATION_^SUR que le modèle OSI définit très strictement. De ce que ce layering soit limité dans LP on ne se plaint pas car il n’y a pas de raison que les schémas de linguistique computationnelle pour les systèmes de dialogue se calquent sur ceux de la technologie informatique. Cette dernière n’aura été qu’un ‘contexte

(10)

de découverte’ duquel on nous conduit vers autre chose, vers un thème nouveau qui est tout à fait intéressant et que nous allons regarder maintenant.

Pour tout niveau de protocole, le message que l’originateur doit communiquer est un état du récepteur qu’il souhaite le voir atteindre. Un nœud de protocole de l’originateur reçoit comme entrée un message primaire qui est un état du récepteur que l’originateur souhaite percevoir comme réalisé. Il compare ce message primaire avec l’état du partenaire tel qu’il le perçoit et produit un ou plusieurs messages virtuels qui sont des moyens de faire évoluer le récepteur. Cet article lie ainsi les éléments protocolaires à une dynamique des états intentionnels perçus. Il suppose donc l’intentionnalité structurable en niveaux homogènes et fonctionnellement un peu distincts. Ceci se vérifie dans la technique informatique (modèle OSI), mais il n’est pas clair d’emblée que dans l’intentionnalité s’opèrent des groupements fonctionnels qui justifient des niveaux ; cette équipe l’a peut-être trouvé mais ceci n’est pas rapporté dans l’article. Si ces groupements sont un peu autonomes, ils légitiment un point de vue protocolaire en couches, sinon cette architecture n’a pas de base claire. Or l’empirie la plus commune en linguistique est justement que des interactions sont toujours possibles entre des plans même réputés séparés. Par exemple, la prosodie n’est pas une petite province coincée quelque part entre phonologie et morphologie, elle a des adhérences très fortes avec la syntaxe et avec la sémantique. Que les auteurs optent pour deux couches (ci-dessus) indique bien que le phénomène « niveau » n’est pas très marqué.

Une autre idée dans cet article est celle du « netting » de l’état final souhaitable du partenaire par l’état actuellement perçu et qu’à un niveau donné, la différence entre les deux forme la base du message à émettre. Même si elle n’est ni très étagée ni très « protocolarisable » cette systématique est raisonnable. Elle est raccordable aux anciennes maximes de quantité, de pertinence et de brièveté de Grice.

Sergei Nirenburg, Harold Somers et Yorick Wilks, Readings in Machine Translation, The MIT Press, 2003, 418 pages, ISBN 0-262-14074-8.

par Nicolas Stroppa

GET/ENST et LTCI, CNRS UMR 5141 stroppa@enst.fr

L’ouvrage édité par Nirenburg, Somers et Wilks rassemble une partie des plus importantes contributions au domaine de la traduction automatique depuis ses débuts, soit les cinquante dernières années. En tant que recueil d’articles, il ne se veut et ne saurait être ni un ouvrage d’introduction au domaine, ni une présentation historique de celui-ci. Les éditeurs proposent plutôt une découverte ou une redécouverte des fondements de la traduction automatique par l’exemple, à travers les articles qui l’ont particulièrement marquée. Les contributions sont organisées en trois parties thématiquement distinctes intitulées : Historical, Theoretical and

(11)

Methodological Issues et System Design. Ces contributions sont complétées par une introduction générale, ainsi que trois introductions spécifiques à chacune des parties.

Dans l’introduction générale, les éditeurs établissent le constat suivant : dans le domaine de la traduction automatique (TA), de nombreux articles très connus, très cités, et considérés par une grande partie des membres de la communauté comme étant les pierres fondatrices du domaine, sont aujourd’hui difficiles à trouver. Parmi ceux-ci on peut citer le cas des études datant des années 1950 ou celui des rapports techniques faiblement diffusés. Ce premier constat en entraîne un autre un peu plus lourd de conséquences : ces articles, puisque méconnus, sont parfois mal cités. Ces observations faites, les éditeurs ont cherché à en remettre à disposition un certain nombre, sous la forme d’un recueil les réunissant. Face à la question du choix des contributions, le discours des éditeurs est assez cohérent : il s’agit d’inclure les articles, d’une part, difficiles à trouver et, d’autre part, dont l’influence est unanimement reconnue. Notons qu’un corollaire du second critère est l’absence d’articles récents ; il apparaît en effet impossible de distinguer, parmi eux, ceux qui auront une influence dans l’avenir. L’article le plus récent du recueil est ainsi paru en 1993, ce qui décevra le lecteur recherchant un reflet de l’état de l’art. À l’arrivée, l’ouvrage rassemble 36 articles classés en 3 parties, sur 418 pages. Dans la suite, nous nous attarderons plus particulièrement sur quelques-uns seulement de ces articles, pour des raisons de place.

La première partie, Historical, est composée de 11 articles, parus entre 1949 et 1967, i.e. durant la première phase de la TA (en grande partie avant la publication du rapport ALPAC, qui fut lourd de conséquences). Elle débute, comme on pouvait s’y attendre, par l’article fondateur de Warren Weaver, Translation (1949). Cet article révèle à lui seul l’intérêt de découvrir ou de redécouvrir les articles de cette époque. Weaver y expose les bases théoriques du domaine, et affirme qu’il est possible de résoudre le problème de la TA à l’aide de techniques de cryptographie.

Si cet aspect de l’article est celui qui a le plus survécu aux années, c’est loin d’être l’unique apport à retenir de la contribution. En effet, un certain nombre de problèmes fondamentaux liés à la TA y sont déjà soulevés. Il s’agit notamment (i) de la difficulté que l’automatisation de la traduction va rencontrer face aux ambiguïtés sémantiques, (ii) de l’importance du contexte dans la résolution de ces ambiguïtés et (iii) du besoin d’une analyse de la phrase en profondeur, une analyse de surface n’étant pas suffisante. En outre, Weaver alerte d’ores et déjà à propos de la difficulté, voire l’impossibilité, d’obtenir de façon entièrement automatique des traductions de très bonne qualité (en anglais High Quality Fully Automated Translation, HQFAT). Yehoshua Bar-Hillel, dix ans plus tard, présente dans The Present Status of Automatic Translation of Languages, un panorama de l’état des recherches dans le domaine, et propose par ailleurs une démonstration de l’impossibilité théorique d’atteindre la HQFAT, en utilisant notamment les outils associés au célèbre « the box was in the pen ». Il préconise en conséquence d’orienter les recherches vers l’aide à la traduction. Dans un autre registre, si les origines de la traduction automatique à l’aide de méthodes statistiques font en grande partie référence au projet Candide et à l’article de Brown et al., A Statistical

(12)

Approach to Machine Translation (1990) (présent par ailleurs dans la troisième partie), on connaît moins la contribution de Gilbert W. King, Stochastic Methods of Mechanical Translation, publié en 1955. Dans celui-ci, King propose des méthodes statistiques en utilisant la redondance des langues naturelles pour diminuer les ambiguïtés sémantiques. Il dit en substance que l’ambiguïté sémantique d’un mot peut être largement réduite si l’on connaît les mots qui le précédent et leurs fréquences d’apparition. Par ailleurs, trois articles traitent le problème de l’automatisation de l’analyse syntaxique dans un cadre de TA. Deux contributions abordent de façon spécifique la TA entre anglais et japonais. De manière générale, l’ensemble de ces articles permettent de mesurer le rôle historique qu’a joué la TA dans le domaine du traitement automatique du langage. L’introduction de l’ouvrage rappelle entre autres que le journal Computational Linguistics s’est d’abord appelé Mechanical Translation, puis Mechanical Translation and Computational Linguistics et The American Journal of Computational Linguistics avant d’avoir son nom actuel. Rappelons à notre tour l’évolution du nom de la présente revue, anciennement appelée La Traduction Automatique puis T.A. Informations.

La deuxième partie aborde les aspects méthodologiques et théoriques de la TA, à travers des articles parus entre 1968 et 1990. Dans Automatic Translation and the Concept of Sublanguage (1982), John Lehrberger souligne l’importance de la notion de sous-langage dans le domaine de la TA. Le sous-langage apparaît comme un cadre dans lequel il est possible de réduire fortement les ambiguïtés, à l’aide de restrictions ou de connaissances spécifiques à un domaine, au niveau lexical, syntaxique ou sémantique. Pour illustrer ses propos, il prend pour exemples le système TAUM-météo, qui a pour but de traduire des bulletins météo, et un système de traduction de manuels de maintenance d’avions. Dans The Proper Place of Men and Machines in Language Translation (1980), Martin Kay revient sur le débat FHQAT/aide à la traduction. Il justifie, à l’aide d’un certain nombre d’arguments linguistiques et informatiques, l’impossibilité d’atteindre la FHQAT, et rappelle que les validations empiriques disponibles à cette époque sont très éloignées de l’objectif originel. Il critique alors le développement de solutions ad hoc traitant avant tout des phénomènes de surface, et préconise à son tour de se concentrer en premier lieu sur le problème de l’aide à la traduction. Pour lui, il s’agit tout d’abord de traiter manuellement une grande part du travail, pour laisser progressivement plus de place à la machine, selon la formule : « little steps for little feet ». Dans Pros and Cons of the Pivot Approaches in Multilingual Machine Translation (1988), Christian Boitet compare les approches transfert et pivot, et explique pourquoi l’approche transfert tend à être de plus en plus utilisée, tout en explicitant les cas pour lesquels il convient de choisir l’une ou l’autre des approches. Cette partie traite également du rapprochement entre les théories linguistiques et leurs inclusions dans un système de TA, e.g. dans Montague Grammar and Machine Translation (1987) de Jan Landsbergen et Translation by Structural Correspondences (1989) de Kaplan et al. Plus généralement, on perçoit dans cette partie l’évolution des systèmes de traduction directe vers des systèmes de deuxième génération.

(13)

La troisième partie, System Design, regroupe des articles ayant marqué le domaine par la conception d’un système innovant. Tout d’abord, on peut trouver des présentations de systèmes dont les concepts et les problématiques méthodologiques renvoient directement à ceux traités dans la deuxième partie. C’est le cas de The Stanford Machine Translation Project (1973), par Yorick Wilks, Automatic Translation – A Survey of Different Approaches (1976), par Bernard Vauquois, ou encore EUROTRA: Computational Techniques (1985), par Ron Johnson, Maghi King et Louis des Tombe. Elles fournissent une très bonne illustration de l’intégration de modèles formels dans un système réel. Ensuite apparaissent des articles qui relèvent d’une méthodologie sensiblement différente, à travers un paradigme nouveau. C’est le cas de l’article de Makoto Nagao, A Framework of a Mechanical Translation between Japanese and English by the Analogy Principle (1981), à l’origine de la TA à partir d’exemples. De même pour l’article de Brown et al. mentionné plus haut. La TA de la parole est abordée dans Automatic Speech Translation at ATR (1993), de Tsuyoshi Morimoto et Akira Kurematsu. Cette partie permet d’établir un lien entre les objectifs recherchés, les applications visées, et les solutions techniques adoptées.

Il est sans doute possible de critiquer les éditeurs sur le choix des articles. Tel article n’a peut-être pas sa place dans cet ouvrage, tel autre en est probablement absent ; la problématique de l’évaluation de la traduction est par exemple peu abordée. Toutefois, on ne peut nier que l’ouvrage constitue un ensemble cohérent, contenant de nombreux classiques pour la plupart difficiles à trouver. Soulignons par ailleurs que les éditeurs ont accompli des efforts visant à harmoniser la présentation des articles, en particulier les références. En outre, les introductions sont pertinentes et riches en commentaires avisés. Un index général et une liste des conférences notables en TA sont également disponibles. Dans l’ensemble, le présent ouvrage nous semble constituer une très riche source d’informations pour tous ceux qui désirent se pencher sur les fondements du domaine à l’abri des préjugés et des lieux communs.

Jacques Rouault et Maria-Caterina Manes-Gallo, Intelligence linguistique.

Le calcul du sens des énoncés élémentaires, Hermès-Lavoisier, Paris, 2003, 272 pages, ISBN 2-7462-0740-0.

par Frédéric Landragin LORIA, Nancy

Frederic.Landragin@loria.fr

Est-il possible d’articuler la compréhension d’un texte à partir des seuls éléments présents dans ce texte, c’est-à-dire en faisant l’économie de connaissances encyclopédiques sur le monde ? Pour les auteurs de cet ouvrage, la réponse est affirmative : l’explicite permet d’inférer l’implicite, tant au niveau du sens que des plans d’action et des buts du locuteur.

(14)

L’accent est ainsi mis sur la matérialité de la langue, et le titre de l’ouvrage peut se comprendre comme l’intelligence (sémantique et pragmatique) que l’on peut extraire du matériau linguistique. Les auteurs s’inspirent librement de théories linguistiques et développent pour le calcul du sens un modèle intermédiaire entre plausibilité théorique et calculabilité informatique. La description des différentes facettes de ce modèle est d’un abord parfois difficile, réservant cet ouvrage à des lecteurs appartenant déjà au monde de la linguistique formelle et du traitement automatique des langues. Situer l’approche dans les recherches actuelles s’avère également difficile, d’une part suite à sa divergence par rapport aux nombreux travaux qui exploitent des connaissances extra-textuelles ; d’autre part du fait de l’absence de positionnement argumenté et de validation des propositions. Néanmoins, l’exploitation fine de certains indices linguistiques, tels que ceux de la détermination ou encore de la sémantique verbale, est exemplaire et mérite d’être soulignée.

Avec comme objectif à long terme la réalisation de systèmes de recherche d’information et de communication homme-machine, l’ouvrage vise à identifier les connaissances portées par le texte à l’aide des indices linguistiques qu’il contient.

Ces connaissances sont représentées dans une base que les auteurs modélisent sous le nom de mémoire discursive, en référence aux travaux d’Alain Berrendonner. Le but principal de l’ouvrage est de décrire la construction et la gestion de cette base pour l’interprétation de textes écrits et oraux. La présentation souffre malheureusement d’un manque de clarté et d’organisation. Le premier chapitre mêle ainsi en peu de pages un très grand nombre de considérations sur l’indexation, la recherche d’information, la représentation des connaissances, la syntaxe, la sémantique, la pragmatique, etc., ainsi que quelques idées, propositions et résultats.

De ces derniers, nous retiendrons l’importance donnée aux deux distinctions état- processus et statique-dynamique, distinctions qui se retrouvent au niveau des types de procès, des types d’énoncé, et qui, selon les auteurs, s’avèrent essentielles pour comprendre le comportement du locuteur. Nous retiendrons également la distinction avancée entre la signification (qui dépend de l’interaction entre le type de procès et les schémas syntaxiques qui lui sont associables) et le sens (qui dépend des transformations opérées par les opérations d’énonciation sur cette signification), ainsi que la séparation de trois niveaux de sens : le sens véhiculé par les énonciations par rapport au discours ; le sens évoqué par les énonciations par rapport au monde construit par le discours ; et le sens qui fixe le référent des énonciations par rapport au domaine d’application.

La première partie de l’ouvrage aborde la construction de la mémoire discursive avec la définition des « objets-de-discours », à savoir les connaissances construites par les descripteurs nominaux, et plus particulièrement des « objets-de-discours individuels » qui correspondent aux référents discursifs. Les auteurs structurent un objet-de-discours individuel en trois composants : premièrement le statut regroupant des indications concernant l’insertion de l’objet dans le discours ; deuxièmement la partie définitionnelle correspondant aux propriétés et aux actions que le discours asserte sur l’objet ; et troisièmement la partie « extro » qui comprend des formules prédicatives permettant des raisonnements sur l’objet, compte tenu de l’application.

Les objets-de-discours sont eux-mêmes structurés dans un graphe qui forme la

(15)

mémoire discursive. Cette première partie introduit toutes les caractéristiques de l’approche. Les auteurs reviennent sur les grands problèmes du traitement automatique des langues, de l’intelligence artificielle, de la logique déductive ou abductive, ainsi que sur les notions d’intension et d’extension sur lesquelles ils articulent leur modèle. Celui-ci est ainsi présenté dans son ensemble, et les parties suivantes vont se focaliser sur des aspects précis.

La deuxième partie poursuit la construction de la mémoire discursive en prenant pour unité l’énoncé élémentaire, c’est-à-dire la proposition formée d’un relateur (prédicat) et d’arguments correspondant aux compléments du verbe. Les auteurs explorent alors plusieurs facettes de la sémantique de l’énonciation, en s’intéressant non pas aux propriétés fonctionnelles des objets mais aux seuls aspects linguistiques et énonciatifs. Ils s’inspirent du modèle de la lexis d’Antoine Culioli pour définir un schéma d’énoncé par un ensemble de six places prédéterminées : une place de relateur ; trois places d’arguments ; une place d’énonciation pour les marques des opérations d’énonciation ; et une place caractéristique de l’énoncé pour les valeurs globales des opérations qu’il véhicule. En ce qui concerne la place d’énonciation, les auteurs partent des travaux de Catherine Fuchs et distinguent les connaissances d’interprétation qui déterminent la nature de l’espace d’interprétation de l’énoncé ; les connaissances liées à son ancrage spatial et temporel ; et les connaissances relatives à sa dynamicité. Quant à la place caractéristique de l’énoncé, elle regroupe des considérations telles que l’insertion discursive, les conditions de validité ou encore l’espace d’interprétation. En partant de la distinction état-processus ainsi que des notions de visée faible (qui renvoie à du possible) et de visée forte (qui renvoie à du certain), les auteurs aboutissent à une classification des types de procès qui leur sert de base pour l’analyse des énoncés élémentaires, leur but étant l’identification d’une structure qui, pour chaque énoncé, relie les objets-de-discours et montre en quoi l’information disponible au sujet de l’énoncé confirme, précise ou contredit les données lexicales. L’importance des déterminants, des traits sémantiques et des rôles thématiques est détaillée. Un exemple d’analyse est finalement déroulé, avec des considérations à la fois lexicales, syntaxiques et sémantiques.

La troisième partie s’intéresse à la nature des raisonnements mis en œuvre lors de l’exploitation de la mémoire discursive. Elle détaille les « objets prédicatifs » qui concernent les propriétés et les actions, et qui viennent s’ajouter aux objets-de- discours individuels. Elle s’attache alors à construire un système inférentiel à partir des objets-de-discours en tant qu’individus et des objets prédicatifs en tant que prédicats. Les règles d’inférences sont avant tout des règles abductives, puis des règles déductives classiques. Les raisonnements abductifs n’interviennent qu’entre des objets, et particulièrement pour des inférences entre sous-objets et objets. Lors de l’analyse d’une nouvelle description, il s’agit ainsi de rechercher un objet qui précéderait l’objet courant dans la chaîne de raisonnements. En ce qui concerne les raisonnements déductifs, les auteurs s’appuient sur les axiomes du calcul des noms et sur la méréologie de Stanislas Lesniewski. Tous ces raisonnements ont lieu dans l’intension, un exemple de raisonnement dans l’extension étant l’ingrédience, ou

(16)

distance entre deux objets individuels. Le modèle est désormais complet et le dernier chapitre revient sur des points méthodologiques et informatiques pour son exploitation dans des applications de traitement automatique des langues. Certains aspects de cette troisième partie restent malheureusement inachevés. Par exemple, un problème connu dans la gestion des inférences est la limitation de leur nombre et de leur portée ; or les auteurs renvoient à l’application le soin de résoudre ce problème. D’autre part, les propositions avancées manquent de cohésion. Les renvois à la suite de l’ouvrage sont fréquents, et le modèle décrit ressemble moins à un ensemble cohérent qu’à un agglomérat de propositions éparpillées et parfois mal reliées. La conséquence naturelle de ces défauts est que le dernier chapitre ne fait qu’effleurer le domaine de l’interprétation automatique et de la conception de systèmes multiagents pour ce faire. Une implantation partielle est par exemple évoquée deux pages avant la fin, la description donnée s’avérant insuffisante.

Au final, l’ouvrage ne suffira peut-être pas à convaincre le lecteur du bien-fondé de l’approche des auteurs, mais fournira néanmoins un exemple de travail pluridisciplinaire délicat, démontrant la complexité des phénomènes linguistiques ainsi que la nécessité de tenir compte du maximum de cas dans la réalisation de systèmes automatiques.

Peter Jackson et Isabelle Moulinier, Natural Language Processing for Online Applications. Text Retrieval, Extraction and Categorization, John Benjamins, Natural Language Processing, Amsterdam, 2002, 226 pages, ISBN 1588112500.

par Benoît Habert et Michèle Jardino LIMSI – CNRS

{Benoit.Habert; Michele.Jardino}@limsi.fr,

Les auteurs ont délibérément choisi, comme le souligne le titre, une optique applicative, qui correspond d’ailleurs à leur pratique et à leur ancrage dans Thomson Legal & Regulatory (http://www.thomson.com/legal/ – routage en information juridique – cf. p. 95). Leur objectif, formulé p. ix-x, est, tout en évitant le double écueil du livre de recettes et de l’argumentaire publicitaire, de fournir de manière compacte (225 p.) un inventaire des technologies-clés, un aperçu des savoirs sous-jacents et une appréciation des points forts et des faiblesses des approches effectivement utilisées. Les chapitres comprennent donc une partie consacrée à l’évaluation, à la fois méthodologique et pratique (au regard de l’expérience industrielle). Le public visé est universitaire mais aussi industriel (« software engineers, project managers, and technology executives »). Par rapport à la plupart des introductions aux domaines traités (par exemple : R. Baeza-Yates et B. Ribeiro-Neto (eds), Modern Information Retrieval, Addison-Wesley, 1999, ACM Press Books, Reading, Massachusetts ; K. Sparck Jones et P. Willett (eds), Readings in Information Retrieval, Morgan Kaufmann, 1997, San Francisco, California ; E. Gaussier et M.-H. Stéfanini (eds), Assistance intelligente à la recherche d’information, Hermès-Lavoisier, 2003, Paris), qui assemblent des contributions, l’ouvrage offre l’avantage d’une vue unifiée. Deux regrets sur la forme choisie. Les références

(17)

bibliographiques figurent dans les notes et non dans une section globale. Les notes, quant à elles, sont disposées en fin de chapitre et non en bas de page, ce qui gêne leur consultation.

Cette mise en forme non universitaire est néanmoins cohérente avec la volonté d’une présentation par ordre de difficulté croissante des informations, constatable au fil même des chapitres. Des courts développements marqués par une barre marginale permettent d’ailleurs d’approfondir certaines notions. Une section nommée Pointers clôt chaque chapitre : elle indique les ouvertures bibliographiques centrales. Les auteurs ont le souci d’exemples simples donnant l’esprit des techniques et méthodes présentées. Mais ils fournissent également l’arsenal précis des formules pertinentes : ils les commentent d’ailleurs pour permettre au lecteur de comprendre les enjeux de tel ou tel paramètre (par exemple sur le lissage d’IDF en recherche probabiliste p. 39).

Le livre s’ouvre par un chapitre introductif sur le traitement automatique des langues. Il rappelle brièvement les niveaux d’analyse, l’opposition entre TAL

« symbolique » et TAL « empirique », ancré dans une analyse statistique d’usages.

Il présente de manière concise la segmentation en « phrases », en « mots » et les difficultés rencontrées, ainsi que l’étiquetage, la lemmatisation, le repérage de groupes nominaux, et le parsage. Sont abordés ensuite successivement la recherche d’information (Document retrieval – ch. 2), dont les problèmes spécifiques de l’application au web (p. 56-63), l’extraction d’information (Information extraction – ch. 3), la classification de documents (Text categorization – ch. 4). Un chapitre plus programmatique, Towards text mining, clôt le tout.

Un des points forts de l’ouvrage est de consacrer des développements importants à l’extraction d’information et à la classification de documents (ce volet est détaillé au paragraphe suivant). L’extraction d’information, qui apparaît avec les Message Understanding Conferences de la fin des années 1980, est présentée en associant les expressions régulières, leur utilisation dans FASTUS et les grammaires hors contexte et leur traitement de l’ambiguïté. L’apport de l’apprentissage artificiel est pris en compte (p. 109-111). Le chapitre dévolu à la fouille de textes aborde deux problèmes dont la solution est probablement cruciale pour améliorer l’accès à l’information. La capacité à reconnaître les expressions en relation de coréférence pour diminuer le silence face à certaines requêtes. Le résumé automatique et l’écrémage de documents, ainsi que la combinaison d’informations provenant de différents documents.

La classification de documents est abordée dans le sens d’affectation d’un document à une ou plusieurs classes préexistantes. Les auteurs énumèrent les différentes tâches de classification de documents et mettent en regard les nombreuses méthodes utilisées. Ils insistent sur la difficulté de la tâche qui n’a pas encore trouvée de solution idéale, ce domaine de recherche étant relativement récent : une dizaine d’années à comparer aux quarante ans de travaux en recherche de documents. Les approches présentées sont : l’apprentissage de règles édictées à la main (section 4.2), l’apprentissage supervisé de « règles » par une machine à partir d’exemples de documents préalablement classés (section 4.3) et l’algorithme des plus proches voisins (section 4.4). La première approche utilise des opérations logiques sur les mots et les concepts que l’expert associe aux documents. Les

(18)

deuxième et troisième approches considèrent essentiellement les documents comme des sacs de mots auxquels s’appliquent des calculs statistiques variés, permettant de gérer de très grands nombres de traits, ce qui n’est pas le cas de la première approche. Trois types de classifieurs sont présentés à la section 4.3, deux très proches pour les classifieurs bayesiens naïfs et les classifieurs linéaires, le troisième pour les arbres de décisions. Les deux premiers construisent un modèle de représentation des classes à plat (non hiérarchisées), le troisième s’apparente davantage à l’approche manuelle : il génère une série de questions de plus en plus discriminantes à partir d’une sélection des traits. Ce processus est automatisé en calculant le gain d’information apporté par chaque nouvelle question. La méthode des plus proches voisins est présentée curieusement à part (section 4.4) alors quelle s’apparente aux classifieurs décrits en 4.3. Les auteurs expliquent ce choix par le fait qu’un modèle n’est pas construit préalablement pour représenter les classes, ce que l’on peut contester car en réalité dans cette approche, chaque document est un représentant de sa catégorie et les documents à classer sont comparés à ces représentants de manière très analogue à celle des classifieurs linéaires. L’intérêt de chaque méthode est évalué en termes de facilité ou difficulté d’utilisation, de temps de calcul, d’espace mémoire et d’applicabilité selon le domaine d’emploi, ce qui constitue un atout très important de ce livre. La partie métrique présente quelques mesures usuelles en montrant bien la difficulté d’évaluer de telles tâches.

En fin de compte, P. Jackson et I. Moulinier remplissent globalement l’objectif qu’ils s’étaient fixé : une introduction compacte et concrète privilégiant les domaines d’application en plein essor. Une carte à grande échelle, mais sans déformations majeures, pour aborder dans de bonnes conditions des techniques plus spécifiques (D. Jurafsky et J. Martin, Speech and language Processing. An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, Prentice Hall, 2000, Upper Saddle River, New Jersey) ou une approche particulière (C. Manning et H. Schütze, Foundations of Statistical Natural Language Processing, The MIT Press, 1999, Cambridge, Massachusetts).