Article pp.183-202 du Vol.46 n°2 (2005)

(1)

Rubrique préparée par Denis Maurel

Université François-Rabelais de Tours, LI (Laboratoire d’informatique) denis.maurel@univ-tours.fr

Joël Gapany, Formes et fonctions des relatives en français. Etude syntaxique et sémantique, Collection Sciences pour la Communication, Vol. 73, Peter Lang, 2004, 206 pages, ISBN 3-03910-098-X

par Christophe Benzitoun DELIC – Université de Provence Christophe.Benzitoun@up.univ-aix.fr

Cet ouvrage, résultat d’une thèse soutenue en 2002 à l’Université de Fribourg, est une description sur corpus des relatives avec antécédent. L’auteur y aborde, sans aucun préjugé, la problématique des relatives réputées « normatives » comme « non standard » à partir de corpus écrits et oraux avec une critique et un respect constants des données, en essayant de distinguer au maximum syntaxe, sémantique et pragmatique pour ne pas tomber dans la circularité des études traditionnelles qu’il dénonce au début. Cette démarche lui permet de simplifier la description et d’éviter les biais inhérents au mélange des niveaux.

L’objectif principal de cette étude est de circonscrire avec précision, à partir de critères formels, les constructions pouvant être qualifiées de relatives puis d’en proposer une typologie basée sur des distinctions essentiellement sémantiques et syntaxiques. Il ne s’agit donc pas d’un travail de formalisation en vue d’une implémentation mais plutôt d’une œuvre de description et de classement préliminaire à une éventuelle formalisation. Par ailleurs, ce livre peut constituer une bonne introduction à la problématique des relatives en français contemporain car il est clair et abordable par des non spécialistes de la question. De plus, les nombreux exemples attestés envisagés permettent d’avoir une vision précise de l’ampleur de la tâche, bien loin des présentations normatives.

Description. Le premier chapitre aborde la question des fondements historiques de la « théorie des deux types de relatives » (restrictive vs explicative) et sa perpétuation par les grammairiens basée sur des critères dont le caractère contestable est bien montré. Il se poursuit par un examen critique des approches linguistiques contemporaines, lesquelles proposent des corrélations un peu rapides entre fonctionnement syntaxique et interprétation sémantique ainsi que des typologies

(2)

sémantiques peu opératoires car basées sur des différences d’interprétation forcément subjectives. L’auteur met aussi l’accent sur la place et la nature des données retenues par les linguistes. Ce chapitre s’achève sur la nécessité de mieux distinguer les propriétés sémantiques et syntaxiques, principe mis en œuvre dans les chapitres suivants.

Le second chapitre, sur la syntaxe externe des relatives, est une description des relations syntaxiques, sémantiques et discursives que la relative entretient avec son antécédent. Afin de mener à bien sa typologie, l’auteur s’appuie sur le concept de mémoire discursive, sur la distinction entre micro et macro-syntaxe et sur la différence entre forme liée et pointeur, cinq notions issues d’Alain Berrendonner et/ou Marie-José Béguelin. La typologie syntaxique s’articule autour de la distinction première entre intégration et non intégration. Ainsi, une relative sera dite non intégrée si, par exemple, son relatif se comporte comme un pointeur, c’est-à-dire si un calcul inférentiel sur le contenu de la mémoire discursive est requis pour l’interprétation. Le relatif peut alors se prêter à un accord morphologique avec le contenu de l’antécédent et non pas avec l’antécédent lui-même (Il se rend au château du comte Szemioth qui ont, lui et sa mère, été agressés par un ours). Du côté de la face sémantique, l’auteur distingue les relatives déterminatives des non déterminatives, toutes deux appartenant aux relatives intégrées. En fonction de la façon dont elles situent le référent du SN dans lequel elles sont intégrées, les relatives déterminatives sont classées en relatives spécifiantes et catégorisantes. Une catégorie de relatives intégrées peu étudiée (sans valeur restrictive) est dégagée : celle des relatives pictives qui décrivent un référent déjà identifié et catégorisé. Par ailleurs, ce chapitre ainsi que le chapitre suivant se terminent sur des synthèses et des tableaux récapitulatifs éclairants (p. 112 et 167).

Le troisième chapitre se propose de délimiter les relatives à partir de leurs propriétés de syntaxe interne. J. Gapany commence par mettre sur le même plan le trait [+Wh] des générativistes et l’approche traditionnelle, ces deux courants souffrant du même problème de circularité : c’est le mot [+Wh] ou le pronom relatif qui définit ce qu’est une relative. L’ouvrage accorde aussi une place particulière au statut du relatif. L’auteur reprend sous une forme moderne et en l’explicitant l’hypothèse de Guiraud selon laquelle une forme relative résulte de l’amalgame d’un subordonnant et d’un anaphorique. Ce sont alors les règles de linéarisation de ces deux composants qui vont permettre d’expliquer de nombreux phénomènes (décumul, pléonasme…). Le classement des types syntaxiques qu’il propose à partir de la forme de surface de la syntaxe interne fait donc la part belle au relatif et à ses propriétés de linéarisation. Ainsi, trois types sont dégagés : les relatives à pivot (c’est-à-dire l’anaphorique sous-jacent au constituant relativisé) initial, à pivot zéro ou à décumul. Il ne s’agit pas de catégories étanches et une même réalisation de surface peut être le résultat de « l’hybridation » de plusieurs types.

L’étude se termine par une pragmatique des relatives, c’est-à-dire les contextes discursifs conditionnant l’emploi de telle ou telle relative, et par la reproduction de nombreux exemples fort intéressants.

(3)

Evaluation. La typologie qui nous est présentée, malgré la rigueur de son auteur, comporte un biais méthodologique qui me semble nuire à l’argumentation : l’instauration de manière ad hoc d’un élément vide et l’affirmation qu’en fonction de ses propriétés de linéarisation, on aurait à faire à deux réalisations de surface différentes (par exemple, accord avec le participe passé lorsqu’il est en tête de la relative, pas d’accord lorsqu’il se trouve à l’intérieur). De plus, les critères proposés ne sont pas hiérarchisés et il n’est pas précisé comment on conclut en présence de deux critères antagonistes. Au niveau de la terminologie, la notion d’antécédent est explicitement rejetée par l’auteur (on la retrouve pourtant à de nombreuses pages ainsi que dans l’index) et le terme de « fonction » est appliqué au niveau sémantique, ce qui peut parfois occasionner un certain flou entre syntaxe et sémantique. On aurait aussi aimé avoir une définition du terme « catalyse » qui est employé à plusieurs reprises.

L’auteur étudiant uniquement les relatives à antécédent, cela ne lui permet pas de voir l’ensemble des contraintes de syntaxe interne pesant sur les constituants délimités par le relatif. Par exemple, la présence de la tournure superlative en le plus permettrait de proposer un classement différent de celui préconisé ici (L’homme que j’aime le plus / L’époque où j’ai le plus voyagé). Ce critère aurait notamment permis d’intégrer dans les relatives la seconde partie des clivées (c’est à Paul que je parle le plus), malgré l’impossibilité d’analyser l’élément entre c’est et que comme un antécédent, et d’écarter des exemples comme le suivant qui ne me semble pas devoir être classé parmi les relatives : on a un problème avec la course des dames qu’on avait prévu d’aller à Thoune (p. 127). L’impossibilité d’introduire un superlatif dans ce type de structure va de pair avec l’impossibilité d’y trouver un pivot.

Par ailleurs, le relatif en position sujet fait l’objet d’un traitement spécial qu’il m’a été très difficile d’apprécier à sa juste valeur à cause vraisemblablement d’un problème de clarté. Je vais tenter de m’en expliquer. Dans de nombreuses études contemporaines sur les relatives, il est admis qu’il y a deux morphèmes qui : un qui, variante du complémenteur que (simple particule) pour la position sujet et un qui pronom affecté du trait [+animé]¹. Cette hypothèse et les arguments qui la fondent ne sont pas clairement présentés par l’auteur. Se substitue à cette distinction celle entre clitique et pronom tonique, comme dans l’ouvrage de C. Muller, La subordination en français, paru en 1996, pourtant non cité par J. Gapany. Ce glissement vers clitique/tonique émane de la généralisation de l’analyse de Berrendonner concernant les deux positions sujet, qui se réalise dans les contextes de double marquage (Le chat, il est beau). Cette approche a en outre le défaut de contraindre son auteur à conserver les deux analyses (tonique et clitique) pour une même construction de surface, à cause du fait que qui, comme les autres pronoms toniques et contrairement aux clitiques, peut être séparé de son verbe, et ce malgré tous les contre arguments qu’il énumère (marque de cas, élision du -i devant voyelle). Au final, on a du mal à savoir quelle analyse est retenue.

1. S’appuyant sur l’exemple Le papier à qui vous devez mon estime, J. Gapany considère que qui est marqué [+individué], ce qui en français contemporain me semble difficile à soutenir.

(4)

De plus, afin d’étayer sa démonstration, l’auteur a parfois recours à un élément vide, élément vide que l’on retrouve dans que avec l’argument qu’il y a accord, dans certains contextes, du participe passé avec le COD. Or, non seulement il est possible de considérer que l’accord se fait directement avec l’antécédent, mais en plus, cette propriété est considérée par beaucoup comme relevant d’une contrainte normative imposée de l’extérieur, d’ailleurs fort mal maîtrisée par les usagers de la langue.

Tirer argument d’une telle propriété est critiquable surtout quand on connaît la prudence que manifeste l’auteur vis-à-vis de la norme (p. 133).

Au final, on peut saluer le grand soin apporté à l’élaboration du cadre descriptif, la précision méthodologique ainsi que la place et le respect accordés aux données attestées. Le lecteur pourra puiser dans cette étude de nombreux exemples et un cadre descriptif exemplaire permettant d’enrichir sa réflexion, malgré la relative brièveté de l’ouvrage. En outre, comme c’est souvent le cas dans les études sur les relatives, on peut regretter que la place accordée à où soit si réduite et qu’une part si importante soit allouée aux seuls qui et que, déjà maintes fois abordés par ailleurs.

En conclusion, un ouvrage dont la rigueur méthodologique est exemplaire mais dont certaines analyses sont difficiles à accepter par manque d’arguments réfutables.

Jean-François Le Ny, Comment l’esprit produit du sens, Odile Jacob, 2005, 416 pages, ISBN 2-7381-1592-6

par Patrice Enjalbert GREYC – Université de Caen Patrice.Enjalbert@info.unicaen.fr

Cet ouvrage propose une vision informée et personnelle de la sémantique du langage du point de vue de la psychologie cognitive. Adressé à un large public, il porte un message épistémologique important : le fait que « la production de sens » par des sujets humains est un processus « naturel » qui peut être étudié scientifiquement, et en particulier de manière expérimentale. Il s’ouvre par une présentation des bases de l’étude de la compréhension du langage dans le cadre de la psychologie cognitive, elle-même resituée comme composante des sciences cognitives. Le cœur de l’ouvrage est consacré à une étude riche et détaillée du lexique mental, vu comme une vaste organisation de représentations cognitives. Les approches par réseau sémantique et par traits sémantiques sont particulièrement détaillées. Un dernier chapitre traite de la « construction du sens » proprement dite dans la compréhension d’énoncés. L’argumentation donne une large part aux faits expérimentaux obtenus par les méthodes de la psychologie cognitive, sans oublier un dialogue avec des points de vue développés en philosophie de l’esprit et en intelligence artificielle.

(5)

Le livre de J.-F. Le Ny est un ouvrage « grand public », conformément à une ligne éditoriale habituelle des éditions Odile Jacob. Précisons d’emblée que le terme

« sens » est bien à entendre ici comme relatif au langage, comme sens des énoncés langagiers. Son objectif est bien résumé par l’auteur dans les premières lignes de l’introduction : « présenter les bases d’une étude naturaliste et scientifique du sens (…) placée dans le cadre des sciences cognitives, et plus précisément dans celui de la psychologie cognitive ». Deux caractéristiques majeures de l’ouvrage en découlent :

– un « message épistémologique » fort en direction d’un large public, celui de la naturalité du phénomène : « le fait (…) que les représentations mentales sont des réalités naturelles, comme le sont les choses du monde, et qu’elles obéissent comme elles à des régularités (ou lois) causales » ;

– le cadre scientifique de l’auteur : les sciences cognitives et en particulier la psychologie cognitive, avec une insistance sur son caractère expérimental, bien en accord avec le principe de naturalité : il existe des procédures expérimentales qui permettent d’approcher du fonctionnement de l’esprit/cerveau et donc (indirectement, par inférence) de sa production de sens.

Pour situer l’ouvrage, il convient encore de préciser que le sens est abordé sous l’angle de la compréhension ; que celle-ci est présentée comme « construction du sens » ; mais que l’essentiel de l’ouvrage est en fait consacré au lexique mental et aux représentations du sens lexical : aux « briques élémentaires » de la signification donc plus qu’aux processus de construction eux-mêmes.

Le premier chapitre présente les objectifs et méthodes de la psychologie cognitive, avec ses spécificités au sein de l’ensemble des sciences cognitives.

L’accent est mis sur les notions de représentation et de processus mentaux, dont il s’agit – comme dans toute démarche scientifique – de mettre en évidence des « lois universelles ». La question des « substrats cérébraux » et d’autres questions générales sont également abordées, ainsi que quelques techniques expérimentales dont il sera question tout au long de l’ouvrage. En particulier la mesure du temps de réponse d’un sujet auquel une certaine tâche cognitive est proposée, qui peut être interprétée comme « révélatrice » sous un certain angle des processus mentaux mis en œuvre.

Dans le second chapitre, la compréhension du langage est alors présentée comme une activité cognitive particulière, visant à construire des représentations mentales qui constituent, pour l’individu, le « sens » de l’énoncé perçu. L’accent est mis ici sur l’organisation de la mémoire en mémoire de travail (à court terme) /mémoire sémantique (à long terme), avec une discussion fine et actualisée des rapports entre les deux. Le caractère autonome, inconscient, de la compréhension est également souligné.

Viennent alors un ensemble de chapitres (de 3 à 7) consacrés au lexique mental.

Ce dernier est d’abord défini en termes généraux, comme ensemble des

(6)

représentations associées aux mots dans la mémoire à long terme. Quelques types de données expérimentalement « observables » – et donc base pour des études

« objectives » de l’organisation du lexique mental – sont présentées : fréquence d’usage, familiarité des « compreneurs », similarité entre mots.

La question vient alors de la nature des « significations des mots » (chapitre 4).

La réponse apportée est en termes de « catégorisation », procédé par lequel un sujet peut différencier des stimulus et, en quelque sorte, les classer. Ici, le classement des stimulus conduisant à une nominalisation « d’objets » comparables. Si l’importance des processus présentés est hors de conteste, il est assez curieux de voir associer, sans autre forme de procès, les significations au résultat de la catégorisation d’expériences perceptives directes. Certes les chapitres qui suivent vont apporter des compléments, mais cette présentation finalement demeure sans discussion et sera étendue aux événements et actions au chapitre 6. Curieux également de ne pas voir mentionnée et exposée ici la théorie du prototype (utilisée pourtant dans un chapitre ultérieur).

Le chapitre suivant va introduire une dimension capitale du lexique mental, le réseau de liens qui est tissé entre les représentations des significations des mots. La notion de réseau sémantique est introduite et largement discutée. Il faut souligner l’intérêt épistémologique du « retour aux sources » proposé par l’auteur, et de la description qu’il donne des évolutions du modèle dans l’orbe de la psychologie cognitive. Une critique concerne le sort fait à la polysémie. L’auteur affirme que « de façon prédominante », le lien entre forme sensible et signification est de type 1-1.

Autrement dit, la polysémie serait un fait réel, mais marginal. C’est une position contestable qui aurait mérité pour le moins nuance et discussion. Ne serait-ce que parce que c’est aussi la notion même de « représentation », et son « unité » qui est en cause.

A ce stade, seules on été considérés des mots relevant de catégories « concrètes » (objets, individus). Le chapitre 6 s’attache à montrer que la même problématique peut s’appliquer à des abstractions, en particulier à des événements et donc à la sémantique des verbes. L’auteur discute d’abord la notion « d’hyper-catégorie » pour désigner les catégories les plus abstraites comme « objet », « individu »,

« événement »… et défend sa « réalité cognitive ». Une discussion plus concrète sur les verbes d’action suit, dont nous retiendrons notamment que, pour l’auteur, leur schéma sémantique associe de plein droit une caractérisation de leurs actants. La problématique est quasiment distributionnelle et pourrait être discutée, mais les éléments avancés – arguments expérimentaux à l’appui – sont intéressants.

La notion de trait sémantique fait l’objet du chapitre 7. C’est un des thèmes les plus « fouillés » de l’ouvrage. En particulier l’auteur avance une idée qui nous paraît très intéressante pour faire le lien avec d’autres points de vue sémantiques : les traits sémantiques sont des « fragments de représentation ». C’est une idée simple, mais que nous trouvons très éclairante et unificatrice. L’auteur consacre de fait de

(7)

nombreuses pages à revisiter à cette lumière divers phénomènes évoqués précédemment.

Finalement, le chapitre 8 concerne le fonctionnement de la compréhension des énoncés langagiers. L’auteur présente un schéma dans lequel deux processus sont à l’œuvre : activation de représentations lexicales en mémoire de travail et assemblage de ces représentations. On regrettera que si peu de place soit consacrée à une question aussi importante et complexe ; cependant, demeure une intéressante introduction à la problématique de « construction du sens », formulée en termes de psychologie cognitive.

En conclusion, contrairement à la 4^e de couverture, qui présente l’ouvrage comme une « somme » sur les questions qu’il abord, c’est la question du lexique mental qui est avant tout traitée, au détriment de la problématique (revendiquée) de construction du sens, au niveau phrastique ou discursif. Dans ce cadre même, l’auteur opère une sélection assez nette des problématiques abordées et des approches en compétition. C’est parfaitement légitime, mais le lecteur doit, nous semble-t-il, en être averti.

Ces limites étant posées, nous recommanderons très volontiers la lecture de cet ouvrage, particulièrement au lecteur peu au fait de l’approche de la compréhension en psychologie cognitive. D’un point de vue plus technique, on y trouvera un ensemble actualisé de faits expérimentaux et d’hypothèses, tels que l’intéressant développement sur la question des traits sémantiques.

Sandra Kübler, Memory-based Parsing, John Benjamins, 2004, 295 pages, ISBN 90-272-4991-1

par Christian Champendal CRDL, Université de Nice Christian.Champendal@unice.fr

Dans les diverses approches à mémoire (Memory-Based, MB), les données pour l’apprentissage sont stockées dans une base de connaissances et les nouvelles occurrences analysées par similarité. Afin de réduire les coûts de stockage et de recherche des données, des extensions du modèle sont proposées (IGTrees, arbres pour compression et classification). La pondération des attributs quant à elle, relève plus de l’hypothèse que d’une théorie bien définie.

Les systèmes MB appliqués au découpage de groupes nominaux, à l’analyse syntaxique de surface ou complète, la définition de relations grammaticales, font appel à des architectures de classificateurs en cascade. L’approche est bien adaptée à l’analyse syntaxique ; les mots pouvant être utilisés comme des attributs, les étiquettes POS (Part-of-Speech) deviennent inutiles dès que la base de

(8)

connaissances est suffisante. Le Data-Oriented Parsing (DOP : Bod & Scha) est une méthode stochastique qui extrait des informations d’un corpus syntaxiquement étiqueté, « dépositaire d’expériences passées », sans abstraire en règles et utilise des modèles probabilistes classiques. Le traitement de fragments de taille supérieure, au lieu de règles locales, en augmente l’efficacité mais aussi le coût informatique ; une solution est sa conversion en PCFG (probabilistic context-free grammar). Les cascades de classificateurs aboutissent à un étiquetage plat, par contre l’analyseur syntaxique à mémoire (Memory-Based Parser, MBP) TüSBL intègre une représentation par arbres globale et structurée, que l’algorithme peut adapter par omission aux phrases d’entrée. Il utilise en prétraitement un étiqueteur POS et un analyseur de blocs, extrayant l’information des séquences de mots, tags et blocs. Ces deux types d’information sont stockés dans des arbres de préfixes (prefix tries) reliés. Si la recherche n’aboutit pas à une correspondance stricte, le module d’omission opère sur un mot ou un groupe dans la base de connaissances, ou bien sur un mot ou un bloc dans la phrase à traiter. Un sytème de pondération des attributs évalue le coût de modification d’un arbre pour l’apparier à la phrase d’entrée, ou de modifier celle-ci pour l’apparier à une phrase de la base de connaissance. Les poids sont établis à partir du module d’apprentissage. Si aucune phrase similaire n’est trouvée, une stratégie de repli est mise en œuvre : élagage de l’arbre le plus long pour appariement, séquence POS sans information lexicale, recherche de blocs et sous-blocs et en dernier recours, attribution d’information partielle. Les paramètres de TüSBL sont évalués (mesures Parseval de précision et de rappel ; Fσ = 85) pour des énoncés oraux spontanés; le module de repli qui atteint le même score est donc utilisable comme analyseur per se. Les erreurs types sont : constituants isolés, fonctions grammaticales incorrectes, nœuds superflus, erreurs d’étiquettage POS.

Les mesures Parseval étant partiales, une évaluation en termes de dépendances (dependency-based) au lieu de constituants (constituency-based) est étudiée. Le corpus d’apprentissage et les phrases analysées sont convertis en dépendances; les arbres TüBa-D/S qui contiennent des informations fonctionnelles à tous les niveaux permettent de récupérer de façon sûre les gouverneurs. L’apprentissage MB, bien adapté au parsing, est sensible à la tâche et aux données. Le DOP reste plus performant mais inadapté aux gros corpora, le MBSP (Memory-Based Shallow Parser, Buhcholz) traite les relations grammaticales de l’anglais, Octopus, les dépêches en chinois et TüSBL, l’oral allemand du commerce. L’auteur souligne l’impact de la configurationnalité de chaque langue sur l’architecture du système.

Le besoin d’analyseurs tenant compte de contextes élargis (au lieu de modèles probabilistes) est établi. L’apprentissage MB qui décide par rapport à l’expérience acquise se révèle performant dans le traitement des sous-régularités et des exceptions. TüSBL utilise toute l’information disponible sur une séquence de mots.

Cet apprentissage implique deux issues : soit optimiser une architecture spécialisée, soit modéliser les interactions d’un ensemble de décisions, de types d’information et prendre en compte un contexte élargi. Les tendances dégagées soulignent l’importance de l’information linéaire (généralement perdue dans les systèmes probabilistes) et de fragments syntaxiques plus larges. Inclure plus d’information

(9)

lors de l’analyse et conserver de la flexibilité dans l’agencement des constituants sont deux objectifs.

Commentaire : ouvrage très rigoureux, austère, voire aride, présentant bien les aspects heuristique et algorithmique ; les choix linguistiques étant peu commentés.

Anne Condamines (éd.), Sémantique et corpus, Hermes-Lavoisier, 2005, 352 pages, ISBN 2-7462-1055-X

par Geoffrey Williams

ADICORE, Université de Bretagne Sud, Lorient geoffrey.williams@wanadoo.fr

Sémantique et corpus est une collection de neuf articles précédés d’une introduction assemblée sous la direction d’Anne Condamines. Comme le titre l’indique, l’ouvrage traite de la relation entre différentes approches de la sémantique et l’utilisation de corpus électroniques.

Dans son introduction, Anne Condamines présente la linguistique de corpus comme paradigme de recherche et décrit ses relations avec la sémantique. Ce texte traite de la nature des corpus du point de vue des contraintes de représentativité et de clôture, et de celui de l’objectif des études et des méthodologies adoptées, de l’analyse de discours aux recherches en TAL et Intelligence Artificielle.

Les trois premiers articles traitent de l’oralité, de trois points de vue très différents. Celui de Claire Blanche-Benveniste est le fruit de sa longue et fructueuse recherche sur les corpus oraux. Ces travaux décrivent deux facteurs essentiels de l’analyse des corpus : la taille du corpus qui doit être adaptée à l’étude – de grands corpus ne sont donc pas toujours nécessaires – et le respect de l’intégrité des données. Ainsi, avec un système de ponctuation simple contenant les informations sur la prosodie, la signification et le contexte, Blanche-Benveniste explore la notion de réparation, repairs en anglais, à travers des bornes syntaxiques pour expliquer des phénomènes comme les hésitations et les répétitions. L’opposition des polarités, les incises, le recyclage du lexique, les symétries sont également décrits. Son analyse nous donne un aperçu du processus de formulation des phrases et montre clairement la nécessité de compléter l’intuition du linguiste par la réalité d’un corpus. L’article de Lorenza Mondada consiste en une analyse de collections d’enregistrements vidéo par la linguistique interactionnelle. Il ne s’agit pas de linguistique de corpus per se mais d’un excellent exemple d’étude de pluridisciplinarité dans lequel les études de corpus oraux peuvent influer sur les travaux de pragmatique et inversement. La linguistique interactionnelle a toujours fait appel à des documents authentiques, mais l’analyse de Mondada montre la possibilité d’aller plus loin avec des données numériques.

(10)

Nous passons maintenant aux corpus textuels. Dans « L’utilisation de corpus pour l’évaluation d’hypothèses linguistiques », Lamiroy et Charolles donnent une étude de grammaticalisation avec l’exemple d’ « autrement ». L’étude de phénomènes de ce type nécessite un regard diachronique, ce qui est possible, pour des textes littéraires, avec FRANTEXT. Il semble que les auteurs aient utilisé uniquement le TLF au lieu d’aller directement aux sources. Pour la partie moderne, ils ont employé Glossanet afin d’assembler une collection d’emplois attestés. Il ne s’agit pas d’un véritable corpus puisque les résultats sont décontextualisés. C’est l’exemple même d’une situation dans laquelle un corpus de référence pour le français fait cruellement défaut ; les résultats seraient autrement plus intéressants s’il était possible d’approfondir la recherche pour parvenir à une conclusion généralisable. L’article de Sophie Prévost a trait aux langues anciennes, à travers une discussion des paramètres à prendre en compte pour la constitution d’un corpus d’ancien et moyen français. Le fait qu’un tel corpus couvre plusieurs siècles d’usage ne fait qu’augmenter les variables. La problématique est illustrée par des exemples illustrant les variations d’orthographe et les phénomènes de grammaticalisation. Le texte de Marie-Paule Woodley, introduit une autre problématique, celle de l’interface entre qualitatif et quantitatif dans l’analyse de discours. Son texte montre à la fois les possibilités et les limites de la linguistique de corpus. Nous passons d’une étude descriptive aux automatismes du TAL.

Les chapitres six à neuf sont encore davantage centrés sur le TAL. Celui de Nazarenko porte sur la problématique du sens du texte avec l’extraction des informations et des systèmes de question-réponse. L’auteur passe en revue les technologies simples de navigation avant d’aborder le problème plus complexe du résumé automatique de texte et la problématique de la sémantique de corpus et de l’apprentissage automatique à partir d’un corpus. L’article de Viprey traite du sens dans le corpus en sciences humaines, c’est-à-dire l’analyse de tout texte, qu’il fasse partie d’un corpus constitué ou non. Les exemples nous ramènent aux études littéraires avec une discussion des profils macro-distributionnels dans une approche qui relève de la lexicométrie. Ils montrent les avantages d’une telle approche et ses limites. Habert, Illoz et Folch introduisent la problématique d’une sémantique

« machinale » à gros grain, nécessaire pour une recherche de documents pertinents sur le web. L’article présenté ici traite de la différentiation du sens dans deux corpus préalablement analysés morphosyntaxiquement et lemmatisés. Les analyses montrent les distributions obtenues avec des indices de similarité/distance afin de dégrouper le sens des mots dits « mouvants », c’est-à-dire des mots utilisés avec des sens différents au sein d’un même corpus. Les auteurs examinent les possibilités et les limites de la sémantique distributionnelle automatisée.

Le dernier chapitre, celui de Bachimont, traite de la question des ontologies du point de vue de l’ingénierie des connaissances en intelligence artificielle. Le défi relevé est de modéliser les connaissances de manière formelle, mais à partir d’un corpus. Une première section traite de la nature des ontologies, une deuxième décrit le parcours depuis la constitution du corpus jusqu’à la réalisation d’une ontologie en

(11)

passant par les questions d’extraction terminologique et la formalisation des connaissances.

Ce recueil couvre les aspects majeurs de la recherche sémantique sur corpus en France. Pour un linguiste traditionnel qui souhaite comprendre comment les corpus ont changé les perspectives de la recherche en sémantique et pourquoi l’emploi des corpus est dorénavant essentiel, ce livre est une excellente introduction. Pour les étudiants en sciences de langages, la variété des sujets traités et les excellentes bibliographies feront de ce recueil un livre de référence. Il faut cependant émettre quelques réserves. Dans certains cas, il serait préférable de décrire les travaux comme ayant été réalisés sur des textes authentiques plutôt que de créer une attente avec le mot corpus. Travailler sur corpus implique l’utilisation de textes entiers situés dans un contexte de discours. Il ne suffit pas de sélectionner des énoncés coupés de leur contexte d’emploi. L’ouvrage comporte en outre quelques lacunes. La sémantique et la lexicographie vont naturellement de pair, mais la lexicographie n’est pas traitée, bien que ce domaine soit très développé, à Lille par exemple. La même remarque vaut pour la terminologie ou l’aspect collocationnel. La collocation est la base de la linguistique distributionnelle et contextualiste, mais aussi du courant Mel’cukien qui est très développé en France, notamment avec les travaux d’Agnès Tutin à Grenoble. Cependant, ce livre rend un service précieux à la linguistique informatique par la qualité et la diversité de son contenu. L’intuition du linguiste et l’introspection ont toujours un rôle à jouer, mais le recours à des textes authentiques, maintenant sous format électronique, est incontournable. L’ouvrage décrit ici constituera une référence pour ce qui veut explorer les possibilités offertes par l’informatique dans les études sémantiques.

Michel Aurnague, Les structures de l’espace linguistique. Regards croisés sur quelques constructions spatiales du basque et du français, Peeters, 2004, 256 pages, ISBN 2-87723-802-4

par Denis Le Pesant

MoDyCo (CNRS, Université Paris 10) & Université Lille 3 denis.lepesant@wanadoo.fr

Ce livre permet à Michel Aurnague, non seulement de fournir au public, dans les Parties II et III, une présentation ramassée de son activité des quinze dernières années, mais aussi, dans la Partie I, d’expliciter ses choix théoriques et ses méthodes, et, dans la Partie IV, de faire entendre sa voix au sein des grands débats en quelque sorte philosophiques qui agitent la communauté linguistique : sur les corpus et l’introspection, ou sur le sens, la référence, l’ontologie et les structures cognitives.

(12)

Les deux premiers chapitres du livre traitent donc de questions théoriques.

L’approche est délibérément référentialiste : « la détermination du contenu sémantique d’un marqueur (de relation spatiale) repose largement sur l’observation et la caractérisation des situations auxquelles celui-ci peut se référer ». D’autre part, en comparant plusieurs langues dans leurs manières de représenter l’espace, les travaux de Michel Aurnague entendent mettre en évidence des invariants et apporter de la sorte leur contribution au débat sur les universaux linguistiques. Aussi sont-ils également d’inspiration ouvertement cognitiviste, dans la lignée par exemple de Talmy et Vandeloise. Enfin, Michel Aurnague souligne qu’il est important de disposer d’outils de formalisation (en l’espèce la SDRT de N. Asher) et de procéder à des expérimentations psycholinguistes. Le chapitre 2 décrit une approche en trois niveaux : la géométrie (avec ses trois composantes principales : topologie, distance et orientation), la fonction (par exemple le rôle du contact, du support, de la stabilisation, de la contenance), et les principes pragmatiques (par exemple le principe de cible maximale, de fixation, de site minimal, ainsi que les maximes de H. P. Grice).

La Partie II (chapitres 3 et 4) constitue le cœur de l’ouvrage. Elle concerne les noms de Localisation Interne (NLI), tels haut, derrière, intérieur, bord, extrémité.

Michel Aurnague montre que ce sont des méronymes et soutient qu’ils appartiennent à la catégorie des morceaux.

Avant d’aborder les NLI eux-mêmes, l’auteur propose, au chapitre 3, une typologie des relations partie/tout. A partir d’un ensemble de critères, il distingue six catégories de relations : composant/assemblage (roue/voiture, embouchure/fleuve) ; morceau/tout (morceau, fragment, éclat, débris, bout, ainsi que les NLI) ; élément/collection (arbre-forêt) ; sous-collection/collection (état-major/armée) ; portion/tout (portion, part, tranche, cuillerée) ; substance/tout (le rhum de ce punch, le fer de ce coffre). Suit (§ 3.2) une application de ces distinctions au basque, qui possède deux cas génitifs différents (le génitif locatif et le génitif possessif) exprimant telle ou telle relation partie/tout, puis une étude des dérivés en é- du français (ex. épépiner, étêter).

Au chapitre 4, l’auteur aborde les Noms de Localisation Interne. Il n’a pas de mal à démontrer que les NLI se distinguent presque en tous points des noms de composants (ex. moteur-machine) : ils ont peu d’autonomie ontologique par rapport au tout, ils n’ont pas d’autonomie conceptuelle ou perceptuelle, ils ont des frontières mal définies et ils ont la propriété de se combiner avec le préposition à (jusqu’à être aptes, par un processus de grammaticalisation, à s’associer avec elle pour former diverses prépositions composées). Les principales propriétés des NLI soulignées par Michel Aurnague sont : la matérialité, l’existence d’une portion d’espace adjacente, la stabilité dans un cadre de référence donné, le sémantisme localisateur et l’association privilégiée avec la préposition à.

La propriété d’existence d’une portion d’espace adjacente nous paraît particulièrement intéressante : « la cible peut être conceptualisée comme se trouvant

(13)

en contact avec la partie matérielle découpée par le NLI ou bien localisée dans une portion contiguë (absence de contact) » (p. 91). Par exemple, si on dit que la lampe est à l’extrémité du piano, la cible peut aussi bien être conceptualisée comme étant sur le piano qu’à côté. Autre propriété essentielle des NLI : leur sémantisme localisateur. Les propriétés de dimensions s’organisent en couples (haut-bas etc.) ; leurs propriétés topologiques différencient l’intérieur, l’extérieur et les limites ; les propriétés liées à la distance permettent de distinguer le milieu/centre, la périphérie, les extrémités. Aussi les NLI appartiennent-ils, comme le souligne l’auteur à plusieurs reprises, aussi bien au système du what qu’à celui du where. Michel Aurnague rapproche les NLI des noms propres de lieu, avec les arguments suivants : la compatibilité avec la préposition à et la stabilité dans un cadre de référence donné.

Le plus important du travail de Michel Aurnague sur les NLI nous paraît être la thèse selon laquelle la relation NLI / objet concret est une relation partie/tout, et il faut lui savoir gré d’avoir fortement marqué de la sorte que la relation NLI / objet concret ne doit pas être confondue avec la relation cible/site.

Il existe en effet de profondes différences entre la relation partie/tout (faire partie de) et la relation cible/site (être dans, être sur…), tant du point de vue linguistique et cognitif que du point de vue ontologique. Michel Aurnague ne les ignore pas (il est clair que pour lui les méronymes NLI ne sont pas des cibles et que leurs corrélats ne sont pas des sites, mais des « cadres de référence »). Toutefois nous trouvons qu’il n’a pas souligné ces différences de façon suffisamment nette, et qu’il laisse planer certaines ambiguïtés. Les caractéristiques ontologiques qui distinguent les relations méronymiques des relations locatives sont évidentes. Ainsi les morceaux (auxquels Aurnague rattache les NLI d’une façon, disons-le au passage, à nos yeux tout à fait incompréhensible) peuvent présupposer la disparition du tout, ce que montre de façon spectaculaire la morphosyntaxe de certains verbes de destruction en français (éclater en n éclats, morceler qqch en n morceaux, segmenter qqch en n segments…). D’autre part la relation élément/collection ne présuppose pas nécessairement l’inclusion spatiale d’une cible dans un site (comme quand on parle des enfants d’une même famille ou des entreprises d’un grand groupe industriel).

Enfin, la substance ne peut pas être dite localisée dans le tout (l’arbre ne contient pas de bois, c’est du bois). Du point de vue linguistique, il y a beaucoup de propriétés qui distinguent la méronymie de la localisation, même quand il s’agit de la relation composant/assemblage : bien qu’il y ait, du point de vue ontologique, possibilité (possibilité seulement !) que la portion d’espace occupée par le composant soit incluse dans la portion d’espace occupée par le tout, on observe de grandes différences entre l’expression de la relation locative et celle de la relation partie/tout.

C’est ainsi que la possibilité de dire « le cerveau est dans la tête » (p. 50) est à contraster avec le fait que le français ne traite pas cerveau comme étant un méronyme de tête, puisque, entre autres propriétés, il refuse la construction

« génitive » (* le cerveau de la tête). Cet exemple, et d’autres comme le chapitre 5 sur le cas inessif ou le passage, au demeurant remarquable, sur les verbes en é- (type épépiner § 2.2), tendent à amalgamer les deux relations.

(14)

Après avoir traité de la relation NLI /objet concret, Michel Aurnague retourne à un thème plus traditionnel, dans la littérature sur l’expression de l’espace, à savoir la relation cible/site exprimée par les prépositions, en l’occurrence la préposition par.

L’étude du comportement de la préposition par et de la notion afférente de trajet conduit l’auteur à proposer une typologie des verbes de mouvement : les verbes de mouvement sans changement d’emplacement (ex. se baisser) ; les verbes de mouvement avec changement d’emplacement possible (sans changement de relation) par ex. courir ; les verbes de mouvement avec changement obligatoire d’emplacement (sans changement de relation) par ex. déambuler ; les verbes de changement de relation et d’emplacement par ex. entrer, arriver. D’autre part, il propose une mise en relation très intéressante de l’emploi de la préposition par avec la valeur aspectuelle « transitionnelle-télique » des verbes de changement de relation et d’emplacement.

Le livre se termine (chapitres 7 et 8) par ce que l’auteur appelle un bilan d’étape.

Il laisse entendre quelles seront les orientations de ses recherches à venir : l’approfondissement de la notion de dépendance, qui subsume la méronymie, la localisation et d’autres choses encore ; le rôle des routines sociales, dont il a déjà été question à plusieurs reprises dans le présent ouvrage ; l’expression du déplacement en basque et la formalisation de l’ontologie dans le lexique. Les dernières pages tirent quelques enseignements théoriques des travaux sur l’espace de Michel Aurnague : à propos de l’utilisation des corpus, de la notion de sens, du

« localisme » (parmi les différents emplois d’un marqueur polysémique, dont l’un d’eux est spatial, l’emploi spatial est-il premier ?) et du rapport entre les structures sémantiques et les structures conceptuelles.

Le livre de Michel Aurnague constitue une contribution essentielle à la recherche sur la sémantique de l’espace. Il est impressionnant par son sérieux, sa profondeur et la variété des points de vue sous lesquels le sujet est abordé.

Denis Alamargot, Patrice Terrier et Jean-Marie Cellier (coordinateurs), Production, compréhension et usages des écrits techniques au travail, Octarès, 2005, 243 pages, ISBN 2-915346-15-1

par Aurélien Max

Université Paris 11, Orsay, LIR-LIMSI-CNRS aurelien.max@limsi.fr

Les écrits techniques ont très souvent pour rôle majeur de guider leurs utilisateurs dans la réalisation d’une action. Il est donc indispensable d’en faciliter l’usage, ce qui amène à considérer la compréhension de ces écrits par les lecteurs, et donc également en amont leur production par les rédacteurs. Une étude portant sur l’ensemble de ces domaines, aussi bien du point de vue linguistique que du point de

(15)

vue psychologique, promet donc d’être très utile pour mieux appréhender les écrits techniques.

L’ouvrage coordonné par Denis Alamargot, Patrice Terrier et Jean-Marie Cellier se veut d’une couverture très large : en effet, chacune de ses quatre parties occuperait facilement un volume à elle seule. Il s’agit donc d’un exercice difficile que de réussir à proposer une vue synthétique et articulée couvrant les différents aspects de la vie d’un document technique. Bien que de l’aveu même des coordinateurs il ne s’agisse que d’un éclairage partiel sur toutes ces notions, il apparaît à la lecture de l’ouvrage que les sujets des chapitres dressent un panorama intéressant. En outre, les bibliographies associées aux chapitres sont particulièrement riches pour qui souhaite approfondir certains thèmes.

L’avant-propos rédigé par les coordinateurs (Pour des approches croisées des écrits techniques au travail) atteste de la cohérence globale de l’ouvrage et peut être utilisé comme un très bon guide de lecture non linéaire. On remarque par ailleurs la grande pluridisciplinarité des contributions : pas moins de 24 chercheurs des domaines de la linguistique, de la psychologie cognitive, de la psychologie ergonomique et de la neuropsycholinguistique ont participé à l’écriture des 12 chapitres.

Première partie – Approche linguistique des écrits techniques

Du fait de la contrainte de taille de l’ouvrage, on apprécie d’autant plus qu’une première partie concernant l’approche linguistique des écrits techniques ait trouvé sa place en préambule pour souligner l’importance d’une collaboration entre ergonomes et linguistes. Anne Condamines illustre l’importance de l’étude linguistique de corpus d’écrits techniques et ses contributions. Marie-Paule Péry- Woodley propose plusieurs niveaux d’organisation discursive des textes pour une meilleure prise en compte par le rédacteur des connaissances de ses lecteurs dans le but de limiter la variabilité des interprétations.

Deuxième partie – Production

Les études ergonomiques sur l’écriture technique dans un contexte professionnel ne sont pas aussi nombreuses qu’on pourrait le penser, alors que ce type de communication est très important dans nos sociétés. Il s’agit notamment de considérer les spécificités du rédacteur technique et d’une tâche de rédaction souvent collaborative, ainsi que la prise en compte du lecteur dans la phase de production.

Denis Alamargot, Christophe Dansac, Christine Ros et Maria Chuy montrent l’importance de la mémoire de travail pour un rédacteur utilisant plusieurs sources documentaires et font des propositions pour améliorer l’ergonomie des environnements de travail. Notamment, un rédacteur, même possédant des capacités mémorielles importantes, ne peut pas effectivement consulter et mémoriser un trop grand nombre de sources documentaires.

(16)

Franck Ganier et Laurent Heurley insistent sur le besoin d’adapter les documents procéduraux à leurs utilisateurs et proposent un ensemble de recommandations de conception émanant non plus d’une simple intuition mais d’une démarche scientifique. Une recommandation qui apparaît comme particulièrement intéressante décrit une démarche de conception combinant une étape de production par anticipation, dans laquelle le rédacteur anticipe le comportement probable de son lecteur, et une étape de révision par bouclage, où l’appropriation du document par l’utilisateur est évaluée.

L’importance de la prise en compte de l’utilisateur est également soulignée par Karine Ricalens et Jean-Luc Nespoulos dans le cadre de la production orale de descriptions d’itinéraire, en indiquant notamment que trop d’information peut en compromettre l’efficacité.

Troisième partie – Compréhension

Dans le cadre des écrits techniques, la compréhension doit mener à la construction d’un modèle de situation. Le langage peut alors être vu comme un ensemble d’indices utilisés par le lecteur pour faire une simulation mentale d’une situation.

Patrice Terrier, Céline Lemercier et Mustapha Mojahid défendent le fait que le traitement individuel des instructions est important dans un texte procédural alors qu’en outre ils observent une meilleure mémorisation des actions lorsque les instructions sont fonctionnellement reliées.

Gaëlle Molinari et Isabelle Tapiero partent de l’hypothèse qu’un même texte ne peut servir de base d’apprentissage pour des lecteurs de niveaux d’expertise différents. Il ressort de leur étude qu’un texte destiné à un novice doit avoir une structure linéaire et causale, être très cohérent et insister sur les états du domaine à acquérir. À l’inverse, il apparaît qu’un lecteur expert apprendrait plus des inférences qu’il est capable de faire que de la lecture d’un texte très cohérent et qu’il est préférable d’insister sur les événements du domaine à acquérir.

Quatrième partie – Usages

Jean-Marie Cellier soutient le fait que les modèles mentaux construits par les lecteurs à partir de textes procéduraux sont simplifiés et remaniés par rapport à l’information contenue dans les textes, et propose un modèle liant la rédaction et l’utilisation de tels textes. Parmi les fonctions de ce type de textes, l’auteur mentionne notamment l’aide à la formation ainsi que l’anticipation de certains problèmes de sécurité qui peut intervenir lors de la phase d’élaboration.

Javier Barcenilla montre pourquoi il est important de considérer l’aide effective qu’apportent les aides opératoires à la réalisation d’une tâche pour mieux comprendre les difficultés rencontrées par leurs utilisateurs. Un bon compromis

(17)

entre transposition technique et transposition didactique est suggéré pour l’amélioration de l’utilisabilité de ce type de texte.

Jean-Michel Boucheix et Michèle Coiron décrivent une étude révélant une perte d’information lorsque la transmission des relèves de poste d’infirmières se fait par écrit par rapport à l’oral, et en concluent qu’il est nécessaire de définir la nature et la forme des écrits attendus.

Enfin, Alain Giboin propose un cadre permettant de faciliter la coordination entre production et compréhension sous la forme d’un dialogue.

En conclusion

Comme on peut le constater, l’ouvrage est très riche en information. On apprécie tout particulièrement le soucis d’améliorer et de faciliter l’usage des documents techniques qui place l’utilisateur, rédacteur ou lecteur, au centre de la discussion.

Si l’ouvrage offre un éclairage intéressant sur les écrits techniques, son exploitation directe par la communauté du traitement automatique des langues requiert un travail d’appropriation. On trouvera des motivations intéressantes pour des travaux en génération automatique de textes, en aide à la production de texte, ainsi qu’en exploitation des documents électroniques. On regrette cependant que les aspects relatifs à l’utilisation des langues contrôlées et à la localisation des documents pour différentes communautés linguistiques ne soient pas ou peu abordés directement. Ceci n’ôte cependant rien à la valeur intrinsèque de l’ouvrage dont la lecture, que nous avons abordé sans être spécialiste en ergonomie ou en psychologie, est agréable.

Geoffrey Williams (éd.), La linguistique de corpus, Presses universitaires de Rennes, 2005, 418 pages, ISBN 2-7535-0046-0

par Agnès Tutin

LIDILEM, Université de Grenoble 3 agnes.tutin@u-grenoble3.fr

Linguistique de corpus est un ouvrage volumineux (plus de 400 pages) comprenant trente et une contributions, issues des « journées de linguistique de corpus » qui se sont tenues à Lorient du 12 au 14 septembre 2002. Il n’est de ce fait pas facile de proposer une synthèse de ce volume dont les contributions ont pour seul thème fédérateur les corpus. Nous ne proposerons donc pas un compte-rendu détaillé de chaque chapitre.

La première partie aborde les questions épistémologiques, parce que la linguistique de corpus doit se penser comme discipline (M.-P. Jacques), point de vue

(18)

qui n’est pas nécessairement partagé par certains contributeurs qui considèrent les corpus comme de simples outils méthodologiques. Pour cet auteur, la linguistique

« introspective » et la linguistique de corpus divergent davantage dans leurs préoccupations et leurs conceptions que dans leurs méthodes : la linguistique de corpus réintroduit l’usage à travers des réalisations effectives. Pour F. Rastier, qui note à juste raison la diversité des linguistiques de corpus, cette discipline remet le texte au cœur de la linguistique et abolit la conception antinomique langue-parole.

C. Blanche-Benveniste, enfin, montre qu’il faut se garder de projeter sur les textes oraux les modèles de l’écrit. La langue parlée possède sa propre structure, et les apparentes déviations de l’oral sont des traces essentielles de la conscience métalinguistique des locuteurs.

La seconde partie est consacrée aux études linguistiques sur corpus, unilingues ou multilingues. Les études autour des corpus unilingues présentent une grande diversité quant aux buts poursuivis et aux langues étudiées, mais toutes exploitent une analyse quantitative, plus ou moins sophistiquée selon l’objectif poursuivi.

Plusieurs études syntaxiques, dans la lignée des travaux du GARS, portent sur les corpus oraux, l’objectif étant de mettre en évidence les constructions les plus productives et les propriétés distributionnelles. M. Blasco-Dubelcco et P. Cappeau, exploitant le corpus Corpaix et le corpus de référence du français, repèrent les adjectifs les plus fréquents du français et en étudient les propriétés syntaxiques.

Toujours à partir du corpus Corpaix, S. Henry dresse une typologie des répétitions à l’oral dans la perspective de l’étiquetage automatique des corpus de français parlé.

Enfin, M.-N. Roubaud, à partir d’un corpus majoritairement parlé, montre que la construction pseudo-clivée (Ex : Ce que j’ai beaucoup aimé, c’est le poney) présente une grande diversité syntaxique.

La seconde série d’études unilingues a pour objectif commun de viser une analyse du contenu textuel à partir de traces lexicales en utilisant les techniques de la lexicométrie (cf. Lebart et Salem, 1994). N. Garric et I. Léglise cherchent à observer les pratiques langagières du discours patronal. En utilisant indépendamment les mêmes techniques, elles parviennent à obtenir des analyses convergentes, ce qu’elles expliquent par le recours aux mêmes principes théoriques. D. Malrieu s’intéresse aux discours et aux genres, et cherche à observer les spécificités morpho-syntaxiques des domaines, champs génériques et genres, en employant des analyses statistiques de la lexicométrie. Dans le corpus très spécialisé des textes philosophiques que G. Deleuze consacre à Spinoza, S. Loiseau explore le thème du concept Nature à travers ses cooccurrents textuels et montre que le thème permet de caractériser la position de Deleuze, caractéristique du discours philosophique actuel, plus sensible aux sciences humaines que par le passé. Enfin, D. Longrée et X. Luong cherchent à étudier les spécificités stylistiques et les distributions temporelles chez les historiens latins. Ils recourent pour cela à un important corpus lemmatisé et des techniques lexicométriques qui leur permettent de mettre en évidence les rapprochements et oppositions entre auteurs.

(19)

Les études sur les corpus multilingues, qu’ils soient comparables ou parallèles, ont une orientation constrastive, souvent à visée pédagogique. L’ouvrage comporte trois études de ce type portant sur des connecteurs. Liesbeth Degand, qui s’intéresse aux connecteurs puisque et anngezien du néerlandais, montre que pour la traductologie, corpus parallèles et corpus comparables sont finalement assez complémentaires. Si les deux connecteurs sont généralement considérés comme équivalents dans les dictionnaires, l’étude des corpus dans chaque langue révèle de nombreuses différences, que les dictionnaires ne laissaient nullement apparaître.

Marie Hédiard, qui recourt également aux deux types de corpus pour comparer jusqu’à ce que et tant que à leurs équivalents fonctionnels en italien, montre l’importance de la question de la fréquence dans l’étude linguistique. Enfin, Diana Lewis, qui s’intéresse aux connecteurs adversatifs dans des corpus français et anglais de discours politique, préfère recourir exclusivement aux corpus comparables pour mettre en évidence le fonctionnement sémantique de ces connecteurs ainsi que la fréquence et la distribution des équivalences de traduction.

L’ouvrage présente également des projets de constitution de corpus, en particulier pour le français oral. J.-Y. Antoine, S. Letellier-Zarshenas et I. Schadle, qui soulignent à juste raison le retard français en matière de constitution et de diffusion de corpus, présentent leur projet de corpus oraux transcrits « Parole Publique » qui seront librement distribués. N. Gasiglia, qui élabore des corpus dans le cadre du même projet, montre l’intérêt de ce type de ressources pour une tâche lexicographique. La contribution de J. Durand, Ch. Lyche et B. Laks décrit l’ambitieux projet de « Phonologie du français contemporain », qui vise à constituer une base de données de phonologie française à partir d’une enquête systématique, présentant la langue dans toute sa diversité et sa variation. Enfin, P. Blumenthal et P. Bernard s’interrogent sur les corpus à exploiter pour l’élaboration d’un dictionnaire de collocations du français. Ils montrent, expérimentations à l’appui, que l’utilisation d’un large corpus journalistique comme le Monde, devrait permettre l’extraction des principales collocations du français.

Une quatrième partie, consacrée aux études techniques, présente une série de contributions très diverses. Plusieurs études sont consacrées à la terminologie. Dans une perspective didactique, A. Depierre rapporte une expérience menée avec des étudiants angliciste sur la terminologie du corps humain à partir de corpus spécialisés et de Google. M. Van Campenhoudt montre que l’utilisation de corpus multilingues expose aux étudiants la diversité des réalisations terminologiques et les amène à adopter une conception plus linguistique du terme. Dans une optique plus TAL, plusieurs méthodes d’extraction des termes sont présentées. F. Maniez élabore un modèle d’extraction automatique des équivalents de traduction du patron Adj- Nom dans des corpus médicaux anglais et français alignés. J.-C. Meilland et P. Bellot proposent une méthode d’extraction de terminologie à partir de libellés textuels courts et montrent que des mesures spécifiques pour ce type textuel donnent des résultats encourageants. A partir de résumés d’articles scientifiques,

(20)

C. Enguehard élabore une méthode permettant d’établir un corpus de référence pour la reconnaissance de termes qui permet de minimiser le recours aux spécialistes.

La linguistique, syntaxe et sémantique, n’est pas en reste dans cette partie dévolue aux aspects techniques. V. Perlerin, S. Ferrari et P. Beust s’intéressent à la métaphore, en proposant un modèle dynamique inspiré de la sémantique interprétative de Rastier, utilisant des ressources simples à développer. C. Benzitoun et S. Caddéo repèrent les appositions nominales dans un corpus étiqueté du Monde Diplomatique et montrent que, s’il est facile d’extraire quelques patrons simples d’appositions, des constructions plus complexes pourraient être repérées grâce à un

« taggeur lexical » plus sémantique. Dans une perspective TAL, Th. Lebarbé évalue une méthode recourant à Internet utilisant la technique du vote majoritaire pour faciliter le rattachement des groupes prépositionnels aux groupes nominaux. Pour améliorer la technique, l’auteur suggère plutôt d’exploiter des textes relevant du même domaine, voire les textes mêmes où les ambiguïtés syntaxiques apparaissent.

F. Rousselot et N. Gagean proposent un inventaire utile des principales difficultés linguistiques qui rendent l’analyse automatique difficile – spécificités typo- dispositionnelles, figement lexical, ambiguïtés syntaxiques et sémantiques… – et plaident pour un traitement semi-automatique qui donnerait des résultats plus fiables qu’un traitement entièrement automatisé. Enfin, G. Williams et L. Burnard présentent les différents types de recherches qu’un linguiste peut effectuer à partir de l’outil SARA (utilisé pour le BNC) sur un corpus d’articles étiquetés et lemmatisés de La Recherche.

La dernière partie de l’ouvrage, consacrée aux aspects didactiques, rapporte des expériences sur le français langue maternelle ou langue étrangère. Seule une contribution exploite les corpus dans un but véritablement didactique. E. Lenart, M. Watorek et G. Komur étudient les fonctions discursives à travers des textes oraux narratifs et descriptifs collectés avec le même protocole chez des apprenants de langue maternelle ou des apprenants de langue étrangère et montrent que les marques de cohésion discursive apparaissent assez tardivement. L. Martin Onguene Essono relève et étudie les spécificités lexicales de productions écrites en français d’élèves camerounais du primaire et du collège, écrits qui comportent de nombreux emprunts et néologismes formels et sémantiques. C. Le Cunff propose quelques pistes d’utilisation de corpus oraux collectés dans les interactions d’élèves de la maternelle au lycée à destination des maîtres et plaide pour une meilleure intégration des outils linguistiques dans l’analyse de ces corpus.

On l’aura compris, Linguistique de corpus présente tout le foisonnement des recherches actuelles sur les linguistiques de corpus dans leur pluralité et il n’est pas possible de ce fait de retrouver dans l’ouvrage une unité au plan méthodologique ou épistémologique. Parfois un peu négligé dans la forme (manque d’uniformité des présentations, coquilles, références bibliographiques manquantes) et un peu disparate du fait des nombreux thèmes abordés, il concourt cependant à diffuser les travaux de la communauté francophone autour des corpus et contribue efficacement à combler le retard français dans ce domaine.