Modèle d'analyse lexico-syntaxique des locutions espagnoles

(1)

Thesis

Reference

Modèle d'analyse lexico-syntaxique des locutions espagnoles

LEONI DE LEÓN, Jorge Antonio

Abstract

Dans cette thèse, nous nous sommes intéressés à la représentation informatique de la syntaxe des locutions de l'espagnol. Le terme "locutions" désigne un ensemble de phénomènes caractérisés par le recours à plusieurs unités lexicales afin de produire un seul et même effet dénotatif ou stylistique, souvent dans des circonstances où un seul élément lexical aurait pu être utilisé. Notre objectif a été de créer un modèle informatique phraséologique de l'espagnol basé sur la phénoménologie lexico-syntaxique des locutions.

Notre recherche aboutit tout d'abord à une typologie lexico-syntaxique des unités phraséologiques (ou locutions), qui est à la base de notre formalisme phraséologique. Ce dernier, nommé "Tsool", rassemble les données nécessaires à la reproduction du comportement lexico-syntaxique des unités phraséologiques. Tsool constitue la base conceptuelle de notre modèle informatique, "Mulkin", qui est développé sous la forme d'une preuve de concept permettant, entre autres, le calcul d'idiomaticité des unités phraséologiques.

LEONI DE LEÓN, Jorge Antonio. Modèle d'analyse lexico-syntaxique des locutions espagnoles. Thèse de doctorat : Univ. Genève, 2008, no. L. 650

URN : urn:nbn:ch:unige-5945

DOI : 10.13097/archive-ouverte/unige:594

Available at:

http://archive-ouverte.unige.ch/unige:594

Disclaimer: layout of this document may differ from the published version.

1 / 1

(2)

Département de linguistique Professeur É. Wehrli

Modèle d’analyse lexico-syntaxique des locutions espagnoles

THÈSE

présentée à la Faculté des lettres de l’Université de Genève pour obtenir le grade de Docteur ès lettres, mention linguistique

par

Jorge Antonio Leoni de León

Thèse N^o 650 GENÈVE

2008

(3)

(4)

Jacques MOESCHLER, président du jury ; Éric WEHRLI, directeur de thèse ; Dr. Chris- topher LAENZLINGER (Université de Genève) ; Rafael RODRÍGUEZ MARÍN (Uni- versidad de Educación Estatal a Distancia, Madrid) et Thierry FONTENELLE (Micro- soft Natural Language Group, Redmond, États-Unis) autorise l’impression de la présente thèse, sans exprimer d’opinion sur les propositions qui y sont énoncées.

Genève, le 24 mai, 2008

Thèse N

^o

650 Le Doyen

, Éric WEHRLI

(5)

(6)

(7)

(8)

Remerciements

1

E n’est pas un secret, la rédaction d’une thèse est un chemin qu’on ne pour- suit pas seul. La rédaction exige beaucoup d’énergie que l’auteur n’est pas en mesure d’apporter lui seul. La charge est en quelque sorte partagée, car lors- qu’on rédige, on a besoin du soutien de ses proches. . . et de ses “lointains”. . . Pour cette raison il y a toujours, dans chaque thèse, une partie dédiée à ceux qui ont contribué au succès de la recherche. Des oublis sont possibles, et s’il y en a, je m’en excuse d’avance.

S

^ANS l’amour, le soutien à toute épreuve et la patience infinie de Ale, cette thèse n’aurait jamais vu le jour. Pour notre couple, le temps a été suspendu pendant trop longtemps, maintenant nous continuerons notre voyage ensemble. Pendant cette période, et même bien avant, le soutien des mes beaux-parents, doña Elizabeth Arias Arias et don Álvaro Suárez Mejido, a été fondamental. À eux un grand merci du fond du coeur ! Tout au long de ces années, j’ai eu la chance de compter sur ma famille à Genève ; ma mère, qui ne cessait de me demander quand je soutiendrais enfin, et mon frère, Diego, dont la discipline de fer et l’acharnement inexorable m’ont servi d’exemple. Les paroles ne suffisent pas pour exprimer toute ma gratitude envers eux, mais qu’ils acceptent ces quelques mots en guise d’hommage. Un grand merci à mon grand-oncle à Paris, Jacobo Rodríguez Padilla, pour la magnifique peinture offerte pour illustrer ce travail, ainsi qu’à mon oncle Iván de León Rodríguez, peintre lui aussi, pour ses paroles d’encouragement.

Merci également à Ana Yancy pour son aide lors de l’élaboration du corpus.

Je ne peux continuer sans dire un mot au nom de tous ces êtres chers disparus trop loin et trop tôt, mais qui m’ont accompagné et inspiré. Merci, grand-mère (doña July, comme on l’appelle du Guatemala jusqu’en Suisse en passant par le Costa Rica), toi qui m’as toujours inclus dans tes prières. Merci à Zipacná, mon oncle disparu trop tôt (cela aurait été toujours trop tôt), ton engagement pour l’Art est un exemple pour tous. Ils n’ont pas vu la fin de ce travail mais ils auraient tant aimé l’avoir entre les mains.

(9)

grande leçon d’humanité et d’engagement académique qui ont changé ma façon de conce- voir le travail universitaire. Merci, Éric, pour tous tes conseils et ton soutien indispensable tout au long de ces quatre ans.

Je tiens d’ores et déjà à remercier les membres du jury, Prof. Jacques Moeschler, président du jury, Dr. Thierry Fontenelle, Prof. Rafael Rodríguez Marín et Dr. Christopher Laenzlinger pour la lecture et les commentaires de ce travail.

Mais une thèse ne se limite pas à une succession de mots plus ou moins cohérents, c’est un art d’écriture difficile à maîtriser. Je n’aurais pas réussi à rendre un seul chapitre plus ou moins lisible en français sans les conseils et les lectures de Sandra Schwab.

Sandra, je m’excuse encore et encore pour le coup du 4ème chapitre. . . Ô espoir ! Je ne l’oublierai jamais !:-)Merci aussi à Lorenza Russo pour son oeil de lynx et sa magnifique traduction du résumé en italien.

Qu’est-ce que je serais devenu sans le « Geneva Buena Vista Social Club » du bâti- ment Landolt ? Ce club inclusif qui doit son nom tant à la vue imprenable depuis le sep- tième étage qu’à l’éternelle bonne disposition de ses membres pour améliorer le monde au Grütli. Merci mille fois à Eva Capitao pour sa bonne humeur, ses encouragements et son efficacité. Et bien sûr un énorme merci à Christopher, pour sa stimulation intellec- tuelle inépuisable et son engagement sans faille. Maintenant je me rends compte combien ses allées et venues me manqueront (et merci encore pourU! ). Merci à Lena Baunaz, Greg Ellison, Yves Scherrer, Luka Nerima, Violeta Sere¸tan, Gabriela Soare, Athina Mi- chou, Eszter Varga, Cécile Grivaz, Annik Baumgartner, Goljihan Kachaeva pour leur aide et leur soutien constant au cours de ce travail. Je remercie également les participants de CUSO pour les moments d’échanges d’idées.

Juri, nos discussions sur la syntaxe, lesregexes et la place du langage dans l’univers m’ont sensibilisé aux joies de la syntaxe formelle. On devra les reprendre un jour, soit sur l’Isle de Islay, soit à la Bahía Drake si tu fais le saut outre Atlantique (avant 2015 ! ! !). Isa

(10)

Merci à mes amis dans le monde entier.Dankon, Hugo et José Antonio au Costa Rica.

Dankon, Atilio, au Pays-Bas, toi qui as partagé avec moi ta passion pour le Liechtenstein.

Notre excursion à Sealand n’est malheureusement pas pour demain, mais je tiens à te dire que maintenant que j’ai fini, j’aurai finalement le temps ! Merci aussi à mes amis Jania, Alban et Thierry à Genève. Gracias también a Abraham Morales en Madrid por sus consejos, sus comentarios y su disponibilidad, pero sobre todo por compartir su sabiduría conmigo. Merci, Janosz Tàkacs, champion du monde de ping pong en 1979, tu m’as appris que la chance ne sourit qu’aux bons joueurs et qu’il faut savoir diresorrrrrrrrrrry(mais comme je le fais, prononcé entre les dents). Et bien évidemment merci à tous ceux qui m’ont épaulé, poussé et encouragé pendant tout ce temps.

Je remercie également l’Universidad de Costa Rica, tout particulièrement l’Oficina de Asuntos Internacionales, pour leur soutien continu. Je ne peux terminer sans remercier Prof. Ivonne Robles Mohs, Prof. Lillyam Rojas Blanco et M. Federico Mora Aguilar, qui m’ont honoré de leur confiance et Prof. Víctor Ml. Sánchez Corrales qui a cru en moi depuis le début.

Pour moi, ce travail est particulièrement symbolique. La Suisse, puis le Costa Rica, nous ont accueillis, ma mère et moi, après notre départ forcé du Guatemala. Aujourd’hui, ces deux pays, très chers à mon coeur, rendent l’achèvement de ce travail possible. Une partie de mon coeur restera à jamais en Suisse.

Merci encore à tous de m’avoir aidé pendant ces années. Un jour peut-être je pourrai dire comme Virgile (Georgica, II, 489) :

« Felix qui potuit rerum cognoscere causas »

(11)

(12)

par

Jorge Antonio Leoni de León

Thèse

présentée à la Faculté des lettres de l’Université de Genève pour obtenir le grade de Docteur ès lettres, mention linguistique

Mai 2008

Résumé

Dans cette thèse, nous nous intéressons à la représentation informatique de la syntaxe des expressions à mots multiples de l’espagnol. Le terme expressions à mots multiples désigne un ensemble de phénomènes qui se caractérise par le recours à plusieurs unités lexicales, afin de produire un seul et même effet dénotatif ou stylistique, souvent dans des circonstances où un élément lexical spécifique aurait pu être utilisé. Toutes les catégories grammaticales sont concernées. Par exemple, « ojo de buey » (« œil-de-bœf ») est un groupe nominal désignant un type de lucarne, tandis que « meter la pata » (« mettre les pieds dans le plat ») est un groupe verbal caractérisant une manière particulièrement maladroite d’intervenir dans une situation.

La syntaxe de ce type d’expressions soulève plusieurs questions liées à leur statut dans le lexique. Cette situation se reflète dans l’ambiguïté terminologique qu’elle en- traîne : le niveau du langage désigné par le termeexpressions à mots multiplesn’est pas toujours clair. En effet, cette notion désigne indifféremment des éléments de la parole et de la langue. Dans ce travail, plus précisément dans le chapitre 2, nous distinguons trois concepts : les vocables, unités de la parole réalisées comme des séquences de ca- ractères bornées par des espaces blancs, leslexèmes, des unités abstraites du lexique, et lesmorpholexèmes, des unités intermédiaires correspondant à un ou plusieurs vocables liés à un seul lexème. Nous réservons la notion delemmeaux entrées d’un dictionnaire.

(13)

Ces distinctions ont trois conséquences directes : nous rejetons tout d’abord le termeexpressions à mots multiplesen faveur de celui d’unité phraséologique, car notre travail de recherche est de nature lexicographique ; ensuite, nous définissons les unités phraséolo- giques en termes de liens entre lexèmes ; enfin, ces distinctions nous amènent à établir une typologie desexpressions à mots multiplessur des nouvelles bases formelles.

Puisqu’un modèle informatique exige de connaître le comportement de l’objet à repré- senter, nous avons tout d’abord cherché, dans le chapitre 3, à identifier la phénoménolo- gie syntaxique des unités phraséologiques. Nous avons organisé ensuite les résultats dans une typologie comprenant trois grandes classes : les collocations (relations d’alternance lexicale), les fusions thématiques (syntagmes composés d’un verbe support et d’un nom prédicatif) et les unités lexicales plurimembres (les unités phraséologiques proprement dites). Ces derniers comprennent d’une part les lexèmes plurimembres, contentant des expressions nominales, adverbiales et adjectivales, et d’autre part, les phrasèmes, lesquelles sont des expressions verbales. Cette taxonomie comprend encore quelques sous-classes, qui, comme les autres, répondent à des critères lexico-syntaxiques. Notre recherche s’est alors focalisée sur les unités lexicales plurimembres, plus précisément selon l’axe phras- tique (paradigmatique, syntagmatique). Les phénomènes paradigmatiques correspondent à des possibilités de substitution dans la structure d’une unité phraséologique, tandis que les phénomènes syntagmatiques impliquent des relations de distance avec comme consé- quence une discontinuité de l’expression. Par exemple, sur l’axe syntagmatique, « meter la pata » est une expression verbale qui connaît la cliticisation : « él la metió hasta el fondo » (« il a fait une grosse gaffe »). En revanche, sur l’axe paradigmatique « meter la pata » peut se trouver sous la forme de « meter las de andar ».

Dans le chapitre 4, nous définissons une formalisation lexico-syntaxique, appelée Tsool, capable de restituer les caractéristiques lexico-syntaxiques d’une unité phraséolo- gique.Tsoolest un formalisme riche qui permet, entre autres, l’établissement des relations interlinguistiques à des fins de traduction, de même que la spécification de définitions

(14)

et d’exemples, tout en respectant les structures d’arguments. En outre,Tsool est conçu pour exploiter des données morpho-syntaxiques depuis un nombre arbitraire de systèmes automatiques de données linguistiques. Dans notre cas, nous exploitons les analyseurs lexical et syntaxique de FIPS, sur lesquels nous basons nos analyses de la phrase. Dans le chapitre 5, notre modèle, nommé MuLKiN→ ←, reproduit la formalisationTsoolà l’aide des technologies de l’universXMLtraitées avecPerl. Nos exemples du système sont basés sur une preuve de concept illustrant les principales caractéristiques du modèle.

En résumé, notre objectif principal est de créer un modèle informatique phraséolo- gique de l’espagnol basé sur la phénoménologie lexico-syntaxique des unités phraséolo- giques. Notre recherche aboutit à une classification lexico-syntaxique des unités phraséo- logiques, classification qui est la base d’une formalisation permettant une automatisation du calcul de l’idiomaticité.

(15)

(16)

by

Thesis

submitted to the Faculty of Humanities of the University of Geneva in fulfillment of the requirements for the DegreeDocteur ès lettresin Linguistics

May 2008

Abstract

In this thesis, we focus our attention on the systematic representation of the syntax of Spanish multiword expressions. The term multiword expressions stands for a range of lexical phenomena characterized by the use of several lexical units to produce an equiva- lent denotative or stylistic effect; frequently, when a single specific lexical element would be sufficient. This phenomenon affects all grammatical categories. For example, the se- quence “ojo de buey” is a nominal group that refers to a skylight type, while, “meter la pata” is a verbal group that refers to a particularly clumsy manner of handling a situation.

The syntax of these types of expressions causes several problems associated with their lexical status. Furthermore, there is a terminological ambiguity: the linguistic level as- signed to multiword expressions is not always clear. This situation becomes evident because such terms affect both speech and language. In order to better differentiate the lexical elements involved in these phrases, in chapter 2, we have distinguished three concepts: vocables, speech units developed as character sequences limited by blank spaces;

lexemes, abstract lexical units; and morpholexemes, intermediate units that belong to one or several vocables related to one single lexeme. The concept lemma (headwork) is limited to the entries in a dictionary. This approach has three direct consequences: first, we dispose of the term multiword expression and adopt in its place the term phraseological

(17)

unit, since our investigation is of a lexicographical nature. Second, we define phraseological units as links between lexemes. Finally, the distinction allows us to establish a typology for multiword lexical units upon a new syntactically-oriented formal basis.

Because the proper knowledge of the behavior of a represented object is a requisite in any systematical model, in chapter 3, we identify and describe the syntactic phenomena of phraseological units. Then, we organize the results in a consistent typology of three main types: collocations (lexical alternation relationships), thematic fusions (con- stituents formed by one support verb and a noun complement), and multimember lexical units (phraseological units themselves). The latter includes, on one hand, multimember lexemes, which contain nominal, adverbial and adjectival expressions, and, on the other hand, phrases that are verbal expressions. Subclasses, also defined according to lexical and syntactic criteria, are included in this taxonomy as well. From this point, our investigation focuses on the multimember lexical units, which are arranged according to the phrase track involved (paradigmatic or syntagmatic). The paradigmatic phenomena result from the possibility of substitution in the structure of the phraseological unit; while the syntagmatic phenomena involve distance relationships from which discontinuity of the expression often occurs. For example, in the syntagmatic track, “meter la pata” is a verbal expression in which the internal argumentmutatis mutandican be replaced by a clitic pronoun like: “él la metió hasta el fondo”. Concerning the possibilities in the pragmatic track, the internal argument of that same expression can be replaced by a periphrasis like

“meter las de andar”.

In chapter 4, we define a formal notational system calledTsool, capable of restoring the lexical and syntactic features of a phraseological unit. Tsool, is a versatile instrument that allows users to establish interlinguistic relationships for translation as well as to spec- ify definitions and examples taking the structures of arguments into account. Moreover, Tsoolwas created to represent the use of morphosyntactic data from an arbitrary amount of linguistic data from automated systems. In our case, we useFIPS’ lexical and syntac-

(18)

tic parser from the Laboratoire d’Analyse et de Technologie du Langage (LATL) of the University of Geneva, upon which we have based our phrase analysis. In chapter 5, our model called MuLKiN→ ← reproduces theTsoolformalization through XMLtechnologies pro- cessed by severalPerlapplications. Our system examples are based on a proof of concept that displays the main features of the model; as well as our basic processing strategies.

In short, in this investigation we pursue the creation of a systematic Spanish phrase- ology model based on the lexical and syntactic phenomena of idioms. We establish a formalization of complex lexical unit relationships that allows the calculation of an automated idiomatic nature from a typology that takes into account the behavior of phraseological units at a sentence level.

(19)

(20)

de

Tesis

presentada en la Facultad de Letras de la Universidad de Ginebra para obtener el grado de Doctor en Letras con mención en Lingüística

Mayo 2008

Resumen

En esta tesis nos interesamos en la representación informática de la sintaxis de las unidades léxicas pluriverbales del español. El término francés,expressions à mots multiples designa un conjunto de fenómenos léxicos caracterizados todos por recurrir al empleo de varias unidades léxicas con el fin de producir un mismo efecto denotativo o estilístico, a menudo en circunstancias en las que un solo elemento léxico específico habría sido su- ficiente. Todas las categorías gramaticales se ven afectadas por esta fenomenología. Por ejemplo, la secuencia “ojo de buey” es un grupo nominal que designa un tipo de tragaluz, mientras que “meter la pata” es un grupo verbal que se refiere a una manera particular- mente torpe de intervenir en una situación.

La sintaxis de este tipo de expresiones plantea varios problemas vinculados con su estatus en el léxico. A lo que se agrega una situación terminológicamente ambigua: el nivel del lenguaje designado por el término francésexpressions à mots multiplesno está siempre claro. Esta situación se manifiesta en el hecho de que esta noción designa tanto elementos del habla, como de la lengua. Con el fin de diferenciar mejor los elementos léxicos implicados en la frase, en el capítulo 2 distinguimos tres conceptos : losvocablos, unidades del habla que se realizan como secuencias de caracteres limitadas por espacios en blanco, loslexemas, unidades abstractas del léxico, y losmorfolexemas, unidades in- termedias que corresponden a uno o varios vocablos relacionados con un solo lexema.

(21)

La noción de lema queda limitada a las entradas de un diccionario. Estas distinciones tienen tres consecuencias directas: en primer lugar descartamos el términoexpressions à mots multiples, en su lugar adoptamos el término unidad fraseológica, dado que nuestra investigación es de naturaleza lexicográfica; luego, definimos las unidades fraseológicas en términos de vínculos entre lexemas; finalmente, estas distinciones nos llevan a establecer una tipología de las unidades léxicas plurimembres sobre nuevas bases formales de orientación sintáctica.

Siendo que el conocimiento adecuado del comportamiento del objeto por representar constituye una de las exigencias de todo modelo informático, en el capítulo 3 identifi- camos y describimos la fenomenología sintáctica de las unidades fraseológicas. Luego organizamos los resultados en una tipología consistente en tres grandes clases: las colo- caciones (relaciones de alternancia léxica), las fusiones temáticas (sintagmas compuestos de un verbo soporte y de un sustantivo predicativo) y las unidades léxicas plurimembres (las unidades fraseológicas propiamente dichas). Estas últimas incluyen, por un lado, los lexemas plurimembres, que contienen las expresiones nominales, adverbiales y adjetivas, y, por otra parte, los frasemas que son expresiones verbales. En esta taxonomía también incluimos otras subclases, definidas de igual manera según criterios léxico-sintácticos. A partir de ese momento, nuestra investigación se focalizó en las unidades léxicas plurimembres, las que abordamos según el eje frástico implicado (paradigmático o sintagmá- tico). Los fenómenos paradigmáticos corresponden a posibilidades de sustitución en la estructura de la unidad fraseológica, mientras que los fenómenos sintagmáticos implican relaciones de distancia, de las que resulta muchas veces una discontinuidad de la expre- sión. Por ejemplo, en el eje sintagmático, “meter la pata” es una expresión verbal cuyo argumento internomutatis mutandipuede ser reemplazado por un pronombre clítico: “él la metió hasta el fondo”. En lo concerniente a sus posibilidades en el eje paradigmático, el argumento interno de esa misma expresión puede ser sustituido por una perífrasis: “meter las de andar”.

(22)

En el capítulo 4, definimos un sistema de notación formal, llamado Tsool, capaz de restituir las características léxico-sintácticas de una unidad fraseológica.Tsooles un formalismo versátil que permite, entre otros, tanto establecer relaciones interlingüísticas para la traducción, como especificar definiciones y ejemplos, respetando siempre las estructu- ras de argumentos. Además,Tsoolha sido concebido para representar la explotación de datos morfosintácticos de una cantidad arbitraria de sistemas automatizados de datos lin- güísticos. En nuestro caso, nosotros recurrimos a los analizadores léxico y sintáctico de

FIPS delLaboratoire d’Analyse et de Technologie du Langage(LATL) de la Universidad de Ginebra, sobre el cual basamos nuestros análisis de la frase. En el capítulo 5, nuestro modelo, llamado MuLKiN→ ←, reproduce la formalizaciónTsoolpor medio de tecnologías del universo XML procesadas por medio de un conjunto de programas escritos enPerl.

Nuestros ejemplos del sistema están basados en una prueba de concepto que ilustra las principales características del modelo, así como nuestras estrategias básicas de procesa- miento.

En resumen, en esta investigación buscamos crear un modelo informático fraseológico del español basado en la fenomenología léxico-sintáctica de las expresiones idiomáticas.

A partir de una tipología que toma en cuenta el comportamiento de las unidades fraseoló- gicas al nivel de la oración, en este trabajo establecemos una formalización relacional de las unidades léxicas complejas que permite automatizar el cálculo de idiomaticidad.

(23)

(24)

hispana lingvo

verkita de

Tezo

prezentita en la Fakultato pri Beletroj de la Universitato de ˆGenevo por atingi la gradon de Doktoro pri Beletro, branˆco pri Lingvistiko

Majo 2008

Resumo

En tiu ˆci tezo ni interesiˆgas pri la komputika sintaksoreprezentado de la multvortaj esprimoj de la hispana lingvo. La termino multvortaj esprimoj aludas al leksika fenomenaro karakterizita per la uzo de pluraj leksikunuoj kun la celo produkti saman denotaciivan a˘u stilan efekton, ofte en cirkunstancoj en kiuj ununura leksika elemento sufiˆcus. Tiu ˆci fenomenaro afektas ˆciujn gramatikajn kategoriojn. Ekzemple, la sekvenco “ojo de buey”

(“bovokulo”) estas substantiva grupo indikanta ian fenestron; krome “meter la pata” (“fari mispaˆson”) estas verba grupo referanta al speciale mallerta maniero interveni en situacio.

La sintakso de tiaj ˆci esprimoj starigas plurajn problemojn ligitajn al ilia statuso en la leksiko. Krome, anka˘u ekzistas terminologie ambigua situacio : la lingvonivelo aludita per la termino multvortaj esprimoj ne ˆciam estas klara. Tiu ˆci situacio manifestiˆgas en la fakto que tiu ˆci nocio indikas elementojn apartenantajn, jen al la parolo, jen al la lingvo.

Cele pli efikan diferencigon de la leksikaj elementoj de la frazo, en la ˆcapitro 2 ni distingas tri konceptojn : laleksemaˆoj, parolunuoj, kiuj realiˆgas kiel karaktersekvencoj troviˆgantaj inter blankaj spacoj, laleksemoj, abstraktaj unuoj de la leksiko, kaj la morfoleksemoj, mezaj unuoj korespondantaj ˆcu al unu, ˆcu al plurajleksemaˆojligitaj al unusola leksemo.

Ni rezervas la nocionlemo al leksikonaj ˆslosilvortoj. Tiuj ˆci distingoj havas tri rektajn konsekvencojn : unue, ni forˆetas la terminon “multvortaj esprimoj”, adoptante la pli precizan terminon “frazeologian unuon”, ˆcar la naturo de nia esploro estas leksikografia;

(25)

poste, ni difinas la frazeologiajn unuojn kiel ligojn inter leksemoj; fine, tiuj ˆci distingoj kondukas nin al establo de tipologio de la leksikaj plurmembraj unuoj sur formalaj bazoj sintakse orientitaj.

Car adekvata kono pri la konduto de la reprezentota objekto konstituas unu el la pos-ˆ tuloj de ajna komputika modelo, en la ˆcapitro 3 ni identigas kaj priskribas la sintaksan fenomenologion de la frazeologiaj unuoj. Poste, ni organizas la rezultojn en tipologio konsistanta el tri grandaj klasoj : apudmetoj (leksikaj alternrilatoj), temaj kunfandoj (sin- tagmoj kunmetitaj el subtena verbo kaj predikativa substantivo) kaj plurmembraj leksikaj unuoj (la frazeologiaj unuoj mem). ˆCi lastaj inkludas, unuflanke, la plurmembrajn lek- semojn, kiuj enhavas substantivajn, adverbajn kaj adjektivajn esprimojn, kaj, aliflanke, la frazemojn, kiuj estas verbaj esprimoj. En tiu ˆci taksonomio, ni anka˘u inkludas ali- ajn subklasojn, difinitajn la˘u ekvivalentaj leksik-sintaksaj kriterioj. De tiu momento, nia esploro fokusiˆgis pri la plurmembraj leksikaj unuoj, kiujn ni analizis la˘u fraza akso (ˆcu paradigma, ˆcu sintagma). La paradigmaj fenomenoj korespondas al anstata˘uigebleco de elementoj apartenantaj al la strukturo de la frazeologia unuo; sintagmaj fenomenoj im- plicas distancrilatojn, el kiuj ofte rezultas diskontinueco de la esprimo. Ekzemple, en la sintagma akso, la frazeologia unuo “meter la pata” estas verba esprimo, kies interna argu- mentomutatis mutandipovas esti anstata˘uigita per klitika pronomo : “él la metió hasta el fondo”. Koncerne ˆgiajn eblojn en la paradigma akso, la interna argumento de tiu sama esprimo povas esti anstata˘uigita per ˆcirka˘ufrazo : “meter las de andar”.

En la ˆcapitro 4, ni difinas formalan notacisistemon, nomitanTsool, kapablan repro- dukti leksik-sintaksajn karakterizojn de frazeologia unuo. Tsool estas fleksebla formalismo permesanta, inter aliaj, establon de interlingvaj rilatoj cele tradukadon kaj speci- figon de difinoj kaj ekzemploj, respektante ˆciam la argumentstrukturo. Krome, Tsool estis konceptita por reprezenti la ekspluaton de morfosintaksaj datumoj el ajna nombro de a˘utomatigitaj sistemoj de lingvaj datumoj. En nia kazo, ni utiligis la leksikan kaj sintaksan analizilojn deFIPS de laLaboratoire d’Analyse et de Technologie du Langage

(26)

(LATL) de la Universitato de ˆGenevo, sur kiu ni bazigis niajn frazanalizojn. En la ˆcapitro 5, nia modelo, nomita MuLKiN→ ←, reproduktas la formalismonTsoolper teknologioj de la uni- versoXMLprocesitaj per programaro verkita enPerl. Niaj ekzemploj pri la sistemo estas bazitaj sur konceptpruvo ilustranta la ˆcefajn karakterizojn de la modelo, same kiel niajn bazajn strategiojn de procesado.

Resume, en tiu ˆci esploro ni celis krei frazeologian komputikan modelon de la hispana surbaze de la leksik-sintaksa fenomenaro de idiotismaj esprimoj. Nia esplorlaboro, el leksik-sintaksa tipologio de frazeologiaj unuoj, establas rilatecan formalismon de kom- pleksaj leksikaj unuoj permetantan a˘utomatigi kalkulon pri idiotismeco.

(27)

(28)

spagnolo

di

Tesi

presentata alla Facoltà di Lettere dell’Università di Ginevra per ottenere il titolo diDocteur ès lettresin Linguistica

Maggio 2008

Riassunto

Oggetto di questa tesi è la rappresentazione informatica della sintassi delle unità polirematichein spagnolo. Il termineunità polirematicadesigna un insieme di fenomeni caratterizzati dal ricorso a diverse unità lessicali, con lo scopo di produrre un unico effetto denotativo o stilistico, spesso in situazioni in cui un elemento lessicale specifico avrebbe potuto essere utilizzato. Tutte le categorie grammaticali ne sono interessate. Per esempio,

« ojo de buey » (« occhio di bue ») è un gruppo nominale che designa un tipo di lucernario, mentre « meter la pata » (« fare una gaffe ») è un gruppo verbale che caratterizza un modo inopportuno di intervenire in una situazione.

La sintassi di questo tipo di espressioni solleva diverse questioni relative al loro statuto nel lessico. Tale situazione si riflette nell’ambiguità terminologica che ne deriva: il liv- ello di linguaggio designato dal termineunità polirematicanon sempre è chiaro. Questa nozione, infatti, designa indifferentemente elementi della parola e della lingua. In questo lavoro, e più precisamente nel capitolo 2, distinguiamo tre concetti: ivocaboli, unità di parola realizzate come sequenze di caratteri limitate da spazi bianchi, ilessemi, unità as- tratte del lessico, e imorfolessemi, unità intermedie corrispondenti a uno o a più vocaboli legati ad un solo lessema. Conserviamo la nozione dilemmaper le voci di un dizionario.

Queste distinzioni hanno tre consequenze dirette: rigettiamo prima di tutto il termine unità polirematica in favore di quello di unità fraseologica, dal momento che il nostro

(29)

lavoro di ricerca è di natura lessicografica; definiamo, in secondo luogo, le unità fraseologiche in termini di legami tra lessemi; queste distinzioni ci portano, quindi, a stabilire una tipologia diunità polirematichesu nuove basi formali.

Data l’esigenza del modello informatico di conoscere il comportamento dell’ogget- to da rappresentare, abbiamo, in primo luogo, cercato di identificare, nel capitolo 3, la fenomenologia sintattica delle unità fraseologiche. Abbiamo poi organizzato i risultati in una tipologia comprendente tre grandi classi: le collocazioni (relazioni di alternanza lessicale), le fusioni tematiche (sintagmi composti da un verbo supporto e da un nome predicativo) e le unità lessicali composte (le unità fraseologiche propriamente dette). Queste ultime comprendono da una parte i lessemi composti, contenenti espressioni nominali, avverbiali e aggettivali, e dall’altra parte i frasemi, espressioni verbali. Tale tassonomia comprende ancora alcune sotto classi, che, come le altre, rispondono a criteri lessico- sintattici. La nostra ricerca si è dunque focalizzata sulle unità lessicali composte, so- prattutto sull’asse frastico (paradigmatico, sintagmatico). I fenomeni paradigmatici cor- rispondono a possibilità di sostituzione nella struttura di una unità fraseologica, mentre i fenomeni sintagmatici implicano relazioni di distanza con consequente discontinuità del- l’espressione. Per esempio, sull’asse sintagmatico, « meter la pata » è una espressione verbale che conosce la cliticizzazione, « él la metió hasta el fondo », mentre sull’asse paradigmatico « meter la pata » può trovarsi sotto la forma « meter las de andar ».

Nel capitolo 4, definiamo una formalizzazione lessico-sintattica, chiamataTsool, ca- pace di restituire le caratteristiche lessico-sintattiche di una unità fraseologica. Tsoolè un formalismo ricco che permette, tra le altre cose, di stabilire relazioni interlinguistiche a fini traduttivi, come pure di specificare definizioni ed esempi, il tutto nel rispetto delle strutture d’argomenti. Inoltre,Tsool è concepito per sfruttare dati morfosintattici da un numero arbitrario di sistemi automatici di dati linguistici. Nel nostro caso, utilizziamo gli analizzatori lessicale e sintattico di FIPS del Laboratorio di Analisi e Tecnologia del Linguaggio (LATL) dell’Università di Ginevra, sui quali basiamo le analisi della frase.

(30)

Nel capitolo 5, il nostro modello, chiamato MuLKiN→ ←, riproduce la formalizzazioneTsool con l’aiuto di tecnologie dell’universoXMLtrattate conPerl. Gli esempi di sistema sono basati su una prova di concetto che illustra le principali caratteristiche del modello.

Riassumendo, il nostro obiettivo principale è creare un modello informatico fraseo- logico dello spagnolo basato sulla fenomenologia lessico-sintattica delle espressioni id- iomatiche. La nostra ricerca porta ad una classificazione lessico-sintattica delle unità fraseologiche che è alla base di una formalizzazione in grado di automatizzare il calcolo dell’idiomaticità.

(31)

(32)

Table des matières

1 Introduction 1

1.1 Le problème . . . 3 1.1.1 Concept et terminologie . . . 6 1.2 Objectifs . . . 8 1.2.1 Objectif général . . . 8 1.2.2 Objectifs spécifiques . . . 9 1.3 Approche informatique . . . 10 1.4 Organisation du travail . . . 12

2 Locutions : présentation de la problématique 13

2.1 Les locutions dans la lexicologie et la lexicologie . . . 13 2.1.1 Critères phénoménologiques . . . 14 2.1.2 Critères typologiques . . . 18 2.1.3 Formalismes lexicographiques . . . 31 Dictionnaires contrastifs de l’espagnol d’Amérique . . . 31 FrameNet . . . 32 Modèle Sens-Texte . . . 33 2.2 Réajustements conceptuels . . . 35 2.2.1 Motetexpressions à mots multiples . . . 36 2.2.2 Locutionsetexpressions à mots multiples . . . 40

xxi

(33)

2.3 La théorie syntaxique . . . 43 2.3.1 Le lexique . . . 44 2.3.2 La syntaxe et la complexité lexicale . . . 48 2.3.3 Structure d’arguments et phrasèmes . . . 61 2.4 La complexité lexicale etTALN . . . 64 2.5 Conclusion . . . 66

3 Phénoménologie et typologie syntaxique 69

3.1 Niveaux de réalisation des lexèmes . . . 69 3.2 Interdépendances combinatoires . . . 77 3.2.1 Relations syntagmatiques . . . 78 Addition . . . 79 Élision . . . 80 Permutation . . . 81 Test de pronominalisation : . . . 81 Nominalisation : . . . 82 Adjectivisation et passivation : . . . 84 MouvementA⁰ : . . . 87 Versification . . . 89 3.2.2 Relations paradigmatiques . . . 90 Commutation . . . 90 Reformulation . . . 91 Invariabilité de traits morpho-syntaxiques . . . 92 3.3 Morphologie flexionnelle . . . 93 3.4 Définitions formelles . . . 97 3.4.1 Lexèmes plurimembres . . . 97 3.4.2 Phrasèmes . . . 106 3.4.3 Collocations . . . 109

(34)

3.4.4 Fusions thématiques . . . 111 3.5 Typologie des unités lexicales plurimembres . . . 112 3.6 Conclusion . . . 115

4 Formalisation lexico-syntaxique 117

4.1 Cadre général . . . 118 4.2 Fondements du formalisme . . . 118 4.3 Description générale deTsool . . . 125 4.4 Fonctionnement deTsool . . . 136 4.4.1 Structure d’arguments . . . 140 4.4.2 Traduction d’unités phraséologiques . . . 144 4.4.3 Corrélation de traits . . . 146 4.4.4 Relations axiales . . . 152 4.4.5 D’autres phénomènes de sélection et d’accord . . . 170 4.5 Conclusion . . . 172

5 Le modèle phraséologique 175

5.1 Du formalisme au modèle . . . 175 5.2 MuLKiN→ ←: un modèle syntactico-phraséologique . . . 179 5.3 Cas d’utilisation . . . 182 5.3.1 Kwebmin.pmet ses applications . . . 183 5.3.2 Phonotraits.pm . . . 192 5.3.3 Fips.pm . . . 198 5.4 Classes et interactions . . . 200 5.4.1 Interactions . . . 203 5.5 Procédures spécialisées : les méthodes . . . 205 5.5.1 Polylexicalisateur . . . 207 5.5.2 Tactiques lexicales . . . 210

(35)

Commutation . . . 211 Addition et élision . . . 219 5.5.3 Tactiques hybrides . . . 221 Adjectivisation et nominalisation . . . 221 Cliticisation . . . 225 5.5.4 Tactiques structurelles . . . 225 Versification . . . 225 Pseudoaffixation . . . 228 5.6 Déploiement . . . 230 5.7 Conclusion . . . 231

6 Conclusions 233

Bibliographie 239

Index 255

(36)

Table des figures

1.1 Objectifs du modèle phraséologique . . . 9 2.1 Lexèmesetlocutions . . . 40 2.2 Lexèmesetphrasèmes . . . 42 2.3 Les éléments duLexiqueet leur réalisation . . . 42 2.4 Têtes morphologiques et catégories lexicales . . . 50 2.5 Verbe support et nom prédicatif . . . 57 2.6 Réanalyse d’une fusion thématique . . . 58 2.7 Partage thématique . . . 60 2.8 Fusion thématique . . . 60 3.1 Structuration de phrasèmes dans leLexique. . . 71 3.2 Relations des phrasèmes dans le Lexique. . . 74 3.3 Niveaux duLexique . . . 76 3.4 Relations syntagmatiques et paradigmatiques. . . 78 3.5 Typologie des lexèmes nominaux . . . 85 3.6 Relations paradigmatiques . . . 90 3.7 Élision de D⁰ comme trait d’idiomaticité. . . 107 3.8 Traits d’accord invérifiables entre un DP et un lexème polylexématique. . 107 3.9 Phénomènes de polylexicalité . . . 114 4.1 Conception linéaire du continuum phraséologique . . . 119

xxv

(37)

4.2 Modification morphologique comme premier trait formel distinctif . . . . 121 4.3 Imbrication de traits . . . 122 4.4 Détail du trait[±para] . . . 124 4.5 Descripteurs généraux de l’axe paradigmatique . . . 127 4.6 Descripteurs généraux de l’axe syntagmatique . . . 127 4.7 Vue d’ensemble des principaux opérateurs du formalismeTsool . . . 135 4.8 Structure formelle d’un lexème plurimembre . . . 138 4.9 Base fonctionnelle de la structure d’arguments deTsool . . . 140 4.10 Structure d’arguments deTsool . . . 141 4.11 Structure formelle d’un phrasème . . . 143 4.12 Traits morphologiques d’une tête . . . 145 4.13 FIPS: Cliticisation . . . 156 4.14 Tsool: Cliticisation . . . 156 4.15 Balisage syntaxique : Corrélations entre la forme longue,BSet et ANA . . 158 4.16 Segmentation, corrélation avec FIPSSYNet spécification d’alteronymes . 161 4.17 Cliticisation d’un argument interne . . . 161 4.18 Cliticisation et arguments externes . . . 164 4.19 Clitiques et arguments internes . . . 164 4.20 Imbrication de relations axiales : cliticisation et commutation . . . 167 4.21 Invariabilité de traits . . . 169 4.22 DescriptionTsoold’un lexème plurimembre avec invariabilité de traits . . 169 4.23 Arguments externes d’uneUP . . . 169 4.24 Sélection d’un verbe par uneUPadjectivale . . . 172 5.1 Codification partielleTsoolà convertir en LÂNXTsool . . . 178 5.2 Entrée phraséologique partielle en LÂNXTsool . . . 178 5.3 Vue d’ensemble du modèle . . . 180 5.4 KÂXÂN etKadmin: Cas d’utilisation et affichage de résultats . . . 184

(38)

5.5 KÂXÂN : Cas d’utilisation . . . 188 5.6 Kadmin: Cas d’utilisation . . . 188 5.7 Classes de MuLKiN→ ← . . . 201 5.8 Relations de dépendances vis-à-vis de modules . . . 202 5.9 Valeurs de retour deLanxtsool . . . 204 5.10 Affichage de valeurs après une consultation de KÂXÂNBD . . . 206 5.11 Procédures générales d’analyse de la commutation . . . 212 5.12 Description de parcours avec XPATH . . . 212 5.13 Valeurs de retour deLanxtsoolpour|cerrar el pico| . . . 214 5.14 Création d’uneregexà partir deBS et des alternoymes . . . 215 5.15 Boucles consécutives pour la validation d’alteronymes . . . 216 5.16 Création d’une regex pour le calcul de plausabilité . . . 218 5.17 Reconnaissance de schémas de rime . . . 227

(39)

(40)

Liste des tableaux

1.1 Traduction d’une expression complexe . . . 4 2.1 Synthèse et typologie du continuum idiomatique. . . 23 2.2 Règles de réécriture . . . 54 3.1 Traits typologiques basiques des unités plurimembres. . . 73 3.2 Adjectivisation déverbale. . . 86 3.3 Adjectivisation déverbale avec alternative lexicale . . . 86 3.4 Formation des lexèmes combinés. . . 94 3.5 Morphologie flexionnelle des lexèmes combinés. . . 94 3.6 Décomposition nominale . . . 94 3.7 Pluriel interne . . . 96 3.8 Singulier obligatoire, pluriel inexistant . . . 96 3.9 Pluriel obligatoire, singulier inexistant . . . 96 3.10 Pluralisation partielle . . . 96 3.11 Traits généraux des phénomènes de polylexicalité . . . 114 4.1 Correspondance entre phénomènes paradigmatiques et traits dansTsool . 125 4.2 Glossaire deTsool. . . 131 4.3 Symboles deTsool . . . 134 5.4 Description du cas d’utilisation de K^AX^AN : test d’une séquence de vocables 186

xxix

(41)

5.1 ExigenceA.1:Kwebmin.pm . . . 187 5.2 ExigenceA.2: K^AX^AN . . . 187 5.3 ExigenceA.3:Kadmin . . . 187 5.5 Description du cas d’utilisation de Kadmin : consultation d’une entrée

phraséologique . . . 190 5.6 Include : :Vérifier la chaîne de caractères . . . 192 5.7 ExigenceB.1:Phonotraits.pm . . . 193 5.8 Conversion d’une chaîne de caractères en une méta-représentation . . . . 194 5.9 Conversion d’une méta-représentation en des ensembles de traits . . . 196 5.10 Relation entre la méta-représentation et les traits phonologiques . . . 197 5.11 ExigenceC.1:Fips.pm . . . 198 5.12 Consultation de FIPSà travers son interface web . . . 200 5.13 Structures de données enPerl . . . 204 5.14 Description générale de la méthodejugement() . . . 208 5.15 Description générale de la méthodereconstruction() . . . 208 5.16 Formes reconstruites avecreconstruction(). . . 209 5.17 Description générale de la méthodefragment_xml() . . . 210 5.18 Description générale de la méthodecommutation() . . . 211 5.19 Descriptions de commandes deregex . . . 215 5.20 Description générale de la méthodeaddition() . . . 220 5.21 Description générale de la méthodeelision() . . . 220 5.22 Description générale de la méthodeadjectivisation() . . . 222 5.23 Adjectivisation déverbale (reprise) . . . 222 5.24 Description générale de la méthodenominalisation() . . . 224 5.25 Description générale de la méthodecliticisation() . . . 224 5.26 Description générale de la méthoderime() . . . 226 5.27 Expressions équivalentes selonpseudoaffixation(). . . 229

(42)

5.28 Description générale de la méthodepseudoaffixation() . . . 230

(43)

(44)

Sigles et abréviations

Généraux

A Adjectif.

Adv Adverbe.

P Préposition.

V Verbe.

AP Syntagme adjectival.

AdvP Syntagme adverbial.

DP Syntagme du déterminant.

EN Anglais.

ES Espagnol.

FIPSDB Base de données de FIPS. FIPSTG Étiqueteur de FIPS. FIPSWEB Interface web de FIPS. FIPSDB Base de données de FIPS. FIPSSYN Analyseur syntaxique FIPS. FR Français.

NP Syntagme nominal.

PP Syntagme prépositionnel.

Regex Expression(s) régulière(s) (informatique).

VP Syntagme verbal.

UP Unité phraséologique.

[T

_→

sool]

Φ Traits morpho-syntaxiques.

ALN Alteronymes.

ACD Marqueur de l’élément à accorder.

ANA Analyse.

ACC Accord.

ARG Arguments.

ASC Associé

AXE Axe.

BS Balisage.

CAT Catégorie grammaticale d’un élément de l’UP.

xxxiii

(45)

CHS Champ sémantique.

CRI Correspondance (interlinguistique).

CTG Catégorie grammaticale de l’UP.

DEF Définition.

DIC Référence lexicographique.

DTC Détachable.

EXE Exemple.

FC Forme canonique.

FLP Traits flexionnels de l’UP.

HER Héritage de caractéristiques.

IMG Image.

IMP Implication.

JOKER Étiquette de variable catégorielle.

LEX Lexicographie.

LIB Libre.

MOR Morphologie.

MRQ Marqueurs.

PAR Paradigmatique.

PRD Prédication.

PRG Paradigme.

REL Relation.

RTC Relations transcatégorielles.

SEG Zone à changements syntaxiques.

SCT Sous-catégorisation d’uneUP.

SNM Expressions synonymes.

SYN Syntagmatique.

TYP Type.

WN Lien vers WordNet.

(46)

fectum vera quaerendi, quam incognita pro cogni- tis praesumendi. Sic ergo quaeramus tamquam in- venturi ; et sic inveniamus, tamquam quaesituri. Cum enim consummaverit homo, tunc incipit.

Augustinus Hipponensis (354-430) De Trinitate, IX, §1

Épigraphes

Jorge Antonio Leoni de León March 15, 2008

!"#$" $% &'$() *+$, -*. */$, $0 12%3 -*$*'-450,

$% 67) $, "+'(8249 *+$"# -*: /;(-<), $% 27 $,

*1$(8249, $% 27 ="(4> &) $? -<'6@, =<'") 27 AB<)") /C%'$*$*(;

Marcus Aurelius (121-180) Pensées pour moi-même, VIII, §11

1

Marcus Aurelius Antoninus (121-180) Pensées pour moi-même, VIII, §11

(47)

de sécurité à désirer et à chercher la vérité qu’à prendre pré- somptueusement l’inconnu pour le connu.

Cherchons donc comme si nous devions trouver, et trouvons dans l’intention de toujours chercher. En effet, « quand l’homme a achevé, il commence seulement » (Eccli., XVIII, 6 ).”

(trad. de M. Devoille ; Bar-Le-Duc, 1868.)

Augustin d’Hippone (354-430) La Trinité dans l’Homme, IX, §1

“Cet objet que j’ai sous les yeux, quel est-il en lui-même et dans ses conditions propres ? Quelle est son essence, et quelle est sa matière ? Quelle est sa cause ? Et lui-même, que produit-il dans le monde ? Pour combien de temps existe-t-il ?”

(trad. de J. Barthélémy Saint-Hilaire, Paris, 1876.)

Marc Aurèle (121-180) Pensées pour moi-même, VIII, §11

(48)

Chapitre 1

Introduction

L’invention de l’écriture par des sages de l’antiquité a impliqué le découpage de la parole en plusieurs unités. Cette fragmentation n’est pas sans conséquences sur notre ma- nière de comprendre le langage et de l’utiliser. Plus spécifiquement, dans la tradition oc- cidentale, où la représentation de la parole est censée se rapprocher des sons de la langue, basée sur le système perfectionné par les phéniciens, nous utilisons un ensemble structuré de graphèmes (lettres) se groupant pour former des unités minimales de sens, que nous appelons « mots ». Gouttes de pensée ou évocations de la réalité, leur nature est toujours insaisissable. D’une part, nous voulons croire que chaque mot ne désigne qu’une seule chose (comme « sapajou » ou « pognon ») ; mais, d’autre part, les « mots » sont souvent enduits de plusieurs sens (par exemple, le verbe « savoir » et le nom « assiette ») ou, au contraire, ils se rassemblent pour dénoter un seul signifié (« tomber dans les pommes », pour « s’évanouir », et « l’âge de la raison », pour une période de la vie, illustrent cette possibilité). Dans ce dernier cas, nous parlons de locutions ou même, dans un sens un plus large, d’expressions à mots multiplesqui constituent le sujet de notre recherche. La littérature spécialisée présente une grande richesse terminologique pour ce type d’expression : expressions à mots multiples, expression idiomatique, locution, phrasème, unité

1

(49)

phraséologique.¹Nous les utilisons indifféremment jusqu’au chapitre 2.

En ce qui concerne la tradition littéraire, nous trouvons les premières traces des expressions à mots multiples dans l’Iliade, fondement de la littérature occiden- tale. À ce propos, [Blanc, 2002] aborde les mots composés homériques, tandis que [Meissner et Tribulato, 2002] sont même allés plus loin en examinant lacomposition no- minaleen grec mycénien. D’autre part, Aristote a dédié quelques lignes aux noms com- posés dans sa Poétique [Aristote, 1996, page 121], lors de son second séjour à Athènes (entre 335 et 323 avant J.-C.).

Depuis l’essor de l’informatique, notre façon d’échanger des informations s’est trans- formée drastiquement. En effet, pour la première fois, l’être humain se trouve devant la tâche de reproduire le fonctionnement de son langage à l’aide d’outils de sa propre invention, soit pour perfectionner les capacités de ces outils, soit pour mieux communi- quer avec ses semblables. Cette tâche doit faire face à plusieurs difficultés, entre autres l’identification desexpressions à mots multiples, qui, très fréquentes dans le discours, sont incontournables.² Dans ce sens, un système de traduction automatique est inconcevable sans une stratégie adéquate pour traiter ce type d’associations lexicales. Par exemple, si nous considérons la meilleure manière de rendre en français (ou dans n’importe quelle autre langue) l’expression espagnole « desternillarse de risa » (« rire à gorge déployée »,

« se tordre de rire »), nous verrons que le problème est loin d’être banal : une traduction littérale de cette locution donnerait comme résultat la phrase « se casser le cartilage du nez à cause du rire », ce qui, sans aucun doute, serait inapproprié en français. Inverse- ment, une version mot par mot de « casser sa pipe » aboutirait en espagnol à une forme complètement dépourvue du sens « mourir », avec une perte totale de la signification de la phrase.

Dans la mesure où traditionnellement le principal problème était de répertorier le sens

1. Voir [Wotjak, 1998] à propos de cette profusion terminologique.

2. À ce propos voir [Mel’ˇcuk, 2003, pages 26-27].

(50)

desexpressions à mots multiples, nous rencontrons une quantité considérable d’ouvrages dédiés à leur recensement et à leur interprétation. Il n’est pas surprenant, donc, qu’une grande partie des recherches sur lesexpressions à mots multiplesait été effectuée dans le domaine de lalexicographie. Par ailleurs, les travaux visant une explication scientifique des particularités langagières de ces constructions (notamment leurs caractéristiques morphologiques, syntaxiques et discursives) ont connu un nouvel élan ces dernières années grâce à la lexicologie. Lalinguistique informatiquen’est pas en marge de ce mouvement, en raison de ses applications multiples visant une modélisation du langage humain. Elle doit par conséquent faire face à un certain nombre de problèmes posés par lesexpressions à mots multiples, tels que le stockage, l’extraction, la représentation du sens, les relations avec la syntaxe et les transformations qu’elles peuvent subir, sujets que nous aborderons dans les chapitres qui suivent.

1.1 Le problème

De toutes les branches duTraitement automatique du langage, la traduction automatique constitue probablement la meilleure source d’exemples sur la problématique géné- rale de cette discipline [Wehrli, 1998]. Par exemple, la traduction d’une phrase du français en espagnol par des moyens informatiques requiert un niveau de représentation formelle entraînant la mobilisation d’une suite d’analyseurs (morphologiques, syntaxiques et sé- mantiques) appliqués à la langue source. À partir d’une telle représentation, la génération exige l’utilisation de ces mêmes types de ressources, mais en sens inverse et déployées sur une structure linguistique différente. Le cas des expressions à mots multiples peut être particulièrement frappant, car la correspondance des membres d’uneexpressionn’est souvent pas univoque d’une langue à l’autre. Ainsi, lenom composé français « pomme de terre » est traduit en espagnol par un terme unimembre (« patata »), la version littérale

(51)

mot par mot étant dépourvue de sens³ :

TABLE1.1: Traduction d’une expression complexe Langue Par composants Par ensemble Français pomme de terre pomme de terre

↓ 6 ↓ 6 ↓ 6 ↓

| {z } Espagnol ∗manzana de tierra patata

Le Tableau 1.1 illustre le processus mentionné d’une traduction du français vers l’espagnol. Dans la colonne du centre nous avons une correspondance littérale mot par mot aboutissant à une transposition incorrecte. Par contre, dans la colonne de droite l’ensemble de l’expression est correctement associé à une seule unité lexicale de la langue cible. Cette représentation nous laisse penser que les expressions semblables à celle du Tableau 1.1 peuvent être traitées comme des unités lexicales à part entière, dont les espaces blancs peuvent être considérés des accidents. Néanmoins, si l’on suit cette approche, un nouveau problème se profile : le pluriel. En effet, si les noms composés appartiennent au lexique, le pluriel deviendrait une exception morpho-syntaxique, car, dans les substantifs (en français et en espagnol), le morphème de nombre apparaît à la fin de la séquence morphologique avec des variations régies phonologiquement :

(1) Français :

a. maison→maisons cheval→chevaux

b. pomme de terre→ ∗pomme de terres pomme de terre→pommesde terre

3. [Fairon et Senellart, 1999] fournissent d’excellents exemples de traduction entre le français et l’anglais dans le cadre de leur modèle pour la traduction automatique.

(52)

(2) Espagnol :

a. casa (« maison »)→casas jabalí (« sanglier »)→jabalíes b. ojo de agua→ ∗ojo de aguas

(« oeil d’eau » : « source d’eau ») ojo de agua→ojosde agua

Autrement dit, l’inclusion des noms composés dans le lexique entraîne une adaptation du traitement du pluriel aux spécifités des unités lexicales complexes. L’intérêt de maintenir lesexpressions à mots multiplesdans le lexique est grand, car souvent leur sens ne dérive pas nécessairement des éléments constitutifs. Cependant, le pluriel dans le Tableau 1.1 et les exemples (1b) et (2b) constituent un détail d’un phénomène plus complexe. Considé- rons les exemples suivants⁴:

(3) a. Il a vite pris le pli.

Il a vite acquis une habitude.

b. Le pli a été vite pris.

L’habitude a été vite acquise.

c. On a tenu compte de nos remarques.

On a considéré nos remarques.

d. Il a été tenu compte de nos remarques.

Nos remarques ont été considérées.

Les phrases en (3) montrent la possibilité de passivation de certainesexpressions. Cette opération, produit d’une redistribution deCaspour les éléments lexicaux dans la phrase, déclenchée par une altération de lavoix du verbe, est effectuée en syntaxe. Mais, si les unités du lexique (ou lexèmes) sont censées participer à l’organisation de la phrase, tandis que leur structure interne ne devrait pas subir de transformations en syntaxe, comment

4. Ces exemples sont basés sur [Gross, 1996, page 84].

(53)

est-il possible qu’un élément (dans l’occurrence pli et remarques) d’une unité lexicale puisse être mis au passif ? Connaître la nature desexpressions à mots multiplesimplique aussi une réponse à cette question, car elle porte sur la nature du lexique et la structure des unités qui le composent.

Si les expressions à mots multiples appartiennent au lexique, on doit espérer que les changements qu’elles subissent correspondent seulement à la morphologie flexionnelle, comme il s’avère être le cas pour une large majorité d’expressions. Toutefois, la passivation des expressions en (3) suggère que cette perspective ne répond pas à la réalité. Par conséquent, la phénoménologie des expressions à mots multiples met en évidence la nécessité de résoudre un nombre important de sujets linguistiques fonda- mentaux comme l’idiosyncrasie, la compositionnalité et la valeur discursive du lexique [Grossman et Tutin, 2003]. Pour notre part, nous sommes obligés de rendre compte de la structure et la combinatoire des expressions à mots multiples vis-à-vis du traitement automatique du langage (TALN).

1.1.1 Concept et terminologie

Le concept d’expressions à mots multiplesenglobe des phénomènes diversifiés, liés par la coïncidence d’unités lexicales ayant un effet dénotatif (ou stylistique) commun.

Parmi eux, nous trouvons lesmots composés, leslocutions, lesproverbeset les collocations. Devant cette diversité et sur la base de nos choix informatiques⁵ nous choisissons un point de vue syntaxique, lequel nous permet d’établir un profil particulier de notre objet d’étude. Ce profil prend la forme d’une typologie, qui nous aide à établir les critères de base pour l’identification desexpressions à mots multiples.

En outre, lesexpressions à mots multiplesétant au coeur d’opérations syntaxiques et sémantiques importantes, elles exigent, dans le traitement automatique du langage, plus

5. Nous faisons référence ici à l’analyseur syntaxique FIPS[Wehrli, 2004], dont nous parlerons plus tard.

(54)

qu’un recensement à partir d’un certain nombre de critères conceptuels. Ainsi, il est né- cessaire de comprendre leur importance dans la phrase et les processus dans lesquels elles sont engagées. Autrement dit, nous abordons le rapport entre lesexpressions à mots multipleset la syntaxe. Au coeur de ces réflexions nous trouvons les questions de la structure du lexique et, plus important pour nous, de la représentation lexicale des expressions à mots multiples: Quelle est la structure lexicale desexpressions à mots multiples? Com- ment peut-on la représenter formellement et la modéliser en informatique ?

Bien que conscients que lesexpressions à mots multiplessoient soumises aux règles de la sémantique, nous nous focaliserons sur la syntaxe, car cette dernière joue un rôle important dans leur processus de formation. Ainsi, nous devrons faire face à deux questions : la fonction de la syntaxe dans les mécanismes de formation desexpressions à mots multipleset la récupération de l’information à partir de données interprétables en syntaxe (compte tenu des opérations possibles). Toute cette problématique est liée non seulement aux connaissances (encyclopédiques) du sujet parlant, mais aussi aux capacités d’inter- prétation des figures rhétoriques, telles que l’analogie et la métaphore. Les phrases en (4) illustrent ces questions :

(4) a. Il a mis les pieds dans le plat.

b. Elle a fait une offre d’argent au policier.

c. Nous avons présenté nos excuses.

Le sens de la phrase (4a), en tant qu’expression à mots multiples, n’est pas conforme avec le résultat des calculs syntaxiques et sémantiques des valeurs de ses constituants ; son interprétation, « commettre une erreur » , découle de la présence simultanée de cer- tains éléments. Cependant, les exemples (4b) et (4c) montrent des degrés différents de compositionnalité. En (4b), nous avons une redistribution des arguments du nom vers le verbe (c’est-à-dire lesrôles thématiqueset lescasdécoulant de la structure d’arguments dunom) ; et en (4c), nous rencontrons une préférence de combinaison des unités lexicales (du verbe « présenter » par rapport à « faire ») . Une série de questions profile le problème

(55)

de cette recherche :

– Qu’est-ce qu’uneexpression à mots multiples?

– Quelles sont les structures possibles desexpressions à mots multiples?

– Quelle est la structure informatique de stockage la plus adéquate prenant en compte la richesse syntaxique desexpressions à mots multiples?

Ces questions montrent le besoin d’atteindre une définition opérationnelle des expressions à mots multiplespermettant de proposer une série de procédures informatiques de traitement.

Afin de rendre possible la création d’un modèle de connaissances sur lesexpressions à mots multiples, il faut bien évidemment tenir compte des recherches linguistiques en lexicologieet ensyntaxe. Le modèle résultant de cette recherche permet deux opérations : l’identification et la reconnaissance desexpressions à mots multiples. La première est la validation pleine d’une expression dans le modèle, tandis que la deuxième se rapporte à un ensemble de critères syntaxiques sur l’idiomaticité d’une expression donnée. La question suivante résume le problème que nous cherchons à résoudre :

Quelle est la représentation informatique des expressions à mots multiples la plus adéquate, compte tenu de leur phénoménologie syntaxique ?

1.2 Objectifs

1.2.1 Objectif général

Notre objectif est de créer un modèle informatique phraséologique de l’espagnol basé sur la phénoménologie lexico-syntaxique des expressions à mots multiples. Le modèle issu de cette recherche comprend deux opérations. La première est l’identification, qui exprime la validation d’une expression à tous les niveaux du modèle ; la deuxième est la reconnaissance, qui désigne la saisie d’une séquence de mots comme une possible expression à mots multiplesà partir de critères lexicaux et syntaxiques.

(56)

1.2.2 Objectifs spécifiques

Le modèle que nous proposons vise aussi une :

1. Classification lexico-syntaxique desexpressions à mots multiples.

2. Formalisation desexpressions à mots multiplestenant compte du dynamisme lexical et syntaxique des ces unités.

3. Automatisation du calcul de l’idiomaticité d’après la formalisation proposée.

FIGURE 1.1: Objectifs du modèle phraséologique

Cette recherche permettra de démontrer la pertinence des théories linguistiques formelles dans leTraitement automatique du langage(TALN) et fera le lien entreTALNet des technologieswebde pointe. Par conséquent, notre perspective est orientée vers l’échange de l’information et les applications en réseaux. La Figure 1.1 résume le système que nous envisageons dans ce travail. Parmi les applications possibles de notre modèle, nous trouvons le filtrage d’expressions issues d’une extraction automatique (reconnaissance), ainsi que la consultation des données du modèle en tant que dictionnaire phraséologique. La traduction des expressions est l’un des sujets qui guident les solutions proposées dans ce travail. Dans une perspective purement lexicographique, les résultats sont aussi exploitables dans le cadre des dictionnaires électroniques en tant qu’outil informatique spécialisé dans

(57)

les lemmes complexes, par exemple, dans un système comme celui de laReal Academia Española[Real Academia Española, 2006] décrit par [Rodríguez Marín, 2003].

1.3 Approche informatique

Notre formalisation ainsi que le traitement desexpressions à mots multiplesreposent sur l’analyseur syntaxique FIPS. FIPS est un analyseur syntaxique profond inspiré de la grammaire générative chomskyenne [Wehrli, 1997, Wehrli, 2004, Wehrli, 2007]. FIPS

consiste en un étiqueteur lexical, FIPSTG, une base de données lexicales, FIPSDB, et un analyseur syntaxique, FIPSSYN. En outre, FIPS compte aussi avec une interface web, FIPSWEB, que nous exploitons.

La modélisation informatique du langage humain présente plusieurs difficultés, dont la représentation des données, son stockage et son traitement. Souvent, ces trois aspects n’ont pas de logique commune ; ils peuvent répondre à des concepts et techniques très éloignés l’un de l’autre. Malgré tout, on peut atteindre une harmonie permettant de traiter des données à partir de leur représentation. Nous avons trouvée cette harmonie dans l’ensemble de technologies associées auLangage de balisage extensible(XML). Dans notre cas particulier, nous codifions une base de connaissances d’expressions à mots multiples, ce qui est admis par les règles de XML, tout en restant le plus fidèle possible à notre théorie linguistique. Grâce au fait que tout document XML peut être, à son tour, l’objet d’une représentation arborescente, nous sommes en mesure d’exploiter les rapports configurationnels du lexique créé. Ces dépendances sont une reproduction des structures à l’intérieur des unités lexicales et également des rapports entre formes qui partagent cer- tains traits. Le langage XML n’est pas une technologie inconnue dans le domaine du traitement automatique du langage, bien au contraire, elle y compte de nombreuses applications, spécialement dans la représentation lexicale.⁶ Afin de mieux décrire le fonc-

6. Par exemple [Baker et al., 2003, 292], dans le cadre deFrameNet, considèrent XML comme le format logique pour partager et distribuer les données de la recherche ; d’ailleurs [Seppälä, 2004] fait appel au

(58)

tionnement de notre modèle et ses composants, nous utilisons le langage unifié de modé- lisation (UML) [OMG, 2007, Miles et Hamilton, 2006, Pilone et Pitman, 2006], quoique nous ne le faisons pas de manière systématique.

Afin de montrer la faisabilité de nos propositions, nous avons développé une preuve de concept (chapitre 5) des technologies XML [Amann et Rigaux, 2002, Ray, 2001, Simpson, 2002, vand der Vlist, 2004] traitées avec le langage de programmation Perl [Wall et al., 2000] suivant le paradigme de l’orientation objets [Conway, 2000]. Cette preuve de concept prend la forme d’une application web illustrant les principaux sujets abordés.

XML est constitué par un riche ensemble de technologies de validation, d’extraction et transformation de données [Amann et Rigaux, 2002, Ray, 2001, Simpson, 2002, van der Vlist, 2002, vand der Vlist, 2004, W3C, 2007]. En général un projet XML consiste en un système de validation et de configuration du langage défini, RELAX NG [vand der Vlist, 2004] dans notre cas, et en une série de procédures de traitement, pour lesquelles nous utilisonsPerl, comme nous l’avons déjà signalé.

Perl est un langage très souple [Dominus, 2005, Orwant et al., 1999], spécialement apte pour le traitement de textes grâce à sa base d’expressions régulières (regex) [Wall et al., 2000, Friedl, 2002]. En outre,Perlpossède des librairies très complètes pour la création d’analyseurs [Frenz, 2005], le traitement du XML [Ray et McIntosh, 2002, Riehl et Sterin, 2003] et la création et administration de sites web [Stein, 1998].

Nous avons testé notre preuve de concept, dans le cadre d’un serveur Apache [Laurie et Laurie, 2003], sur deux systèmes d’exploitation, Windows XP et Mac OS X, afin de tester sa portabilité.

XML visant une formalisation conceptuelle exploitable comme ressource terminologique.

Modèle d&#039;analyse lexico-syntaxique des locutions espagnoles

Thesis

Reference

Modèle d'analyse lexico-syntaxique des locutions espagnoles

Modèle d’analyse lexico-syntaxique des locutions espagnoles

THÈSE

Jorge Antonio Leoni de León

Thèse N

650

Le Doyen

Remerciements

1

S

« Felix qui potuit rerum cognoscere causas »

Thèse

Résumé

Thesis

Abstract

Tesis

Resumen

hispana lingvo

Tezo

Resumo

spagnolo

Tesi

Riassunto

Table des matières

Table des figures

Liste des tableaux

Sigles et abréviations

Généraux

[T

sool]

Épigraphes

Chapitre 1

Introduction

1.1 Le problème

1.1.1 Concept et terminologie

1.2 Objectifs

1.2.1 Objectif général

1.2.2 Objectifs spécifiques

1.3 Approche informatique

Modèle d'analyse lexico-syntaxique des locutions espagnoles