• Aucun résultat trouvé

Pour formaliser le vocabulaire d’une langue telle que le quechua, un dictionnaire linguistique doit recenser et décrire de façon unifiée tous ses éléments, c’est-à-dire les quatre types d’ALU, définies orthographiquement, à savoir les morphèmes (tels que les suffixes -paq,

-wan, -ysi-, -sqa-), les mots simples (ex. : wasi « maison »), les locutions (ex. : mama qucha

« la mer »), et les expressions (ex. : chayna kaptinqa « dans ce cas-là »).

Dans notre cas, depuis quelques années, nous essayons de constituer un système de dictionnaires du genre DELA pour le quechua. Ainsi que nous l’avons mentionné dans l’introduction, les dictionnaires bilingues quechua↔français, de noms et adjectifs, de verbes, et de mots composés, sont déjà partiellement réalisés. On pourrait penser que pour bâtir un dictionnaire linguistique, il suffirait de fusionner tous ces dictionnaires avec les tables de lexique-grammaire135. Mais, malheureusement, comme ils ont été construits à différentes

périodes, tous ne suivent pas la même organisation, et plusieurs problèmes empêchent, pour le moment, leur fusion directe. La même difficulté a été signalée par Silberztein pour le français : « le système DELA impose une séparation entre le dictionnaire des mots simples (le DELAS) et le dictionnaire des mots composés (le DELAC).

Cette séparation produit de nombreuses entrées lexicales artificielles. Par exemple, puisque le DELAS est utilisé pour reconnaître toutes les formes simples (indépendamment du DELAC), il faut décrire des formes comme « priori » (du mot composé a priori) dans ce dictionnaire. En conséquence, le DELAS contient plusieurs milliers d’entrées qui ne sont pas des éléments du vocabulaire: aujourd (constituant de l’adverbe composé aujourd’hui), parce (constituant de la conjonction composée parce que), etc. Nous avons besoin d’un dictionnaire

134 http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/delas.html

135 Le terme de lexique-grammaire a été introduit par Maurice Gross en 1984. Les idées qui sont à l'origine du

lexique-grammaire ont été formulées par M. Gross au cours des années 1960 : la séparation entre grammaire et lexique dans la description linguistique est contre-productive, ainsi que la priorité souvent donnée à la grammaire aux dépens du lexique. Le lexique-grammaire recense, en grandeur réelle, les structures syntaxiques élémentaires (M. Gross 1975).

dans lequel chaque entrée lexicale corresponde à une ALU, et où chaque ALU soit décrite par une seule entrée lexicale »136.

Dans notre projet de formalisation linguistique de la langue quechua, nous avons également besoin de traiter, certaines opérations morphologiques comme la dérivation et la flexion des mots simples et composés. Voyons comment NooJ permet d’aborder ces sujets.

3.5.1. Le DELA et la dérivation

Les dictionnaires DELA n’incluent pas la dérivation. Par exemple, les entrées manifester, manifestation et manifestant apparaissent comme des entrées lexicales indépendantes dans le dictionnaire DELAS (http://infolingu.univ-mlv.fr/) :

manifester,.V+z1:W manifestation,.N+z1:fs manifestant,.N+z1:ms

Ce manque limite certaines applications de TAL. Par contre, en utilisant les formalismes de NooJ, il est possible d’inclure les paradigmes de dérivation correspondant au verbe « manifester » pour obtenir « manifestation », « manifestant » et « manifestable ».

Voici une entrée lexicale typique décrite en format NooJ :

manifester,V+ FLX=AIDER+DRV=RE+DRV=ATION : TABLE+ DRV=ANT : COUSIN

Cette expression nous indique que l’élément de vocabulaire « manifester » est un verbe (V) qui se conjugue sur le modèle AIDER (FLX=AIDER), qui accepte une préfixation en re- (+DRV=RE), qui se dérive en « manifestation » (DRV=ATION), qui se fléchit elle-même sur le modèle TABLE), et qui se dérive aussi en « manifestant » (DRV=ANT), qui se fléchit sur le modèle COUSIN).

Ainsi, si nous appliquons la requête NooJ <manifester> à un texte, elle y trouvera toutes les occurrences de manifester, telles que manifestations, manifestants ou remanifestera.

Pour pouvoir profiter de cette possibilité, nous allons donc organiser notre dictionnaire suivant ce format NooJ. Toute entrée lexicale contiendra au moins les données suivantes :  un radical : considéré comme forme de base ;

 une étiquette : qui en indiquera la catégorie morphosyntaxique ;  une liste optionnelle d’informations syntaxico-sémantiques ;

 une liste éventuelle de codes alphanumériques désignant les modèles flexionnels et dérivationnels applicables ;

 éventuellement, la traduction dans une langue cible.

Les dictionnaires ainsi établis devront être compilés dans la plate-forme NOOJ avant de pouvoir être utilisés. Leur compilation est effectuée par le compilateur de NOOJ, qui signale toutes les erreurs d’écriture des règles (« méta syntaxe »).

De cette manière, nous obtiendrons un dictionnaire dans lequel les formes dérivées ou fléchies d’une ALU donnée ne constituent pas des entrées lexicales indépendantes de celle-ci : toutes les formes dérivées et fléchies seront calculées à partir de l’entrée lexicale qui représente l’ALU.

Dans notre dictionnaire quechua de noms, adjectifs et verbes, nous suivons ce format. Nous avons, par exemple, l’entrée suivante :

kusiy,V+FLX=V_TR+FR= « se réjouir »+ DRV=SQALLADV :N_G.

Elle nous informe que le mot kusiy est un verbe qui se conjugue sur le modèle V_TR, se dérive en kusisqalla (allégrement) (DRV= SQALLADV), que cette forme se fléchit elle- même sur le modèle N_G, produisant entre autres kusisqallapas (allègrement aussi), kusisqallam (de façon allègre), kusisqallachá (probablement de façon allègre).

Un sujet particulièrement important pour notre travail concerne la morphologie lexicale. Elle traite les familles de formes dérivées comme les mots France, français, refranciser, défranciser, défrancisable, etc. qui sont apparentées à la forme France.

En quechua, nous trouvons des familles semblables. Par exemple, prenons le nom qari « homme ». Il dérive vers qariyay « devenir un homme », qaripa « de l’homme », qaripura « entre hommes », qarimanta « concernant l’homme », etc. On peut représenter cette famille de mots en se servant de la grammaire graphique de la Figure 19.

Figure 19. Grammaire génératrice de la famille dérivationnelle du nom qari « homme »

Sur cette grammaire, en appliquant dans NOOJ la commande « GRAMMA>Generate Language »,

Figure 20. La famille dérivationnelle générée à partir de qari « homme ».

3.6. Application des ressources (dictionnaire + grammaire) à un corpus