• Aucun résultat trouvé

Un prototype d'analyseur pour le romanche sursilvain

N/A
N/A
Protected

Academic year: 2022

Partager "Un prototype d'analyseur pour le romanche sursilvain"

Copied!
28
0
0

Texte intégral

(1)

Report

Reference

Un prototype d'analyseur pour le romanche sursilvain

SCHERRER, Yves

SCHERRER, Yves. Un prototype d'analyseur pour le romanche sursilvain. Genève : 2007, 27 p.

Available at:

http://archive-ouverte.unige.ch/unige:22829

Disclaimer: layout of this document may differ from the published version.

(2)

Un prototype d’analyseur pour le romanche sursilvain

Yves Scherrer DEA de Linguistique

17 octobre 2007

1 Introduction

Ce document décrit les caractéristiques principales du romanche sursilvain, en vue de l’implémentation d’un analyseur morphologique et syntaxique de cette langue dans le système Fips.

Je commencerai par décrire la situation linguistique des Grisons (section 2) afin de mieux comprendre quelques caractéristiques de la variété sursilvaine.

La section 3 sera consacrée à la morphologie et décrira l’implémentation d’un généra- teur morphologique capable de traiter les substantifs, adjectifs et verbes romanches.

La section 4 présentera l’acquisition automatique d’un petit lexique permettant d’uti- liser le générateur morphologique.

La section 5 contient quelques éléments de syntaxe romanche. Quelques phénomènes intéressants sont décrits à l’aide d’un ensemble de règles suivant le formalisme de Fips.

Enfin, la section 6 contiendra quelques remarques conclusives. Notamment, il sera question de travaux ultérieurs qui pourraient être utiles dans la perspective du trai- tement automatique du romanche.

2 Les langues rhéto-romanches

La situation linguistique des Grisons est caractérisée par une grande diversité, résultat de la géographie montagneuse ne favorisant pas les échanges entre les vallées (Liver 1999; Haiman et Beninca 1992).

Le romanche est traditionnellement parlé dans les vallées alpines des Grisons. Depuis le Moyen-Age, l’allemand le côtoie et le menace. Ce contact linguistique de longue durée a introduit beaucoup de caractéristiques de l’allemand dans une langue du groupe roman. L’allemand et les dialectes alémaniques se sont imposés dans les Gri- sons par deux voies distinctes. D’une part, l’allemand s’est répandu depuis le nord, en remontant la vallée du Rhin. Au 16ème siècle, la ville de Coire a été reconstruite

(3)

par des ouvriers germanophones suite à un incendie. Depuis, la capitale des Grisons est majoritairement germanophone, renforçant ainsi le rayonnement de l’allemand.

D’autre part, les Walser, venus du Haut-Valais, ont occupé les vallées hautes grisonnes au 14ème siècle. Le romanche est également en contact avec l’italien et les dialectes lombards, parlés traditionnellement dans les vallées du Sud des Grisons. Toutefois, de- puis quelques décennies, il n’y a plus de locuteurs adultes romanches monolingues.

Le romanche est essentiellement parlé dans la vallée du Rhin antérieur (Surselva), dans le centre des Grisons en amont de Coire, ainsi que dans l’Engadine et le Val Müstair. Ces régions déterminent aussi les variétés du romanche. Le temps de la Réforme a donné naissance à l’écriture du romanche. Des orthographes et des normes linguistiques ont été élaborés indépendamment dans chaque région ; les divergences religieuses ont également donné lieu à des "orthographes protestantes" et des "orthographes catho- liques" dans la Surselva. Finalement, ces efforts de standardisation ont abouti à cinq idiomes régionaux (Gross 2004) :

Sursilvan L’idiome sursilvain est le plus important en ce qui concerne le nombre de locuteurs (17000), et est parlé dans la vallée du Rhin antérieur.

Sutsilvan Cet idiome compte uniquement 1000 locuteurs natifs ; il est le plus menacé de disparition. Il est parlé dans la vallée du Rhin postérieur, à proximité de la ville de Coire, et le long de l’axe routier du San Bernardino.

Surmiran Cet idiome, avec 3000 locuteurs natifs, est parlé sur le versant nord des Cols de l’Albula et du Julier. Avec le Sutsilvan, il forme le groupe central du romanche.

Puter Le puter est parlé en Haute-Engadine, par 5000 locuteurs. Malgré ce nombre relativement élevé, il est menacé par de nombreux locuteurs de l’allemand et de l’italien qui affluent dans cette région touristique.

Vallader Cette variété est parlée en Basse-Engadine et dans le Val Müstair. On recense 6000 locuteurs, ce qui fait du Vallader le deuxième idiome du romanche des Gri- sons.

Ces cinq idiomes représentent des normes écrites régionales. Cependant, certains vil- lages peuvent utiliser des dialectes qui s’écartent considérablement de la norme régio- nale – parfois ces dialectes sont même plus proches de la norme d’une région voisine.

En plus, les normes sont assez vagues et admettent beaucoup de variation orthogra- phique.

En plus de ces cinq idiomes "naturels", une sixième langue a été développée dans les années 1980 (Schmid 1989), le Rumantsch Grischun (RG). Il a été conçu comme une langue suprarégionale écrite, pour l’usage administratif et médiatique. Cet idiome a été compilé à partir des cinq idiomes pour trouver un compromis compréhensible par tout le monde. A partir de 2005, le RG est enseigné dans les écoles romanches.

L’analyseur morphologique et syntaxique présenté dans les sections suivantes se base sur la variété sursilvaine (Spescha 1989; Liver 1982). De manière rétrospective, il aurait peut-être été plus judicieux d’utiliser le Rumantsch Grischun comme point de départ.

Je ne l’ai pas fait parce que je sous-estimais l’importance de cette langue commune, et que je préférais travailler sur une langue qui s’est développée naturellement. En plus, des documents sur le Sursilvan m’étaient plus facilement accessibles.

(4)

3 Morphologie

Dans cette section, je présente la morphologie flexionnelle du romanche sursil- vain. Les paradigmes flexionnels du romanche ressemblent beaucoup à ceux d’autres langues romanes, avec un paradigme nominal très réduit, un paradigme adjectival basé sur l’alternance de genre et de nombre, et un paradigme verbal relativement riche.

Une grande partie des paradigmes irréguliers, dans toutes les parties du discours, sont caractérisés par une alternance de la voyelle accentuée, à l’instar des phénomènes d’umlauten allemand ; ces alternances vocaliques sont beaucoup plus fréquenctes en Sursilvan que dans les autres idiomes.

Ici, il s’agit surtout de mettre en place une classification des différents procédés de formation. Ces classes sont choisis en fonction des caractéristiques du moteur mor- phologique de Fips.

3.1 Substantifs

Comme les autres langues romanes, le romanche a une flexion nominale relativement simple ; le paradigme est constitué uniquement de deux formes, le singulier et le plu- riel. Il n’y a pas de cas morphologiques. Si la grande majorité des substantifs suivent une formation régulière, quelques classes de flexion irrégulières sont néanmoins ins- dispensables.

3.1.1 Réguliers

Les substantifs réguliers, masculins et féminins, forment le pluriel en-s. Si la forme du singulier finit déjà en-s, les deux formes restent identiques ; il n’y a pas d’ajout d’un-s supplémentaire. Par contre, si le singulier se termine en-z ou en-x, le suffixe -sest tout de même ajouté. Ces substantifs forment la classe 1. Un autre ajustement orthographique concerne les mots en-gl. La plupart de ces mots forment le pluriel en -ls(en supprimant le-g-). Mais comme certains mots gardent le-g-au pluriel, il fallait refléter cette distinction par deux classes séparées. Les mots qui conservent-g-sont attribués à la classe 1, les mots qui perdent le-g-font partie de la classe 6. Le tableau ci-dessous donne quelques exemples.

Singulier Pluriel Classe Traduction activitad activitads 1 activité architect architects 1 architecte

tais tais 1 blaireau

plaz plazs 1 place

herox heroxs 1 héros

spurtegl spurtegls 1 guichet

cavagl cavals 6 cheval

(5)

3.1.2 Alternances vocaliques

Une partie importante des substantifs masculins subissent une alternance du radical.

Cette alternance concerne la voyelle accentuée (qui est souvent une diphtongue), mais elle peut également déclencher une assimilation de la consonne précédente.

La classe 2 rend compte de l’alternance-ie- > -o-. Elle doit tenir compte du change- ment éventuel de la nature de la consonne précédente dans le cas de-tgie- > -co-, de la présence possible d’un-sfinal au singulier (comme dans la classe 1), et du fait que le-i-est conservé dans le contexte-glie- > -glio-.

La classe 3 reflète l’alternance vocalique-ie- > -ia-. Dans ce cas, le-i-est conservé par défaut, mais il est supprimé dans les contextes-schie- > -scha-, et-gnie- > -gna-.

Le tableau ci-dessous illustre les alternances vocaliques avec quelques exemples. Si à première vue, il pourrait sembler judicieux de fusionner les classes 1 à 3, le bas du tableau montre que ce n’est pas souhaitable : il existe des mots en-ier dans les trois classes 1, 2 et 3.

Singulier Pluriel Classe Traduction

criec crocs 2 charrue

iert orts 2 jardin

tgiern corns 2 corne

ies os 2 os

taglier tagliors 2 assiette

unviern unviarns 3 hiver

tschierv tscharvs 3 cerf

gnierv gnarvs 3 nerf

pumpier pumpiers 1 pompier taglier tagliors 2 assiette

fier fiars 3 fer

3.1.3 Autres alternances du radical

La classe 4 modélise le traitement du-i final accentué, qui est normalement trans- formé en-ialsau pluriel. Comme dans la classe 3, le-i-est supprimé dans les contextes -schi > -schals, et-gni > -gnals. En plus, le-l-de la séquence-liest supprimé au pluriel.

Comme quelques mots d’emprunt avec-ifinal forment le pluriel de manière régulière, il n’était pas possible de réunir les classes 4 et 1 (cf. tableau ci-dessous).

La classe 5 traite les alternances-iel > -euls et-al > -auls. Pour la première, le-i-est conservé au pluriel dans le contexte-glieuls.

(6)

Singulier Pluriel Classe Traduction

casti castials 4 château

utschi utschals 4 oiseau

agni agnals 4 agneau

rispli rispials 4 crayon

ski skis 1 ski

cavriel cavreuls 5 chevreuil tetgal tetgauls 5 lisse (Dachfirst) tagliel taglieuls 5 faux (Mähbalken) 3.1.4 Substantifs irréguliers

Quelques substantifs présentent des irrégularités qui vont au-delà de simples alter- nances du radical. On trouve également quelques mots possédant deux formes de plu- riel concurrentes. J’ai choisi de représenter ces irrégularités dans le fichier morpholo- gique, bien qu’il n’aurait pas été difficile d’entrer ces formes dans le lexique manuelle- ment :

• Les noms féminins matta ’fille’ et dunna ’femme’ possèdent deux pluriels concurrents – un régulier et un irrégulier :mattas etmattauns,dunnas etdun- nauns (classe 7).

• Le nom masculinum ’homme’ possède le pluriel irrégulierumens (classe 8).

• Le nom masculinliug ’lieu’ possède deux formes irrégulières au pluriel, à savoir loghensetlogs(classe 9).

A cela s’ajoutent les noms dérivés de participes passés, qui conservent la flexion spéci- fique de ceux-ci (cf. section 3.3.1).

3.1.5 Collectifs

Quelques mots romanches possèdent une forme de pluriel spécifique, la forme col- lective. Cette forme désigne une collection ou un tas d’entités pour des substances naturelles. Le pluriel collectif est également utilisé pour les parties du corps, où il peut prendre la fonction de duel. Le pluriel collectif s’ajoute au pluriel normal en-s, de sorte que ces mots disposent d’un paradigme à trois formes.

Singulier Pluriel normal Pluriel collectif Traduction il crap ils craps la crappa pierre il bratsch ils bratschs la bratscha bras

il det ils dets la detta doigt

il pur ils purs la puraglia paysan igl utschi ils utschals l’utschleglia oiseau

J’ai choisi de traiter les formes collectives comme un cas de dérivation plutôt que de flexion pour plusieurs raisons :

(7)

• L’existence d’une forme collective n’est pas généralisée, et difficilement prédic- tible.

• La formation n’est pas régulière et aurait nécessité plusieurs classes de flexion supplémentaires.

• Formellement, le pluriel collectif correspond à un substantif féminin au singu- lier, avec l’articlelaet la terminaison-a. Etymologiquement, il s’agit d’un neutre pluriel latin en-aqui a été réanalysé ensuite comme un féminin singulier.

Les formes collectives sont donc considérées comme des lexèmes indépendants.

Comme ces lexèmes ont déjà une signification plurielle, il ne fait pas de sens d’en gé- nérer une forme de pluriel (p.ex.*las crappas). Les formes collectives sont donc ana- lysées comme des substantifs féminins dont n’existe que la forme du singulier – des singularia tantum. A cette fin, la classe 12 a été créée. Elle peut également être utilisée pour dessingularia tantumnon collectifs, par exemple des noms propres. De manière analogue, la classe 13 est faite pour lespluralia tantum.

3.1.6 Vue d’ensemble

Les 13 classes de la flexion nominale couvrent la totalité des substantifs décrits dans la grammaire de Spescha (1989).

Classe Description

1 Réguliers

2 Alternance-ie- > -o- 3 Alternance-ie- > -ia- 4 Alternance-i > -ials

5 Alternances-iel > -euls, -al > -auls 6 Transformation-gl > -ls

7 Féminins-a > -as/-auns

8 um

9 liug

10, 11 Participes nominalisés

12 Collectifs et autressingularia tantum 13 Pluralia tantum

3.2 Adjectifs

En romanche, les adjectifs s’accordent en genre (masculin/féminin) et en nombre (sin- gulier/pluriel), comme dans les autres langues romanes. Cependant, une troisième op- position entre en jeu en romanche sursilvain : l’usage attributif ou prédicatif. Dans l’usage attributif, l’adjectif est régi par un syntagme nominal ; l’accord se fait directe- ment avec le substantif à la tête du syntagme nominal. Dans l’usage prédicatif, l’adjec- tif est un complément du verbe, en général d’une copule commeêtre.

il tschiel blau ’le ciel bleu’ attributif il tschiel ei blaus ’le ciel est bleu’ prédicatif

(8)

Aucune langue actuellement implémentée dansFipsne fait cette distinction. Il était donc nécessaire de définir deux constantesattributif etpredicatif pour ces deux em- plois, et de les utiliser, dans la description morphologique, comme valeurs pour la ca- tégoriefeature.

L’opposition entre l’usage attributif et prédicatif se manifeste uniquement dans les formes du masculin singulier. Un paradigme typique régulier se présente donc comme suit :

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl.

Attributif blau blaus blaua blauas Prédicatif blaus blaus blaua blauas 3.2.1 Réguliers

La classe 1 contient tous les adjectifs réguliers. Ceux-ci sont caractérisés par l’ajout du suffixe-s au masculin pluriel ainsi qu’au masculin singulier prédicatif, par le suffixe -a au féminin singulier, et par le suffixe-as au féminin pluriel. La forme de référence (sans ajout de suffixe) est le masculin singulier attributif (cf. table ci-dessus).

La classe 1 contient également des adjectifs avec des transformations orthographiques ou phonologiques simples. En particulier, il s’agit de transformations déterminées uni- quement par la graphie de l’adjectif :

• Pour tous les adjectifs finissant en-gl, un-i-est rajouté dans les formes fémi- nines.

• Tous les adjectifs se terminant par-gn ont des formes féminines en-ntga.

• Tous les adjectifs se terminant par-genont des formes féminines en-tgna.

• Pour tous les adjectifs en-ng-, un-u-est rajouté dans les formes féminines pour éviter la palatalisation dug.

• Pour tous les adjectifs en-s, il faut éviter de rajouter un deuxièmesau masculin singulier prédicatif et au masculin pluriel.

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction Attr. / Pred.

blau / blaus blaus blaua blauas bleu

vegl / vegls vegls veglia veglias vieux pign / pigns pigns pintga pintgas petit agen / agens agens atgna atgnas propre biling / bilings bilings bilingua bilinguas bilingue confus/ confus confus confusa confusas confus

(9)

3.2.2 Alternance du radical

A l’instar de la flexion nominale, beaucoup d’adjectifs présentent une alternance du radical. Cette alternance peut être limitée à la voyelle accentuée ou bien inclure la consonne qui la précède. L’alternance se fait entre la forme du masculin singulier attri- butif d’une part, et toutes les autres formes d’autre part. Au lieu d’introduire des classes spécifiques pour chaque type d’alternance, comme cela a été fait pour la flexion nomi- nale, j’ai choisi une autre approche ici : en donnant, pour chaque adjectif, à la fois le masculin singulier attributif et prédicatif, on arrive à générer toutes les formes sans règles complexes. Au lieu d’indiquer le type d’alternance par le numéro de la classe choisie, on indique directement les deux formes de base.

Cette approche facilite la formulation des règles morphologiques en réduisant le nombre de classes nécessaires. En revanche, elle relègue des informations déductibles de la structure phonologique des mots au lexique. Cette approche ne fournit donc pas une explication linguistique complète du phénomène.

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction Attr. / Pred.

niev / novs novs nova novas nouveau

mitgiert / macorts macorts macorta macortas laid

bien / buns buns buna bunas bon

bi / bials bials biala bialas beau

Pour ces adjectifs, deux formes de base sont nécessaire : le masculin singulier attri- butif (forme 2), et le masculin singulier prédicatif (forme 1)1. Les adjectifs alternants constituent la classe 11.

Classe Forme de base 1 Forme de base 2

11 novs niev

11 macorts mitgiert

11 buns bien

11 bials bi

3.2.3 Syncopes

Une autre irrégularité fréquente concerne les adjectifs dont la dernière syllabe (au masculin) contient une voyelle réduite (un schwa, écrit commee oua). Celle-ci est sujette à la syncope dans les formes féminines. En parallèle, lesh introduits devant les e pour éviter la palatalisation de la consonne précédente tombent. Les adjectifs pré- sentant cette structure sont regroupés dans la classe 2.

1Cette disposition peut paraître contre-intuitive. Cependant, j’ai choisi comme forme 1 celle qui est la plus importante dans le paradigme (utilisée dans 4 formes), et comme forme 2 celle qui n’apparaît que dans une forme du paradigme.

(10)

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction

pauper / paupers paupers paupra paupras pauvre

giuven / giuvens giuvens giuvna giuvnas jeune

pusseivel / pusseivels pusseivels pusseivla pusseivlas possible

viscal / viscals viscals viscla visclas vif

mediocher / mediochers mediochers mediocra mediocras médiocre 3.2.4 Redoublement des consonnes et autres irrégularités

La classe 5 représente les adjectifs dont la consonne finale de la forme masculine est redoublée dans les formes féminines. En tant que variante, la consonne finale-n de- vient-nt-.

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction plat / plats plats platta plattas plat

satel / satels satels satella satellas mince grop / grops grops groppa groppas grossier

con cons conta contas combien de

La classe 3 contient les adjectifs invariables commebunmarcau ’bon marché’, oran- scha ’orange’, rosa ’rose’.

La classe 4 contient quelques adjectifs qui possèdent deux formes féminines alterna- tives, une forme régulière et une forme palatalisée, comme illustré ci-dessous.

Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction

neidi / neidis neidis neidia, neitga neidias, neitgas envieux schelb / schelbs schelbs schelba, schelbtga schelbas, schelbtgas de travers selvadi / selvadis selvadis selvadia, selvatga selvadias, selvatgas sauvage tievi / tievis tievis tievia, tievgia tievias, tievgias tiède 3.2.5 Combinaisons

Les différentes classes mentionnées ci-dessus ne sont pas exclusives : un même adjectif peut présenter une alternance du radical et une syncope du schwa final, par exemple.

Il est donc nécessaire de créer des classes combinées. La classe 12 est la combinaison des classes 11 (alternance) et 2 (syncope), la classe 15 est la combinaison des classes 11 (alternance) et 5 (redoublement).

La classe 16 a dû être créée à cause du choix particulier des formes de base. Elle s’ap- plique à des adjectifs dont la forme de base se termine en-s. Puisque la forme de base 1 est celle du masculin singulier prédicatif (contenant le suffixe-s), le générateur mor- phologique ne peut décider si le-s final provient du suffixe de cette forme, ou s’il fait partie du radical : Dans novs, le -s est le suffixe et doit être enlevé pour générer les formes féminines, tandis que dansgross, les deux s font partie du radical et doivent être conservées dans les formes féminines. Pour contourner ce problème, on aurait pu prendre comme forme de base non pas le masculin singulier prédicatif, mais la forme féminine (novaau lieu denovs), où cette ambiguïté ne se présente pas.

(11)

Classe Masc. Sg. Masc. Pl. Fém. Sg. Fém. Pl. Traduction

11 niev / novs novs nova novas nouveau

12 niebel / nobels nobels nobla noblas noble

15 tschiec / tschocs tschocs tschocca tschoccas aveugle

16 gries / gross gross grossa grossas gros

3.2.6 Vue d’ensemble

Les 9 classes de la flexion adjectivale présentées ci-dessus couvrent presque la totalité des adjectifs décrits dans les grammaires. Mis à part les adjectifs qui suivent la flexion du participe passé (classes 8 et 9, cf. section 3.3.1), une dizaine d’adjectifs irréguliers n’est pas pris en compte par ces classes. Ces adjectifs présentent généralement deux formes concurrentes au féminin, dont seule la forme régulière est générée automati- quement.

Classe Description 1 Réguliers

2 Syncope

3 Invariables

4 Féminin régulier et palatalisé

5 Redoublement de la consonne finale 8, 9 Participes lexicalisés

11 Alternance vocalique (2 bases)

12 Alternance vocalique et syncope (2 bases) 15 Alternance vocalique et redoublement (2 bases) 16 Alternance vocalique etsfinal

3.3 Verbes

3.3.1 Le paradigme verbal

Le paradigme verbal du romanche sursilvain s’apparente à celui d’autres langues ro- manes, mais il est moins riche que d’autres variétés du groupe linguistique roman. Il ne contient ni futur synthétique ni passé simple synthétique. L’emploi des différentes formes du subjonctif est inspiré à la fois par les autres langues romanes et par l’alle- mand.

Le paradigme verbal regroupe les formes conjuguées et les formes non conjuguées (in- finitif, gérondif, participe passé). Les formes conjuguées se distinguent selon le mode et le temps. Mis à part l’impératif (deux formes), chaque temps verbal (indicatif présent et imparfait, subjonctif présent et imparfait, conditionnel direct et indirect) contient six formes. A ces temps verbaux synthétiques s’ajoutent les temps composés, utilisant des verbes auxiliaires.

Le tableau ci-dessous montre le paradigme complet d’un verbe régulier.

(12)

3.3.2 Les classes de base

Le système verbal romanche contient quatre classes de base, reflétant celles du latin :

• Verbes en-ar(classe 1),

• Verbes en-er avec accent sur la terminaison (classe 2),

• Verbes en-er avec accent sur le radical (classe 3),

• Verbes en-ir(classe 4).

Le paradigme de flexion des classes 2 et 3 est identique pour les verbes réguliers. Deux raisons m’ont incité à maintenir cette distinction. Premièrement, les deux classes sont distinguées dans les autres idiomes romanches ; en vallader, la classe 2 se termine en- air, la classe 3 en-er. Deuxièmement, les verbes avec alternance du radical nécessitent la distinction des deux classes (cf. 3.3.6).

Ces classes servent de classes de base. Les verbes réguliers leur sont directement attri- bués. Les classes discutées ci-dessous s’appliquent aux verbes irréguliers.

(13)

3.3.3 Participes passés irréguliers

Certains verbes présentent un participe passé irrégulier (Spescha 1989 : § 445). Pour traiter ces verbes, j’ai choisi de faire 4 classes supplémentaires (classes 6 - 9), identiques aux classes de base, mais qui ne génèrent pas les formes du participe passé. Ces formes sont insérées manuellement, après que les formes régulières ont été générées2.

temer arder rumper

Cl. 2 Cl. 7 Cl. 7

’craindre’ ’brûler’ ’rompre’

temiu / temius ars / ars rut / ruts

temius ars ruts

temida arsa rutta

temidas arsas ruttas

3.3.4 L’infixe-esch-

Quelques verbes en-aret en-ir utilisent l’infixe-esch-pour les formes dont l’accent est sur la base (Spescha 1989 : § 433). De cette manière, on évite d’avoir l’accent sur le radical et de déclencher ainsi une alternance du radical (cf. 3.3.6). Les classes 11 (-ar) et 14 (-ir) décrivent ces paradigmes. Le tableau suivant montre les différences entre un verbe régulier et un verbe à infixe en-ar, la voyelle soulignée représentant l’accent tonique.

lavar gratular Cl. 1 Cl. 11

’laver’ ’féliciter’

lavel gratuleschel lavas gratuleschas lava gratulescha lavein gratulein laveis gratuleis lavan gratuleschan 3.3.5 Les verbes hybrides

J’appelle "verbes hybrides", faute de terme dédié à ce phénomène, les verbes qui ont un infinitif en -er, mais qui utilisent les formes fléchies des verbes en -ir (Spescha 1989 : § 440). La classe 13 leur est réservée.

2Pour pouvoir insérer des formes manuelles, il faut attribuer la classeirrégulierà ces verbes. En pra- tique, le lexique ne contiendra donc aucun verbe appartenant aux classes 6 - 9.

(14)

temer partir scriver Cl. 2 Cl. 4 Cl. 13

’craindre’ ’partir’ ’écrire’

temel partel scrivel temas partas scrivas tema parta scriva temein partin scrivin temeis partis scrivis teman partan scrivan 3.3.6 Alternances du radical

Le phénomène d’irrégularité le plus fréquent est celui de l’alternance du radical. Les verbes montrent des types d’alternance plus complexes que les noms et les adjectifs : ce n’est pas seulement la voyelle accentuée qui est en alternance, il peut également avoir alternance de deux voyelles, ou des métathèses d’un r. Finalement, quelques verbes présentent despatternsd’alternance irréguliers :

suar siuel suer

dumandar damondel demander duvrar drovel utiliser luvrar lavurel travailler

maner mognel passer la nuit (animaux)

Puisqu’il était difficile de rendre compte de tous ces types d’alternance dans le fichier morphologique, j’ai choisi de ne pas modéliser l’alternance proprement dite dans le fichier de flexion, mais plutôt de spécifier les deux bases directement au niveau du lexique. Le fichier de flexion se limite à spécifier la base à utiliser pour chaque forme fléchie.

On a défini la forme de base 1 comme celle qui a l’accent sur le radical, et la forme de base 2 comme celle qui a l’accent sur la terminaison. Pour les classes dérivées de 1, 2 et 4, la forme de base 1 correspond à la première personne du singulier, et la forme de base correspond à l’infinitif. Pour les verbes dérivés de la classe 3, cette convention ne peut pas être suivie : à la fois la première personne du singulier que l’infinitif ont l’accent sur le radical. Pour ces verbes, on a choisi la première personne du pluriel comme classe de base 2.

Les verbes à deux bases sont décrites dans les classes 21 à 24 :

Classe 21 Classe 22 Classe 23 Classe 24 Infinitif formar guder porscher durmir 1e Sg. fuermel gaudel porschel dormel 1e Pl. formein gudin purschein durmin Traduction former jouir proposer dormir

(15)

3.3.7 Les verbes irréguliers

La complexité des paradigmes verbaux est telle que certains verbes n’entrent dans au- cune des classes flexionnelles précitées. Il s’agit de verbes hautement irréguliers. Pour ces verbes, une classe spécifique a été créée. Pour chaque forme, les transformations nécessaires sont indiquées de manière ad hoc. Cette classe contient une dizaine de verbes, dont les verbes modaux et les verbes auxiliairesesser ’être’ ethaver ’avoir’.

3.3.8 Vue d’ensemble

Les différentes irrégularités peuvent se combiner. Par exemple, on peut avoir des verbes à deux bases avec participe passé irrégulier, ou des verbes à deux bases hy- brides. Le tableau récapitulatif ci-dessous illustre toutes les possibilités.

Classe Description 1 Réguliers en-ar

2 Réguliers en-er (accent sur terminaison) 3 Réguliers en-er (accent sur radical) 4 Réguliers en-ir

6 -aravec PP irrégulier

7 -er(accent sur terminaison) avec PP irrégulier 8 -er(accent sur radical) avec PP irrégulier 9 -iravec PP irrégulier

11 -aravec infixe-esch- 13 verbes hybrides 14 -iravec infixe-esch-

16 -aravec infixe-esch-et PP irrégulier 18 verbes hybrides, PP irrégulier

19 -iravec infixe-esch-et PP irrégulier 21 -aravec 2 bases

22 -er(accent sur terminaison) avec 2 bases 23 -er(accent sur radical) avec 2 bases 24 -iravec 2 bases

26 -aravec 2 bases et PP irrégulier

27 -er(accent sur terminaison) avec 2 bases et PP irrégulier 28 -er(accent sur radical) avec 2 bases et PP irrégulier 29 -iravec 2 bases et PP irrégulier

15 verbes hybrides avec 2 bases

20 verbes hybrides avec 2 bases et PP irrégulier 30 verbes irréguliers

En construisant ces classes, l’accent a été mis sur la systématicité des paradigmes. Il en résulte que quelques classes contiennent très peu de membres. On aurait également pu les entrer manuellement dans le lexique et ainsi économiser quelques classes de flexion.

(16)

3.4 Interfaces graphiques

Pour faciliter la vérification des règles morphologiques, des interfaces spécifiques ont été créées pour représenter les paradigmes des verbes, des adjectifs et des verbes.

Chaque interface graphique est lié à un module BlackBox spécifique qui met à dis- position les procédures de remplissage et de (ré-)initialisation des tables. Ces modules sont appelés par FipsTestMorpho, qui a également dû être adapté pour cela.

L’interface graphique pour les substantifs :

L’interface graphique pour les adjectifs :

L’interface graphique pour les verbes a déjà été présentée dans la section 3.3.1.

(17)

4 Lexique

4.1 Source

Pour obtenir une base lexicale en format électronique, je me suis basé sur le diction- naire en lignewww.mypledari.ch. Au moment de la construction du lexique, ce site proposait quelques 5000 entrées. Chaque entrée contenait la forme du mot dans les six variétés du romanche, la partie du discours du mot ainsi que la traduction anglaise.

Depuis, le site a été agrandi et contient maintenant également des traductions alle- mandes, françaises et italiennes. Je ne sais pas si des entrées lexicales ont été rajoutées.

Dans la version ancienne, il était possible de faire une recherche avec la clé ’*’ qui re- tournait toutes les entrées du lexique. A l’aide d’un script Python et de l’outil Unixwget, j’ai pu les télécharger en format HTML. Malheureusement, une refonte du site a eu lieu en parallèle avec l’élargissement à d’autres langues, et ce script ne fonctionne plus à l’heure actuelle. Il devrait néanmoins être possible de l’adapter.

Un autre script extrait les informations utiles des fichiers HTML. Il en extrait les mots en Sursilvan et leur partie du discours. Au lieu de sauvegarder toutes ces informations dans un seul fichier, le script crée des fichiers distincts pour chaque partie de discours et y met les mots correspondants. Il en résulte les fichiers suivants :

• Un fichier pour les noms masculins (environ 1400 entrées).

• Un fichier pour les noms féminins (environ 1600 entrées).

• Un fichier pour les adjectifs (environ 600 entrées).

• Un fichier pour les verbes (environ 750 entrées).

• Un fichier pour les adverbes.

• Un fichier pour toutes les autres catégories (pronoms, prépositions, conjonc- tions, collocations, ...)

4.2 Annotation

Le but de ces fichiers est de permettre une insertion rapide et automatisée dans la base de données de Fips. Mais pour cela, les informations de partie de discours et de genre ne suffisent pas. En particulier, le générateur morphologique doit connaître la classe d’inflexion de chaque mot. Si ce mot se trouve dans une classe à deux bases, il faut en outre indiquer la deuxième base. Ensuite, quelques traits syntaxiques et sémantiques sont indispensables. Par exemple, il faut marquer spécialement les verbes pronomi- naux, les noms collectifs, ou les nombres ordinaux qui forment une classe spécifique d’adjectifs. Cette annotation a été faite en grande partie à la main.

En ce qui concerne les substantifs, ils ont d’abord été annotés avec leur classe d’in- flexion. Ensuite, on a mis tous les noms propres (noms de lieux, de personnes, ab- bréviations) dans un fichier à part. De cette façon, on introduit toutes les entrées du

(18)

premier fichier avec le traitcommun, et les entrées du deuxième fichier avec le trait propre.

Les adjectifs ont également dû être annotés avec leur classe d’inflexion. Pour ceux qui présentent une alternance vocalique, la deuxième base a été rajoutée. Ensuite, on a extrait les nombres ordinaux de cette liste et mis dans un fichier à part. Ainsi, on a pu ajouter le traitordinallors de leur insertion dans le lexique.

En somme, on a donc utilisé deux moyens d’annotation différents. Le premier consiste à rajouter l’information directement dans le fichier, à côté de chaque mot. Cette voie a été choisie pour la classe d’inflexion et la deuxième base. Le deuxième moyen consiste à répartir les mots sur deux fichiers selon un critère binaire : on a créé deux fichiers de substantifs selon le critère nom commun/nom propre, et deux fichiers d’adjectifs selon le critère adjectif normal/adjectif numéral ordinal.

Pour les verbes, le seul trait pris en compte est la distinction entre verbes pronomi- naux et non-pronominaux. Il faut noter que ce trait n’a pas d’implication morpho- syntaxique en Sursilvan : les verbes pronominaux commencent juste parse (ou par s’ si le radical commence par une voyelle), mais cette particule est attachée au verbe et reste invariable. A titre d’illustration, ci-dessous la conjugaison à l’indicatif présent des deux verbes pronominauxsecalmar ’se calmer’ ets’interessar ’s’intéresser’.

jeu secalmel s’interessel ti secalmas s’interessas el/ella secalma s’interessa nus secalmein s’interessein vus secalmeis s’interesseis els/ellas secalman s’interessan

La distribution des verbes sur deux fichiers a pu être effectuée de manière semi- automatique : sont considérés comme pronominaux tous les verbes commençant par seous’. La liste ainsi générée a été contrôlée manuellement pour éviter que des verbes commesentirse retrouvent dans la liste des pronominaux.

Ensuite, il fallait indiquer les classes morphologiques des verbes. Ceci pouvait être au- tomatisé pour les verbes à infixe-esch-. En fait, cette information était donnée dans l’entrée lexicale deMypledari, et il suffisait de créer un autre script qui listait tous les mots avec cet infixe. Il ne restait plus qu’à déterminer s’il s’agissait de verbes en-arou en-ir. Quelques verbes à alternance étaient déjà annotés comme tels dans les sources, mais d’autres ont dû être annotés à l’aide d’une grammaire. L’attribution des autres classes flexionnelles a été effectuée entièrement à la main.

4.3 Insertion

Toutes ces listes annotées ont servi de point de départ pour la base de données Fips. A l’aide d’un module spécifique BlackBox, les listes sont lues une par une. Pour chaque lexème, le générateur morphologique génère les formes fléchies selon la classe de flexion indiquée. Le lexème et le paradigme flexionnel sont insérés dans le lexique,

(19)

les traits lexicaux sont ajoutés. Pour les verbes à participe irrégulier, les formes man- quantes sont rajoutées à la main.

En ce qui concerne les autres parties de discours, quelques simplifications ont été effectuées. Si tous les pronoms, prépositions et conjonctions ont été insérés, seule- ment une dizaine d’adverbes est actuellement contenue dans le lexique. Et bien que le lexique téléchargé contienne environ 700 expressions à mots multiples, celles-ci n’ont pas été traitées.

En ce qui concerne les verbes, on aurait dû spécifier les sous-catégorisations. Etant donné l’impossibilité d’inférer ces informations automatiquement et le travail consi- dérable qu’une annotation manuelle aurait impliqué, on a procédé à une simplifica- tion : Tous les verbes non-pronominaux sont considérés comme transitifs, et tous les verbes pronominaux sont considérés comme intransitifs. Il faudrait reprendre ces en- trées lexicales pour adapter leur sous-catégorisation à la réalité.

5 Syntaxe

La syntaxe du romanche a repris beaucoup de traits caractéristiques de la syntaxe al- lemande suite au contact centenaire des deux langues. Ainsi, le phénomène du V2, c’est-à-dire du verbe principal en deuxième position de la phrase, s’est généralisé en romanche. En plus, l’emploi de verbes à particules, comme on peut les trouver en al- lemand ou en anglais (phrasal verbs), est très fréquent. Dans cette section, j’aimerais présenter les règles syntaxiques d’un fragment du romanche sursilvain. Ces règles sont écrites dans le formalisme de Fips.

Je partage la présentation en trois volets. D’abord, je présenterai les règles nécessaires pour former un syntagme nominal, ensuite les règles concernant les syntagmes pré- positionnels, et enfin les règles liées à la construction de la phrase complète. Dans les trois parties, je commencerai par donner un exemple et je présenterai ensuite les as- pects plus techniques des règles en jeu.

5.1 Le syntagme nominal

Conformément aux théories syntaxiques récentes, le syntagme nominal est analysé comme une structure dont le déterminant constitue la tête. On obtient alors un syn- tagme de typeDP avec une tête de catégorieD. Dans un syntagme commeina casa cotschna ’une maison rouge’, la tête estina, etcasa cotschna est attaché comme spé- cifieur droit. Le syntagmecasa cotschnaest de typeN P, et il se compose de la têtecasa de typeNet du spécifieur droitcotschnade typeA.

(20)

DP RR RR RR RR RR

D NP

RR RR RR RR RR

N AP

A ina casa cotschna

Pour analyser ce syntagme, Fips effectue plusieurs actions :

1. Le premier mot, de catégorieD, déclenche la création d’une projection lexicale DP. On obtient donc un syntagme DP dont la tête est D, avec un spécifieur gauche encore vide, et un spécifieur droit encore vide.

2. Le deuxième mot, de catégorieN, déclenche la création d’une projection lexicale N P; sa tête est le motcasade typeN, ses spécifieurs gauche et droit sont encore vides.

3. Le troisième mot, de catégorieA, déclenche la projection lexicale d’unAP. 4. Une règle pour l’attachement des adjectifs postnominaux nous autorise à ratta-

cher leAP au spécifieur droit duN P.

5. Une règle pour l’attachement des syntagmes nominaux nous autorise à rattacher leN Pau spécifieur droit duDP.

Les trois premières actions sont des projections. Pour chaque catégorie terminale (A,D,N,V,Ad v,C on j), Fips crée, indépendamment de la langue en question, une pro- jection du type correspondant. Par contre, les deux règles d’attachement sont spéci- fiques aux catégories et à la langue choisie. Par exemple, il n’y a que des adjectifs pré- nominaux en allemand, mais il y a à la fois des adjectifs pré- et post-nominaux en ro- manche ou en français. En général, ces règles sont accompagnées de conditions : par exemple, unAPne peut être rattaché à unN Pque s’il s’accorde en genre et en nombre avec ce dernier.

Les règles spécifiques au romanche sursilvain sont les suivantes :3

3La notationX .Y se réfère à une règle d’attachement à gauche (Y étant la tête,X le spécifieur gauche), tandis que la notationX &Y désigne une règle d’attachement à droite (X étant la tête,Y le spécifieur droit.

(21)

(201) AP.N P:

L’AP est dans une formeattributive, et s’accorde en genre et en nombre avec leN P.

(002) N P&AP:

L’AP est dans une formeattributive, et s’accorde en genre et en nombre avec leN P.

(401) DP&N P:

LeN P s’accorde en genre et en nombre avec la tête duDP (c’est-à-dire avec le déterminant).

Les deux premières règles devront être raffinées. La règle (201) devrait s’appliquer uni- quement aux adjectifs disposant du traitprénominal, la règle (002) uniquement aux adjectifs possédant le traitpostnominal. Comme ces traits ne sont pas encore présents dans les entrées lexicales, ces contraintes supplémentaires ne sont pas encore implé- mentées. En plus, ces règles ne tiennent pas compte du fait que certains noms propres sont utilisés sans déterminant4; le traitement adéquat de ce phénomène nécessiterait des règles supplémentaires.

5.2 Le syntagme prépositionnel

Un syntagme prépositionnel (P P) standard est constitué d’une tête – une préposition – et d’unDP qui occupe la place du spécifieur droit. Le schéma suivant illustre cette analyse pour le syntagmesper la casa ’vers la maison’.

PP RR RR RR RR RR

P DP

RR RR RR RR RR

D NP

N

sper la casa

La règle correspondante est la suivante : (501) P P&DP:

LeDP est attaché comme spécifieur droit à unP P. Il n’y a pas de conditions particulières à cette règle.

Les particules verbales constituent des cas particuliers de syntagmes prépositionnels.

La liste suivante montre quelques verbes à particules avec leurs équivalents allemands et les traductions françaises :

4Il s’agit là avant tout des noms de lieux. Les noms de personnes sont généralement utilisés avec déterminant en romanche sursilvain.

(22)

cumpraren einkaufen acheter

durmirora ausschlafen faire la grasse matinée

fargiu abmachen se rencontrer, fixer un rendez-vous

Les particules verbales sont des prépositions. Elles constituent un syntagme préposi- tionnels à elles seules, leur spécifieur droit restant vide. On marque ces syntagmes avec le traitparticlepour un traitement ultérieur correct (cf. ci-dessous).

5.3 La phrase

Le traitement de la phrase déclarative romanche, comme de la phrase allemande, se complique à cause du phénomène du V2 (Kaiser 2002; Haiman et Beninca 1992). Dans toute phrase déclarative, il y a un élément extraposé à gauche du verbe principal ; cet élément extraposé peut être le sujet, un argument du verbe (syntagme nominal objet ou syntagme prépositionnel) ou un ajout (un adverbe ou un syntagme prépositionnel).

Les autres éléments de la phrase apparaissent à droite du verbe.

Suivant l’analyse standard de l’allemand, le verbe principal (V déclenchant une pro- jection lexicale versV P) donne lieu à une métaprojection vers leT P, et ensuite vers le C P. En d’autres termes, le verbe est déplacé de la tête duV P à la tête duC P. Le spéci- fieur gauche duC Paccueille l’élément extraposé. Le spécifieur gauche duT Pcontient le sujet en position non-extraposée, tandis que les autres constituants de la phrase sont ajoutés dans le spécifieur droit duV P.

Voici, à titre d’exemple, trois phrases simples avec leurs analyses correspondantes.

Las mattas scrivan ina brev. ’Les filles écrivent une lettre.’

CP iiiiiiiiiiii

ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ

DPj Vi TP

iiiiiiiiiiii

UU UU UU UU UU UU

j VP

UU UU UU UU UU UU

i DP

las mattas scrivan ina brev

Ina brev scrivan las mattas. ’C’est une lettre que les filles écrivent.’

(23)

CP iiiiiiiiiiii

ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ

DPj Vi TP

iiiiiiiiiiii

UU UU UU UU UU UU

DP VP

UU UU UU UU UU UU

i j

ina brev scrivan las mattas

Oz scrivan las mattas ina brev. ’Aujourd’hui, les filles écrivent une lettre.’

CP iiiiiiiiiiii

ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ ZZ

AdvP Vi TP

iiiiiiiiiiii

UU UU UU UU UU UU

DP VP

UU UU UU UU UU UU

i DP

oz scrivan las mattas ina brev

L’élément clé de cette analyse est la règle suivante : (M1) V P7→T P7→C P:

C’est une métaprojection qui déplace le verbe principal de la tête duV P vers la tête duT P, et ensuite vers la tête duC P.

Comme évoqué ci-dessus, pour chaque constituant mis à part le verbe, il y a deux po- sitions possibles : une position extraposée et une position non-extraposée. En consé- quence, chaque constituant nécessite deux règles, pour les deux positions. Pour le su- jet, on a besoin des deux règles suivantes :5

(409) DP.C P:

La tête duC P se réfère au verbe principal, leDP constitue le sujet du verbe, et leC P est marqué comme manquant un élément extraposé (incompleteV2).

En appliquant cette règle, la marqueincompleteV2est enlevée.

(801) DP.T P:

# La tête duT Pse réfère au verbe principal et leDPconstitue le sujet du verbe.

Les mêmes règles s’appliquent,mutatis mutandis, aux objets directs et auxP P argu- ments :

5Les règles marquées avec # ne sont pas implémentées pleinement et correctement à l’heure actuelle.

(24)

(410) DP.C P:

# La tête duC P se réfère au verbe principal, leDP constitue l’objet direct du verbe, et leC P est marqué comme manquant un élément extraposé (incom- pleteV2). En appliquant cette règle, la marqueincompleteV2est enlevée.

(102) V P&DP:

LeV P se réfère au verbe principal et leDP constitue l’objet direct duV P. (301) P P.C P:

# La tête duC P se réfère au verbe principal, leP P est un argument du verbe, et leC P est marqué comme manquant un élément extraposé (incompleteV2).

En appliquant cette règle, la marqueincompleteV2est enlevée.

(102) V P&P P:

LeV P se réfère au verbe principal, et leP P est un argument du verbe.

Les adverbes et lesP Pqui n’entrent pas dans la sous-catégorisation du verbe principal sont considérés comme des ajouts. Ceux-ci peuvent également apparaître en position extraposée et en position standard :

(509) Ad vP.C P:

La tête duC P se réfère au verbe principal et est marqué comme manquant un élément extraposé (incompleteV2). En appliquant cette règle, la marque incompleteV2est enlevée.

(104) V P&Ad vP:

# LeV P se réfère au verbe principal.

(302) P P.C P:

# La tête duC P se réfère au verbe principal, leP P n’est pas un argument du verbe, et leC P est marqué comme manquant un élément extraposé (incom- pleteV2). En appliquant cette règle, la marqueincompleteV2est enlevée.

(103) V P&P P:

# LeV Pse réfère au verbe principal, et leP Pn’est pas un argument du verbe, et il n’est pas marqué comme particule.

Pour ces règles, un raffinement est également envisageable. En particulier, il faut s’as- surer que le même type d’argument (sujet ou objet) n’est pas attaché deux fois, avec les deux règles concurrentes. Par exemple, une séquenceNP – V – NPpeut être analysée commesujet – verbe – objet ouobjet – verbe – sujet, mais les analysessujet – verbe – sujetetobjet – verbe – objetdoivent être écartées.

La règle suivante concerne le traitement des temps verbaux composés. Elle est pour l’instant limitée aux verbes formant le passé composé avec l’auxiliairehaver. Le traite- ment correct des verbes conjugués avecessernécessiterait l’ajout de traits spécifiques dans le lexique.

(110) V P&V P:

LeV P-tête est une instance du verbe auxiliairehaver, et leV P-complément est une forme du participe passé.

(25)

En plus de ces règles de base, deux phénomènes particuliers du romanche sursil- vain donnent lieu à des règles supplémentaires. Le premier concerne les verbes régis- sant des adjectifs prédicatifs (être, paraître). Dans Fips, ces verbes possèdent la sous- catégorisationF P. Une métaprojection par défaut crée un F P à partir d’unDP. Une autre métaprojection, particulière au sursilvain, crée unF P à partir d’unAP :

(M2) AP7→F P:

Cette métaprojection est effectuée uniquement si le AP est réalisé par une forme contenant le traitprédicatif.

(102) V P&F P:

C’est la règle qui attache leF P construit par (M2) auV P. Celui-ci doit possé- der le traitSubjectControlqui indique l’accord de son argument avec le sujet, et leF Pdoit être un argument du verbe.

Le deuxième phénomène particulier concerne les verbes à particules. Comme on l’a vu, les particules sont traitées comme des syntagmes prépositionnels dont le spécifieur droit est vide. De telsP P se rattachent auV P par la règle suivante :

(103) V P&P P:

# LeV Pse réfère au verbe principal, leP Pest de typeparticule, et l’entrée lexi- cale du verbe possède le sous-type de la particule.

Cet ensemble de règles constitue un fragment important de la syntaxe du romanche sursilvain. Cependant, les règles peuvent être raffinées de plusieurs points de vue, comme cela a été indiqué. On devra également étudier plus en détail les différents élé- ments à droite duV Ppour pouvoir gérer, dans l’ordre correct, la présence conjointe de compléments d’objet, d’ajouts adverbiaux et prépositionnels dans la même phrase.

6 Conclusion

L’objectif de ce travail était de lancer une première investigation sur le traitement au- tomatique du romanche. A ma connaissance, il n’existe pas d’autres études dans ce domaine, concernant cette langue. Si ce document présente le développement d’un analyseur morphologique et syntaxique du romanche sursilvain, accompagné de l’ac- quisition semi-automatique d’un lexique monolingue, d’autres outils informatiques pourraient s’avérer pertinents pour le romanche. Dans les sections suivantes, je ferai quelques suggestions pour des recherches futures.

6.1 Analyseur du Rumantsch Grischun

Etant donné l’essor de la langue unifiée Rumantsch Grischun (RG) ces dernières an- nées, il pourrait être intéressant de développer un analyseur supplémentaire pour cette langue. Le RG est maintenant utilisé dans l’administration cantonale des Grisons, et beaucoup de textes (lois, communiqués de presse, etc.) sont disponibles dans cet idiome. La plupart des lexiques actuels, dont lePledari Grond (www.pledarigrond.

ch), se réfèrent également à cet idiome standardisé, et une grammaire complète du RG

(26)

a été terminée récemment (Caduffet al.2006). L’implantation du RG dans les écoles devrait également promouvoir l’accessibilité de documents textuels dans cette langue.

L’existence plus abondante de données ne facilite pas seulement le développement d’un analyseur, mais lui confèrera également plus d’utilité.

Concrètement, il me semble relativement facile d’adapter l’analyseur sursilvain exis- tant au RG. Les paradigmes morphologiques sont semblables entre les deux langues, ainsi que les structures syntaxiques de base. Le RG ne retient pas certaines structures caractéristiques du sursilvain (comme le-s des adjectifs prédicatifs), mais reprend d’autres structures, comme les pronoms clitiques, des idiomes engadinais. La plus grande partie du travail se situera néanmoins au niveau du lexique, qu’il faudra re- générer entièrement, possiblement sur la base duPledari Grond.

6.2 Lexique bilingue

Avec un lexique monolingue du RG, on pourrait également ajouter des correspon- dances bilingues en vue d’une utilisation du romanche pour la traduction automa- tique. Pour cela, on pourrait exploiter des dictionnaires bilingues disponibles sur in- ternet :www.pledari.chavec des variantes allemand-romanche, français-romanche, italien-romanche et anglais-romanche, ainsi que le dictionnaire très complet www.

pledarigrond.chen allemand-romanche.

6.3 Récolte de corpus textuels

Le journal quotidienLa Quotidianapublie des articles dans les cinq idiomes et en RG.

Si quelques articles brefs sont libres d’accès sur le site internet (www.suedostschweiz.

ch/medien/lq/index.cfm), l’accès à l’intégralité du journal est payant. Il pourrait être intéressant d’acheter un abonnement annuel pour constituer un corpus. Cependant, il faudrait pouvoir assigner à chaque article l’idiome dans lequel il est écrit, pour pouvoir le traiter correctement (cf. ci-dessous).

Une autre source de données est la chancellerie d’Etat des Grisons (www.gr.ch). Elle publie notamment les communiqués de presse du canton dans les trois langues offi- cielles (allemand, romanche, italien). Ceux-ci constituent donc un texte parallèle tri- lingue, qui pourrait servir à créer des modèles de traduction automatique avec des méthodes statistiques. J’ai téléchargé les communiqués des dix dernières années. Mal- heureusement, les textes ne sont pas alignés, et l’alignement texte par texte doit se faire manuellement. Ce travail a été accompli pour la moitié du corpus environ.

D’ailleurs, les deux langues à grande diffusion (allemand et italien) constituent deux

"portes d’entrée" au romanche complémentaires. Si certains phénomènes du ro- manche peuvent être associés plus facilement à la version allemande, d’autres phéno- mènes seront détectés plus facilement avec l’alignement italien. Un tel modèle com- biné pourrait être intéressant pour la recherche en traduction automatique statistique.

(27)

6.4 Détecteur d’idiomes

Les textes deLa Quotidianasont écrits dans différents idiomes. Pour faciliter l’exploi- tation d’un tel corpus, il serait intéressant de disposer d’un détecteur automatique des idiomes. L’approche classique de la détection de langues se base sur des grands cor- pus annotés par langue. On en extrait les fréquences relatives desn-grammes et les compare avec les fréquences de l’échantillon. Si cette approche donne en général des résultats satisfaisants, elle ne me semble pas applicable aux différents idiomes du ro- manche. D’une part, il n’existe pas de corpus d’entraînement dont chaque document est annoté avec l’idiome dans lequel il est écrit. Il faudrait donc créer manuellement un tel corpus. D’autre part, les différents idiomes sont très similaires, et une approche comptant tous lesn-grammes sans distinction ne sera probablement pas assez fine pour obtenir des résultats fiables.

Je propose un système différent qui se focalise sur quelques éléments discriminatifs définis manuellement. Par exemple, les déterminants indéfinis, les verbes auxiliaires et les participes passés apparaissent très fréquemment dans les textes et sont suffisam- ment distincts pour pouvoir servir de critères de classement. En plus de ces critères morpho-syntaxiques, on peut également utiliser des critères orthographiques et pho- nétiques. Ainsi, la présence de lettres à umlaut (ö, ü) ou de la séquences-ch restreint le choix aux idiomes engadinais, tandis que la présence massive de diphthongues ren- voie aux dialectes centraux (surmiran ou sutsilvan). La présence de lettres accentuées (à, ò, è) et la distribution des graphèmestgetch peuvent également servir à distinguer les différents idiomes.

6.5 Remarques finales

Le but de ce travail était de traiter automatiquemment la morphologie et la syntaxe d’un idiome romanche. Dans cette optique, le travail accompli reste à un stade de pro- totype, et beaucoup de travail de détail sera nécessaire pour obtenir un système d’ana- lyse suffisant pour le traitement de phrases courantes. Ce travail de détail concerne- rait avant tout l’interface entre lexique et syntaxe. La plupart des règles syntaxiques surgénèrent – elles admettent des analyses qui ne sont pas grammaticales. Cette sur- génération est en grande partie due à l’absence de traits syntaxiques et sémantiques adéquats dans le lexique. Avant de pouvoir restreindre les règles syntaxiques, il fau- drait alors rajouter les traits relatifs aux lexèmes. Cette tâche ne peut être automatisé avec les données disponibles actuellement. En plus, elle est difficile à effectuer par une personne ne connaissant pas bien la langue.

Pourtant, cette première investigation m’a permis de mieux cerner la nature des langues rhéto-romanches, et de mieux connaître les structures linguistiques d’un idiome particulier. En plus, ce travail était une occasion de me familiariser avec le fonctionnement de Fips en tant que un cadre générique pour le développement d’ana- lyseurs morphologiques et syntaxiques, permettant notamment l’utilisation conjointe de règles développées pour l’allemand et pour les langues romanes, pour un traitement adéquat du romanche.

(28)

Références

Renzo CADUFF, Uorschla N. CAPREZet Georges DARMS:Grammatica d’instrucziun dal rumantsch grischun. Seminari da l’Universitad da Friburg, 2006.

Manfred GROSS: Romanche - Facts & Figures. Lia Rumantscha, Chur, 2004.

John HAIMANet Paola BENINCA: The Rhaetoromance Languages. Routledge, London, New York, 1992.

Georg A. KAISER: Die Verb-Zweit-Stellung im Rätoromanischen. Ein typologischer Ver- gleich. Ladinia, 26(7):313–334, 2002.

Ricarda LIVER: Manuel pratique de romanche. Lia Rumantscha, Chur, 1982.

Ricarda LIVER: Rätoromanisch : Eine Einführung in das Bündnerromanische. Gunter Narr, Tübingen, 1999.

Heinrich SCHMID : Richtlinien für die Gestaltung einer gesamtbündnerromanischen Schriftsprache Rumantsch Grischun. Annalas de la Societad retorumantscha, 102, 1989.

Arnold SPESCHA : Grammatica Sursilvana. Casa editura per mieds d’instrucziun, Cuera, 1989.

Références

Documents relatifs

Décomposez le nom « autobiographie » et trouvez des mots qui contiennent les mêmes éléments de construction (le même préfixe, le même radical, le même suffixe).. Déduisez-en

Les mots dérivés sont construits à partir des mots simples auxquels on ajoute des éléments : les préfixes.. et

8 Souligne en rouge les mots dont les suffixes expriment un diminutif et en vert ceux dont les suffixes expriment une action.. napperon séparation

8 Souligne en rouge les mots dont les suffixes expriment un diminutif et en vert ceux dont les suffixes expriment une action.. napperon séparation

Colorie le dessin en respectant l’orthographe des mots.. :

Colorie le dessin en respectant l’orthographe des mots2. rouge e

Colorie le dessin en respectant l’orthographe des mots3. e féminin singulier _

8) Le préfixe in s’adapte selon le début du mot auquel il est joint, il peut devenir in, im, ir, il. Re se trouve devant un mot commençant par une consonne, ré ou r se