• Aucun résultat trouvé

Chapitre 4 Caractérisation des sous-langages

4.3 Une taxonomie possible des sous-langages

4.3.1 Mesures possibles

On peut améliorer la mesure du TTR en évaluant essentiellement deux critères, la complexité

lexicale et la complexité syntaxique.

4.3.1.1 Complexité lexicale

Nous mesurons la complexité lexicale par (1) le nombre total de lemmes, (2) le nombre total de

lexèmes (total des nombres de formes orthographiques d’un lemme

25

). Le quotient du deuxième

nombre par le premier donne une information sur le coefficient d’expansion dictionnairique, la taille

du vocabulaire et sa croissance.

Voici certaines valeurs typiques (chacune illustrée par un exemple) :

500 Nombre de lemmes pour l’occasion automobile dans CATS

2000 Nombre de lemmes pour l’immobilier à Amman dans CATS

3000 Nombre de lemmes dans le système METEO de traduction de bulletins météo

10.000 Nombre de termes techniques spécialisés en aéronautique pour un avionneur

26

20.000 Nombre de tous les termes techniques en aéronautique pour un avionneur

50.000 Nombre de lexies dans un dictionnaire d’usage comme le FEM (français-anglais-malais)

100.000 Nombre de termes dans un système de TA généraliste de base

Tableau 11 : mesure de la complexité lexicale

Par exemple, dans CATS (voir section 2.2.3.3.3) et pour l’ensemble de ses domaines (automobile,

immobilier, emplois, divers), le nombre de lemmes est d’environ 10.000 et celui des lexèmes est

d’environ 30.000, ce qui donne un coefficient d’expansion égal à 3. Concernant le domaine de

l’automobile, la taille du dictionnaire est de l’ordre de 2000 entrées et varie très faiblement dans le

temps. En effet, ce n’est qu’après une longue période qu’il y a un nouveau modèle de voiture qui

apparaît. Par contre, le dictionnaire du domaine de l’immobilier est beaucoup plus grand et sa taille

varie plus rapidement, car non seulement on ajoute des noms de villes et de rues pour étendre son

25

Par exemple, CLEF a deux formes (standard) « clef » et « clé », et ALPHA-ROMÉO peut avoir «

Alpha-Roméo » et « Alfa-Alpha-Roméo » (avec erreur typique du sous-langage).

26

Dans les années 70-80, le terme « avionneur » désignait surtout un « équipement d’avion ». Depuis, il

semble surtout désigner un conducteur d’avions.

usage, mais aussi on y ajoute des noms de nouvelles constructions qui apparaissent fréquemment (ex :

« immeuble Total »).

Cela nous conduit à définir la notion de mise à jour du vocabulaire, qui dépend du domaine traité.

Pour celui de l’automobile, un entretien annuel est donc nécessaire. Par contre, pour l’immobilier, un

entretien doit être fait chaque fois que l’on ajoute une ville.

Nous classons le vocabulaire traité en classes et sous-classes sémantiques en regardant la variation

de la taille du dictionnaire en fonction de la taille du corpus.

Par exemple, dans CATS et pour le domaine de l’automobile, on peut trouver les classes et les

sous-classes sémantiques suivantes :

Classe verbe = {vendre, acheter, échanger… }

Classe vehicule = { voiture, bus,… }

Classe marque = { Mercedes, Renault, Peugeot… }

Classe couleur = { noire, bleue… }

Classe année = { 96, 95… }

Sous-classe année = { avant, après… }

Figure 35 : quelques classes et sous-classes pour le domaine de l'automobile dans CATS

Nous pouvons avoir un autre type d’information qui concerne la difficulté lexicale. Nous utilisons

l’échelle suivante :

Facile Le vocabulaire n’est pas à traduire.

Plus ou moins translittérés Présence de mots ou d’expressions étrangers (d’une autre langue mais

saisis dans la même langue), ce qui augmente le coefficient d’expansion

Difficile à comprendre Vocabulaire très spécifique

Difficile à traduire Difficile à comprendre, ou difficulté à trouver l’équivalent dans la

nouvelle langue

Tableau 12 : mesure de la difficulté lexicale

4.3.1.2 Complexité syntaxique

4.3.1.2.1 Longueur des énoncés

Nous mesurons la complexité syntaxique par la longueur des phrases utilisées. Nous calculons la

longueur des phrases par bloc (par exemple de 100 phrases). Cette information donne une idée sur le

type des phrases utilisées.

Très courte =< 6,5 mots/phrase (comme le BTEC en anglais, des phrases de voyage)

Courte ]6,5..8] mots/phrase

Assez courte ]8..10] mots/phrase (comme le domaine de l’automobile dans CATS)

Moyenne ]10..15] mots/phrase

Peu longue ]15..20] mots/phrase

Assez longue ]20..25] mots/phrase

Longue ]25..35] mots/phrase

Très longue ]35..60] mots/phrase

Extrêmement longue > 60 mots/phrase

Tableau 13 : mesure de la longueur des énoncés

Par exemple, dans CATS, la longueur moyenne des phrases est de l’ordre de 9 mots pour le

domaine de l’automobile, et de 12,5 mots pour le domaine de l’immobilier. Ce sont des phrases

simples et parfois même pas des phrases, mais des suites de groupes nominaux sans verbe, comme le

montre l’exemple suivant.

4.3.1.2.2 Complexité grammaticale

Nous examinons aussi la structure et l’organisation des énoncés. Les phrases peuvent être simples,

composées, imbriquées… Il peut y avoir ou non des constructions de type extraposition, anaphore,

ellipse, et de la phraséologie spécifique (outre le vocabulaire).

Nous prendrons comme points de repère pour la complexité syntaxique :

Très simple Liste de groupes élémentaires

Simple Pas plus d’un niveau de subordination, pas d’imbrication/enchâssement

central

Moyennement complexe Possibilité d’imbrications, coordinations et énumérations, anaphore

intraphrastique

Complexe Possibilité d’anaphore extraphrastique, d’ellipse, d’extraposition, etc.

Tableau 14 : mesure de la complexité syntaxique

4.3.1.2.3 Convergence grammaticale

La convergence grammaticale est inversement proportionnelle au nombre de lignes de la

grammaire utilisée. Nous constatons les cas de convergence suivants :

Grammaire très peu

convergente

Pas de sous-langage

Grammaire peu convergente Mélange de sous-langage et de la langue standard

Grammaire rapidement

convergente

Gros sous-langage, pas de langue standard, cas d’un manuel

d’entretien

Grammaire très rapidement

convergente

Petit sous-langage, cas de MÉTÉO, AltFlash (traducteur de NTT

JE pour les « brèves » du Nikkei –la bourse de Tokyo), CATS

Tableau 15 : mesure de la convergence grammaticale

4.3.1.2.4 Convergence lexicale

La convergence lexicale est liée au nombre de nouveaux motifs ou mots qui apparaissent dans le

temps. Nous utilisons les mesures suivantes en précisant qu’il s’agit ici de page standard (250 mots) :

Lexique très peu convergent 1 mot/page après 5000 pages, cas de l’encyclopédie EOLSS

(http://www.eolss.net/)

Lexique peu convergent 1 mot/10 pages après 5000 pages

Lexique rapidement

convergent

1 mot/100 pages après 5000 pages

Lexique très rapidement

convergent

1 mot/1000 pages après 5000 pages

Tableau 16 : mesure de la convergence lexicale

4.3.2 Etude de quelques sous-langages