Chapitre 4 Caractérisation des sous-langages
4.3 Une taxonomie possible des sous-langages
4.3.1 Mesures possibles
On peut améliorer la mesure du TTR en évaluant essentiellement deux critères, la complexité
lexicale et la complexité syntaxique.
4.3.1.1 Complexité lexicale
Nous mesurons la complexité lexicale par (1) le nombre total de lemmes, (2) le nombre total de
lexèmes (total des nombres de formes orthographiques d’un lemme
25). Le quotient du deuxième
nombre par le premier donne une information sur le coefficient d’expansion dictionnairique, la taille
du vocabulaire et sa croissance.
Voici certaines valeurs typiques (chacune illustrée par un exemple) :
500 Nombre de lemmes pour l’occasion automobile dans CATS
2000 Nombre de lemmes pour l’immobilier à Amman dans CATS
3000 Nombre de lemmes dans le système METEO de traduction de bulletins météo
10.000 Nombre de termes techniques spécialisés en aéronautique pour un avionneur
2620.000 Nombre de tous les termes techniques en aéronautique pour un avionneur
50.000 Nombre de lexies dans un dictionnaire d’usage comme le FEM (français-anglais-malais)
100.000 Nombre de termes dans un système de TA généraliste de base
Tableau 11 : mesure de la complexité lexicale
Par exemple, dans CATS (voir section 2.2.3.3.3) et pour l’ensemble de ses domaines (automobile,
immobilier, emplois, divers), le nombre de lemmes est d’environ 10.000 et celui des lexèmes est
d’environ 30.000, ce qui donne un coefficient d’expansion égal à 3. Concernant le domaine de
l’automobile, la taille du dictionnaire est de l’ordre de 2000 entrées et varie très faiblement dans le
temps. En effet, ce n’est qu’après une longue période qu’il y a un nouveau modèle de voiture qui
apparaît. Par contre, le dictionnaire du domaine de l’immobilier est beaucoup plus grand et sa taille
varie plus rapidement, car non seulement on ajoute des noms de villes et de rues pour étendre son
25
Par exemple, CLEF a deux formes (standard) « clef » et « clé », et ALPHA-ROMÉO peut avoir «
Alpha-Roméo » et « Alfa-Alpha-Roméo » (avec erreur typique du sous-langage).
26
Dans les années 70-80, le terme « avionneur » désignait surtout un « équipement d’avion ». Depuis, il
semble surtout désigner un conducteur d’avions.
usage, mais aussi on y ajoute des noms de nouvelles constructions qui apparaissent fréquemment (ex :
« immeuble Total »).
Cela nous conduit à définir la notion de mise à jour du vocabulaire, qui dépend du domaine traité.
Pour celui de l’automobile, un entretien annuel est donc nécessaire. Par contre, pour l’immobilier, un
entretien doit être fait chaque fois que l’on ajoute une ville.
Nous classons le vocabulaire traité en classes et sous-classes sémantiques en regardant la variation
de la taille du dictionnaire en fonction de la taille du corpus.
Par exemple, dans CATS et pour le domaine de l’automobile, on peut trouver les classes et les
sous-classes sémantiques suivantes :
Classe verbe = {vendre, acheter, échanger… }
Classe vehicule = { voiture, bus,… }
Classe marque = { Mercedes, Renault, Peugeot… }
Classe couleur = { noire, bleue… }
Classe année = { 96, 95… }
Sous-classe année = { avant, après… }
Figure 35 : quelques classes et sous-classes pour le domaine de l'automobile dans CATS
Nous pouvons avoir un autre type d’information qui concerne la difficulté lexicale. Nous utilisons
l’échelle suivante :
Facile Le vocabulaire n’est pas à traduire.
Plus ou moins translittérés Présence de mots ou d’expressions étrangers (d’une autre langue mais
saisis dans la même langue), ce qui augmente le coefficient d’expansion
Difficile à comprendre Vocabulaire très spécifique
Difficile à traduire Difficile à comprendre, ou difficulté à trouver l’équivalent dans la
nouvelle langue
Tableau 12 : mesure de la difficulté lexicale
4.3.1.2 Complexité syntaxique
4.3.1.2.1 Longueur des énoncés
Nous mesurons la complexité syntaxique par la longueur des phrases utilisées. Nous calculons la
longueur des phrases par bloc (par exemple de 100 phrases). Cette information donne une idée sur le
type des phrases utilisées.
Très courte =< 6,5 mots/phrase (comme le BTEC en anglais, des phrases de voyage)
Courte ]6,5..8] mots/phrase
Assez courte ]8..10] mots/phrase (comme le domaine de l’automobile dans CATS)
Moyenne ]10..15] mots/phrase
Peu longue ]15..20] mots/phrase
Assez longue ]20..25] mots/phrase
Longue ]25..35] mots/phrase
Très longue ]35..60] mots/phrase
Extrêmement longue > 60 mots/phrase
Tableau 13 : mesure de la longueur des énoncés
Par exemple, dans CATS, la longueur moyenne des phrases est de l’ordre de 9 mots pour le
domaine de l’automobile, et de 12,5 mots pour le domaine de l’immobilier. Ce sont des phrases
simples et parfois même pas des phrases, mais des suites de groupes nominaux sans verbe, comme le
montre l’exemple suivant.
4.3.1.2.2 Complexité grammaticale
Nous examinons aussi la structure et l’organisation des énoncés. Les phrases peuvent être simples,
composées, imbriquées… Il peut y avoir ou non des constructions de type extraposition, anaphore,
ellipse, et de la phraséologie spécifique (outre le vocabulaire).
Nous prendrons comme points de repère pour la complexité syntaxique :
Très simple Liste de groupes élémentaires
Simple Pas plus d’un niveau de subordination, pas d’imbrication/enchâssement
central
Moyennement complexe Possibilité d’imbrications, coordinations et énumérations, anaphore
intraphrastique
Complexe Possibilité d’anaphore extraphrastique, d’ellipse, d’extraposition, etc.
Tableau 14 : mesure de la complexité syntaxique
4.3.1.2.3 Convergence grammaticale
La convergence grammaticale est inversement proportionnelle au nombre de lignes de la
grammaire utilisée. Nous constatons les cas de convergence suivants :
Grammaire très peu
convergente
Pas de sous-langage
Grammaire peu convergente Mélange de sous-langage et de la langue standard
Grammaire rapidement
convergente
Gros sous-langage, pas de langue standard, cas d’un manuel
d’entretien
Grammaire très rapidement
convergente
Petit sous-langage, cas de MÉTÉO, AltFlash (traducteur de NTT
JE pour les « brèves » du Nikkei –la bourse de Tokyo), CATS
Tableau 15 : mesure de la convergence grammaticale
4.3.1.2.4 Convergence lexicale
La convergence lexicale est liée au nombre de nouveaux motifs ou mots qui apparaissent dans le
temps. Nous utilisons les mesures suivantes en précisant qu’il s’agit ici de page standard (250 mots) :
Lexique très peu convergent 1 mot/page après 5000 pages, cas de l’encyclopédie EOLSS
(http://www.eolss.net/)
Lexique peu convergent 1 mot/10 pages après 5000 pages
Lexique rapidement
convergent
1 mot/100 pages après 5000 pages
Lexique très rapidement
convergent
1 mot/1000 pages après 5000 pages
Tableau 16 : mesure de la convergence lexicale
4.3.2 Etude de quelques sous-langages
Dans le document
Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle
(Page 95-98)