• Aucun résultat trouvé

Portabilité des processus entre les langues

2.2 Extraction terminologique et diversité linguistique

2.2.2 Portabilité des processus entre les langues

Les extractions bilingues ou multilingues sont le plus souvent des processus d’extraction monolingues menés en parallèle, dont on relie les résultats via des liens de traductions dé- terminés de différentes manières. Un écueil courant dans la littérature relative à l’extraction terminologique automatique consiste à déclarer qu’une technique utilisant des outils linguis-

2.2. EXTRACTION TERMINOLOGIQUE ET DIVERSITÉ LINGUISTIQUE 41 tiques fortement dépendants d’une langue puisse mener à une extraction indépendante de la langue. Les méthodes linguistiques ou hybrides sont monolingues, ou au mieux, faiblement multilingues, dès lors que les outils linguistiques utilisés en pré-traitement le sont également. Ces dernières doivent au moins redéfinir les étiquettes morpho-syntaxiques et les patrons des règles utilisées d’une langue à l’autre. Un exemple concret concerne la proposition de Valderrá- banoset al. (2002), qui s’adresse à l’extraction de termes médicaux à visée d’indépendance de

la langue. Bien que leur approche réduise les coûts de développement pour chaque langue envisagée (à savoir l’allemand, l’anglais, l’espagnol et le français) par rapport à une approche traditionnelle utilisant un étiqueteur morpho-syntaxique, le fait qu’il s’agisse de langues ty- pologiquement proches d’une part, et du domaine médical 3 d’autre part, interroge sur la por- tabilité de leur technique à d’autres langues, non européennes, ainsi qu’à d’autres domaines. Les méthodes qui s’appuient sur des outils statistiques ou probabilistes, parfois combinés dans des approches d’apprentissage automatique, semblent pouvoir offrir une plus grande latitude quant à des applications multilingues (Daille & Blancafort, 2013), mais ce n’est pas toujours le cas. Il arrive que des méthodes valables pour un ensemble de langues ne le soient pas pour d’autres. C’est ce que déplorent Grigonytėet al. (2011) et Pinnis et al. (2012), notamment

en ce qui concerne l’extraction terminologique de langues à morphologie très riche comme le letton, le croate ou le lituanien. De la même manière, Daille & Blancafort (2013) indiquent que pour l’allemand, l’approche statistique possède les même défauts que l’approche traditionnelle état-de-l’art (utilisant un étiqueteur morpho-syntaxique et des règles définies manuellement) utilisée pour la comparaison.

3. Beaucoup de termes médicaux dans les langues européennes sont issus de racines latines et grecques, ce qui en fait encore un cas particulier d’extraction terminologique.

Chapitre 3

Vers l’independance de la langue

Sommaire

3.1 Systèmes d’écriture . . . 47 3.2 Questions Morphologiques . . . 50 3.2.1 La nature des concepts . . . 51 3.2.2 Techniques de combinaison . . . 52 3.2.3 Complexité interne . . . 55 3.2.4 En résumé . . . 56 3.3 Ordre des mots . . . 58 3.4 En conclusion . . . 60

44 CHAPITRE 3. VERS L’INDEPENDANCE DE LA LANGUE

I

l est généralement considéré qu’il existe plus de 7 000 langues, classifiées en environ 150 familles. Parmi ces dernières, 24 macro-langues 1 comptent à elles seules près de 50 millions de locuteurs natifs 2. Dans ce vaste horizon, imaginer des traite- ment indépendants de la langue relève de l’utopie. En revanche, s’intéresser à des démarches qui peuvent maximiser le nombre de langues différentes traitables devient un but ambitieux, mais raisonnable. Par abus de langage, nous entendons donc concrètement par « traitement indépendant de la langue » tout traitement pouvant s’appliquer à une grande variété de lan- gues. Bien que cette approximation s’avère hasardeuse, elle n’en est pas moins acceptable au regard de la logique typologique qui sous-tendra notre approche.

Nous avons vu à la section 2.2.2 que les différences principales entre les méthodes d’extrac- tion terminologique issues des communautés de linguistes et les méthodes de recherche d’in- formation issues des sciences de l’information, sans affiliation théorique, relevaient de l’im- portance donnée à la nature des termes extraits.

Dans un cas, ces derniers sont très codifiés, aussi bien sur le fond que sur la forme, et les cri- tères determhood et d’unithood sont centraux. Ces méthodes sont très peu multilingues et

requièrent des efforts considérables pour une adaptation à une langue nouvelle.

Dans l’autre cas, il suffit à ces termes d’être pertinents pour une application donnée, quels que soient leurs signifiés ou leurs éventuels liens avec une thématique. Cette quasi indifférence sur la nature des objets manipulés rend ces méthodes potentiellement utilisables sur n’importe quelles données textuelles disposant « d’unités raisonnables ».

Dans l’idéal, concilier le meilleur des deux mondes devrait permettre à la fois d’extraire des termes pertinents au regard d’un domaine sur un grand nombre de langues, sans coût d’adap- tation exorbitant. Or, si nous ne désirons pas nous appuyer sur des informations linguistiques fastidieuses à obtenir, nous ne souhaitons pas non plus traiter des données brutes sans au préa- lable comprendre quelles pourraient être les « unités raisonnables » et pourquoi. Comme cela a déjà été abordé dans les chapitres précédents, un des principaux problèmes auxquels nous sommes confrontés dans notre recherche pour le développement d’un système d’extrac- tion terminologique multilingue concerne la sélection des unités minimales de traitement. Ces dernières ne sont pas équivalentes dans toutes les langues, que ce soit d’un point de vue typographique (section 3.1) ou morphologique (section 3.2). Pour cette raison, un aperçu typologique des cas de figure possibles s’impose avant de décider comment seront en réalité pré-traitées nos données textuelles.

Qui plus est, la perspective de réutiliser pour d’autres langues des modèles d’extraction terminologique qui ont fait leurs preuves dans une langue donnée nous poussera également 1. Une macro-langue est définie comme étant « un ensemble de langues fortement apparentées, que l’on suppose être dans certains contextes d’usages, une seule langue » (norme ISO 639-3).

45

à examiner la typologie relative à l’ordre d’apparition des différents éléments dans la phrase (section 3.3).

Approcher ces questions via un angle typologique, comme le préconise Bender (2011), permet d’intégrer des connaissances linguistiques globales à même de factoriser certains trai- tements, sachant quelles sont les propriétés partagées des langues, ou au contraire, ce qui les éloigne. Un autre intérêt du passage en revue de certaines connaissances typologiques est que la sélection de l’ensemble de langues pour les tests et les évaluations en est facilité.

Qu’est-ce qu’une typologie ?

La typologie est un outil conceptuel universel qui trouve sa place dans n’importe quel do- maine de la linguistique, sans rapport avec aucune affirmation théorique 3 ou aucun principe d’explication ; il s’agit uniquement d’une description (Moravcsik, 2007).

Ses objets principaux sont la catégorisation et la classification de notions translinguistique- ment comparables, en association avec d’autres paramètres telles que les familles de langues, leur localisation géographique, etc. Une typologie qui s’intéresse à un ensemble de phéno- mènes apparentés envisage généralement la diversité et l’uniformité de ce qui est observé dans différents référentiels linguistiques (une langue, un ensemble de langues, ou « toutes les langues »).

Plusieurs démarches sont possibles dans le cadre d’investigations typologiques (Nichols, 2007) : Il peut s’agir uniquement de collecter des hypothèses, auquel cas la typologie est utilisée dans un cadre théorique neutre et menée sur un petit échantillon de langues ; il peut également s’agir de vérifier des hypothèses, auquel cas la typologie prend en compte une ou des théories linguistiques sur de plus gros échantillons de langues pour trouver des corrélations statistiques significatives entre ses différents paramètres.

Dans les deux cas, on statue sur des généralisations dont les modalités peuvent être abso- lues (par exemple «Pour to l mots angla , s’ils commencent par tro consonn , alors la première est un /s/ ») ou, plus souvent, statistiques ou probabilistes (par exemple « Dans la plupart d langu , s’il existe une distinction de genre pour l pronoms pluriels, alors il existe aussi une distinction de genre pour l pronoms singuliers. ») (Moravcsik, 2007).

À la différence des théories linguistiques, qui poursuivent des buts d’abstractions souvent difficiles à atteindre pour distinguer l’universel du possible, si des universaux sont identifiés dans le cadre d’une typologie linguistique, il s’agit d’un effet de bord des observations. Au- trement dit, bien qu’il soit souvent question en typologie d’« universaux », il s’agit en réalité 3. Il arrive cependant régulièrement que les typologues établissent leurs généralisations en s’appuyant sur des théories linguistiques, obtenant alors des données artificielles. Polinsky & Kluender (2007) soulignent néan- moins que des données ainsi obtenues sont utiles au même titre que des données apparaissant naturellement.

46 CHAPITRE 3. VERS L’INDEPENDANCE DE LA LANGUE

de grandes tendances, d’universaux non encore contredits, ou rarement remis en cause. Toute description typologique est donc sujette à caution, quelle que soit la divergence entre la ca- tégorie typologique d’une langue et les exceptions qui en ressortent. Comme nous le verrons dans les sections suivantes, il arrive souvent qu’une langue puisse avoir plusieurs valeurs pour un trait typologique donné : soit que cette variable change en fonction de ses contextes d’uti- lisation, soit que les données observées souffrent en réalité d’un artefact, soit encore que la question typologique ne soit pas pertinente.

Une fois énoncé le prémisse qu’une typologie ne fait généralement pas référence à des uni- versaux mais plutôt à des grandes tendances à travers les langues, notre point de vue surl’in- dépendance de la langue en est clarifié. Partant de ça, notre recherche sera orientée vers un

traitement typologique de l’extraction terminologique.

Traits typologiques pertinents

Typically, when we think of linguistic knowledge-based NLP systems, what comes to mind are complicated, intricate sets of language-specifc rules. While I would be the last to deny that such systems can be both linguistically interesting and the best approach to certain tasks (cf. Uszkoreit (2002)), my purpose here is to point out that there are other kinds of linguistic knowledge that can be fruitfully incorporated into NLP systems. In particular, the results of linguistic typology represent a rich source of knowledge that, by virtue of being already produced by typologists, can be relatively inexpensively incorporated into NLP systems.

Bender (2011, p. 6)

La barrière de la langue ne peut pas être franchie en utilisant des correspondances iso- morphes entre des termes. Les langues sont tout à la foisinfluencé par et vecteur de culture

et d’identité, comme s’attellent à le démontrer plusieurs études relevant du relativisme linguis- tique (Whorf, 1940 ; Gumperz & Levinson, 1996 ; Gilbertet al., 2006).

Les motivations pour s’intéresser à une extraction terminologique indépendante de la langue sont nombreuses. Les techniques d’extraction terminologique courantes sont difficiles à ap- pliquer à de gros corpus textuels bruités comme les verbatim récoltés à l’issue d’enquêtes in- ternationales auprès d’employés. En cause, la qualité et la diversité des données obtenues, et ce même lorsque ces données sont recueillies dans une langue disposant de nombreux ou- tils de traitement automatique. Par exemple, un analyseur syntaxique état de l’art peut ob-

3.1. SYSTÈMES D’ÉCRITURE 47 tenir de mauvais résultats sur des textes tout-venant (l’ambiguïté morphologique, un ordre des constituants flexible, la créativité, les fautes d’orthographe et de grammaire étant les prin- cipales raisons) (Tsarfatyet al., 2010). De tels outils peuvent également dépendre d’autres

tâches telles que la segmentation (par exemple pour le chinois) ou l’analyse morphologique (par exemple pour l’arabe).

Nous sommes donc intéressés par les traits élémentaires qui permettent de normaliser le traitement de textes en différentes langues tout en faisant un usage minimal d’outils de trai- tement automatique. Notre principal objectif consiste à traiter de larges corpus de textes re- levant d’un domaine particulier, et écrits dans des langues disposant de systèmes d’écritures établis et pouvant être numériquement encodés. Il est donc important pour la suite de sélec- tionner un ensemble de traits typologiques pouvant faciliter une extraction terminologique qui se veut indépendante de la langue.

Les premiers critères typologiques auxquels nous nous intéresserons sont relatifs aux spé- cificités des systèmes d’écriture. Ces derniers constituent un important paramètre dès lors que l’on souhaite traiter du texte, comme déjà évoqué au chapitre 1. Cela fera l’objet de la section 3.1.

Les seconds critères typologiques, linguistiquement plus pertinents, mais toujours contro- versés, concerneront les disparités au niveau morphologique. Cette thématique, liée aux pro- blèmes de segmentation et de dispersion des données, sera traitée à la section 3.2.

Enfin, nous nous intéresserons à la typologie de l’ordre des mots, qui sera abordée à la section 3.3.

Cette revue succincte de quelques traits typologiques permettra non seulement de regrou- per des langues comparables, mais également de choisir sur quelles bases sélectionner les uni- tés minimales qui serviront à notre analyse. En effet, la question du découpage en unités de traitement primaires paraît triviale pour les langues disposant d’une segmentation enmots ty- pographiqu . Elle est néanmoins épineuse pour les autres, comme nous l’avons vu à la section

1.2.1.

3.1

Systèmes d’écriture

Les systèmes d’écriture sont des conventions non idiosyncrasiques et arbitraires utilisées pour transcrire des énoncés. Ils peuvent être décodés par n’importe quel locuteur natif en- traîné. Ils sont généralement considérés comme secondaires par les linguistes, leur préoccu- pation principale relevant plus des systèmes phonologiques. Cependant, le traitement auto- matique des langues repose sur des textes utilisant différents systèmes d’écriture. Dès lors que

48 CHAPITRE 3. VERS L’INDEPENDANCE DE LA LANGUE

l’on cherche à développer des traitements indépendants de la langue, on ne peut ignorer ce paramètre : il est la première différence visible entre les langues.

Depuis « la première synthèse moderne » par Gelb (1952) de l’histoire des écritures, la ques- tion des modalités d’une typologie des systèmes d’écriture a continué à se poser de façon sub- sidiaire pour certains linguistes généralistes (Catach, 1997). La nomenclature qui revient ré- gulièrement en ce domaine est illustrée dans l’article de Baroni (2011), partiellement résumé dans le tableau 3.1.

Table 3.1 – Synthèse de la typologie des systèmes d’écriture proposée par Baroni (2011)

PLÉRÉMIQUE Morpho- Des pictogrammes ou des idéogrammes Ancien égyptien, (unité sémantique 4) syllabaire tiennent lieu de mots ou de morphèmes chinois

Syllabaire Chaque élément graphique tient lieu de Japonais (kana), syllabe (normalement de type CV) cherokee CÉNÉMIQUE Abjad Les consonnes sont représentées, pas les Arabe,

voyelles (diacritiques vocaliques possibles) hébreu (unité phonique) Alphabet Note dans l’idéal tous les phonèmes Grec, anglais,

d’une langue, idéalement séparément russe

Abugida Syllabaire où les éléments graphiques pour les Sanskrit (devanāgarī), consonnes et les voyelles sont distinguables guèze

« Featural » Alphabet où les formes des signes graphiques Hangeul coréen sont liées à des traits phonémiques distinctifs

Ce classement typologique scinde les systèmes d’écriture en deux grandes familles : les systèmes d’écriture à dominanteplérémiqu , dont une partie significative des éléments tien-

draient lieu d’unités de sens (c’est-à-dire systèmesidéographiqu et logographiqu ), et les sys-

tèmes plutôtcénémiqu , dans lesquels l’expression phonique prévaudrait en règle générale

(c’est-à-dire syllabographiques et phonographiques) (Baroni, 2011). Cette dichotomie sim- pliste indique, comme souvent en typologie, des tendances générales partagées par certains systèmes au sein desquels des ambiguïtés subsistent malgré tout : aucun système d’écriture n’appartient purement à un type, mais chaque système emprunte, dans des proportions di- verses, à chaque type. Par exemple le chinois, dont le système d’écriture a longtemps été quali- fié d’idéographique, a vu son statut remis en question dès lors que la majorité des idéogrammes ont été requalifiés de phonogrammes : l’écriture chinoise pour les langues sinitiques relève 3. Baroni (2011) l’admet en note de bas de page, cette définition de l’unité plérémique est bancale. Son poin- teur bibliographique transfère le lecteur sur Daniels (2003), mais nous préférons diriger notre lecteur vers l’article plus explicite de Lurie (2006) traitant du « mythe idéographique ». Ce dernier relate les étapes des discussions relatives au fait que certains systèmes d’écriture dit idéographiques ne transcrivent pas prioritairement du sens mais avant tout du son (une syllabe).

3.1. SYSTÈMES D’ÉCRITURE 49 plus d’un syllabaire avec beaucoup d’homophones (voir notamment Magistry (2013, p. 50) ou Lurie (2006)). Cette distinction persiste néanmoins dans les typologies des systèmes d’écri- ture malgré les débats.

Toutes les langues encore écrites aujourd’hui utilisent un des systèmes listés dans le tableau 3.1, mais en combinent parfois plusieurs. Par exemple, le japonais utilise les kanjis, les chiffres arabes, les hiragana, katakana et furigana (systèmes syllabographiques), et l’alphabet latin (sys- tème phonographique).

De la même façon, de nombreuses habitudes d’écriture ont émergé récemment avec l’utilisa- tion d’outils technologiques dans les langues européennes telles que l’anglais le français, l’espa- gnol ou l’italien : l’alphabet est parfois supplémenté idéographiquement (par exemple avec le symbole «♡ »), et l’orthographe s’« abdjadifie » à certaines occasions (par exemple « tmb » utilisé en lieu et place de «también » en espagnol) (Baroni, 2011, p. 147). Tous les systèmes

d’écriture continuent d’être façonnés par l’histoire et les besoins des locuteurs qui les utilisent. Depuis l’avènement des technologies de l’information, de nombreuses formes de graphies on du être transposées dans un format numérique. Il existe plusieurs façons parfois contradic- toires d’encoder des ensembles d’éléments graphiques (appelés caractères). Néanmoins, l’in- dustrie des technologies de l’information favorise des normes capables d’encoder universelle- ment tous les caractères. À ce titre, un consensus de plus en plus répandu consiste à utiliser la norme Unicode, un jeu universel de caractères garantissant la stabilité des données encodant les jeux de caractères majeurs sur les plans nationaux, internationaux et industriels.

La norme Unicode offre non seulement la meilleure interopérabilité, mais est aussi un avan- tage en ce qui concerne le traitement automatique de textes :

— elle identifie des catégories de caractères (e.g.Letter, Lowercase ;Punctuation, Dash ; Number, Digit etc.) ;

— elle prend en compte le formatage dans différentes langues ;

— elle permet à des systèmes dédiés d’afficher correctement, en fonction de la langue considérée, les sens d’écriture (sinistroverse ou dextroverse) ;

— n’importe quel code Unicode représente toujours sans ambiguïté le même caractère ; à ce titre, des caractères très similaires issus de différents systèmes d’écriture disposent de codes différents.

L’ensemble des algorithmes développés à l’occasion de cette thèse ont été prévu pour traiter des textes utilisant la norme Unicode sous sa déclinaison la plus utilisée, à savoir l’UTF-8.

50 CHAPITRE 3. VERS L’INDEPENDANCE DE LA LANGUE