• Aucun résultat trouvé

Langues sans séparateur typographique pertinent

3.4 En conclusion

5.1.2 Langues sans séparateur typographique pertinent

Pour les langues ne disposant pas de marques de segmentation évidentes, il ne s’agit plus à proprement parler de tokenisation mais desegmentation. Parmi ces langues, il y a celles qui

utilisent un système d’écriturescriptio continua (comme le chinois, le thai, le lao, etc.), et les

langues isolantes utilisant l’espace comme séparateur sans pour autant marquer des frontières entre des unités qui sont des UTE raisonnables (par exemple le vietnamien 4).

De nombreux algorithmes pour la segmentation des langues ont été décrits dans la littéra- ture. Seules les approches non supervisées, et donc susceptibles d’être plus indépendantes de la langue, nous intéressent ici. Les systèmes non supervisés n’utilisent que des données brutes pour essayer d’induire une segmentation à partir de la distribution des caractères observés dans le corpus. On pourra se rapporter à Magistry (2013) pour un état de l’art complet sur les différentes techniques utilisées en segmentation non supervisée.

Le système de segmentation non supervisé de Magistry (2013) est basé sur la variation d’en- tropie de branchement normalisée (Normalised Variation of Branching Entropy, ou NVBE),

couplée au principe de longueur de description minimale (Minimum Description Length, ou

MDL). Bien qu’initialement développée pour la segmentation du chinois pour laquelle elle était, à l’heure de notre recherche, au niveau de l’état-de-l’art 5, Magistry (2013) indique que cette méthode pourrait obtenir des performances similaires sur d’autres langues sinitiques. Cette méthode a également été testée sur des langues ayant des systèmes d’écriture à domi- nante cénémique dont notamment le français, pour lequel les espaces ont été au préalable éliminés. Formellement, la différence majeure réside dans le fait que la taille de l’ensemble des symboles d’entrée est significativement plus petite (plusieurs milliers pour le chinois manda- rin, quelques douzaines pour les systèmes d’écriture dit cénémiques). La figure 5.1 présente 4. À l’origine, le vietnamien utilisait plusieurs systèmes d’écritures différents (leschữ Hán et chữ Nôm, basés

sur des idéogrammes chinois). À partir du XVIIesiècle, les missionnaires jésuites proposèrent une transcription

du vietnamien avec des caractères latins (Healy, 2012). Cette version romanisée (chữ quốc ngữ ) est l’écriture

officiellement utilisée à l’heure actuelle, et celle à laquelle nous faisons référence. Si les espaces du vietnamien ne sont pas des frontières raisonnables de mots, c’est justement parce qu’il s’agit de transcriptions en alphabet latin d’unités proches de celles désignées par les caractères en chinois.

5. Magistry (2013, p. 130) fait état d’un f-score moyen de 0, 80, alors que le score de référence, détenu par Zhikovet al. (2010) obtenait sur le même ensemble de tests un f-score moyen de 0, 78. À l’heure où nous écrivons,

5.1. SEGMENTATION EN UNITÉS COMPARABLES 83 un exemple de segmentation obtenue pour le français par l’algorithme de Magistry (2013). Cette segmentation comporte de nombreuses erreurs. La sur-segmentation sur les frontières de morphèmes est probablement liée à la richesse de la morphologie (Magistry, 2013, p. 163). Pour autant, compte tenu du caractère entièrement non-supervisé de l’approche utilisée, le résultat reste honorable.

Figure 5.1 – Extrait d’un exemple de segmentation NVBE sur le français (Magistry, 2013, p. 177).

En même temps ,le contrôle del’ exercice du métier se fait plus ri g our eux ,t ant sur letitre du métal précieux employé que sur l esqualités re qui ses del’ orfèvre qui,pour accéder à lamaîtrise ,se voit dansl’ obligation , désormais clairement spécifi ée, de fournirun che f d’oeuvre .

En l’absence de comparaison des scores de cet algorithme de segmentation appliqué à d’autres langues, nous ne pouvons affirmer catégoriquement qu’il s’agit d’une solution universelle. Nous avons malgré tout choisi de l’utiliser dans nos expériences pour le chinois, langue pour laquelle il a été initialement développé et évalué comme de niveau état-de-l’art. Nous souli- gnons le fait que sur certaines langues qui, comme le français, ont une morphologie relative- ment riche, cette solution ne serait probablement pas optimale.

En utilisant cette solution, à la phrase en chinois du corpus brut : 特别是工作了近三四年的人也无机会。

(lit. « En particulier, les gens qui travaillent depuis environ 3 ou 4 ans n’ont pas d’opportu- nité. »), l’algorithme de Magistry (2013) propose la segmentation (les espaces ont été rempla- cées par des points) :

特别是 • 工作 • 了 • 近 • 三 • 四 • 年 • 的 • 人 • 也 • 无 • 机会 • 。 Ce découpage regroupe les unités du texte ainsi :

particulièrement être • travail •⟨pst⟩• approximativement • 3 • 4 • an • ⟨gen⟩ • homme • aussi • ⟨neg⟩ • opportunité.

Concernant la segmentation en phrases, cette dernière a été effectuée simplement à l’aide de la ponctuation finale, ou était déjà disponible, notamment en ce qui concerne le corpus géné- rique.

Une fois la segmentation en tokens et en phrases effectuée, nous avons recalculé la taille des corpus utilisés pour nos tests (tableau 5.1). Les différences entre le nombre de tokens contenu dans les corpus segmentés génériques et de spécialité ne dépassent pas±20%. La suite des

84 CHAPITRE 5. PRÉ-TRAITEMENTS TEXTUELS

pré-traitements ne fera pas varier ces comptes.

Table 5.1 – Taille des corpus après pré-traitements textuels.

Langue lignes tokens caractères Diff. entre spec. et gen. (%)

(code ISO) ligne token char.

ara spec. 14381 345562 3562317 0,9 7,4 1,9 gen. 14514 371119 3628526 deu spec. 370358 5667001 37361623 -5,8 12 9,1 gen. 348883 6349289 40745951 eng spec. 558384 11255706 60675716 2,4 8,1 7,3 gen. 571634 12171254 65130918 fra spec. 166215 3744155 21425743 14,8 17,8 15,5 gen. 190873 4412071 24744023 pol spec. 29026 462160 3124833 5,7 -16,6 -18 gen. 30666 385309 2562183 tur spec. 50597 764441 6202242 51,7 6,4 -5,4 gen. 76764 813669 5869526 zho spec. 56153 1166760 6610601 -18,5 -8,4 -16,4 gen. 45750 1068830 5528637

5.2

Sous-spécification sémantique

Cette phase de pré-traitement, qui a lieu après la tokenisation, vise à trouver un compromis raisonnable entre (1) n’importe quel type de mot sémantique ayant sa place dans des ressources de traduction ou onto-lexicales et (2) une version latitudinaire du mot morphologique. Ce pré-traitement s’appliquera à des langues disposant de procédés morphologiques complexes afin de limiter les effets de dispersion des données.

Nous avons abordé précédemment (voir notamment la section 3.4) les avantages de sous- spécifier des unités en les amputant d’une partie de leur information, quitte à créer de l’in- certitude. Par ailleurs, nous partons de l’approximation selon laquelle un token informé peut être assimilé à une unité sémantique ou à un composant d’unité sémantique porteur de sens. Il s’agira donc d’identifier de façon automatique les parties d’un token informé qui portent suffisamment d’information sémantique pertinente, pour pouvoir se débarrasser du reste. La proposition faite par Anderson (1992, p. 71) ou Allwoodet al. (2010) consiste à extraire des

unités à mi-chemin entre mots et morphèmes : les radicaux (en anglais,stems). Ces derniers

sont des « mots, moins les affixes flexionnels (productifs) ». À la différence des racines qui sont irréductibles, les radicaux sont des formes prises par la racine dans des réalisations diverses. Cette proposition constitue en effet un compromis raisonnable pour unifier, dans l’approche ascendante, les unités de traitement élémentaires qui nous intéressent, à la différence près que nous souhaitons également retirer les affixes dérivationnels ou tout autre élément issu d’un

5.2. SOUS-SPÉCIFICATION SÉMANTIQUE 85