• Aucun résultat trouvé

Segmentation sans analyseur morphologique .1 Méthode classique de segmentation par type de caractère

É LABORATION D ’ UN SYSTÈME

3.2 Segmentation sans analyseur morphologique .1 Méthode classique de segmentation par type de caractère

Comme nous l’avons vu dans la section 2.1.8, l’extraction des mots de l’al-gorithme de Kay, basée sur l’existence de séparateurs graphiques, pose des pro-blèmes pour les langues comme le japonais qui ne possèdent pas de signes per-mettant de segmenter les phrases a priori.

Si nous cherchions à segmenter entièrement la phrase, il nous faudrait un sys-tème d’analyse morphologique du japonais, dont l’objectif est justement de seg-menter la phrase. Toutefois, il existe également une méthode classique d’analyse morphologique partielle permettant d’extraire, ne serait-ce que partiellement, les mots graphiques sans aucune connaissance extérieure, appelée segmentation par type de caractère1. En effet, il est possible de reconnaître la plupart des mots lexi-caux en profitant d’une particularité du système d’écriture du japonais qui utilise trois types de caractères différents selon la nature des mots : hiragana, katakana et kanji2.

– hiragana : premier syllabaire japonais souvent utilisé pour représenter la partie variable des mots variants et les mots grammaticaux ;

– kanji : idéogrammes utilisés pour représenter les mots lexicaux et les radi-caux ayant un sens ;

– katakana : second syllabaire japonais employé pour la transcription des mots emprunts des langues étrangères (à l’exception du chinois).

Ainsi, comme le montre la figure 3.1 (voir page suivante), il est possible de re-connaître la plupart des mots lexicaux en extrayant les séquences de kanji ou de

katakana. C’est d’ailleurs une des méthodes de segmentation utilisée pour

l’ana-lyse morphologique. Néanmoins, il existe de nombreuses exceptions telles que le cas où le changement de type de caractère se trouve à l’intérieur d’un mot. Il est donc impossible de couper totalement de manière correcte une phrase unique-ment avec cette méthode.

Toutefois, étant donné, comme nous l’avons vu précédemment, que nous n’avons besoin justement que des mots lexicaux pour l’algorithme de distribution lexicale, et que l’extraction peut même ne pas être complète – puisque ce n’est pas

1Pour une présentation de cette méthode, se référer au « Chapitre II : Méthode de segmenta-tion » de Nakamura-Delloye (2003a).

2Pour plus de détails sur le système d’écriture du japonais, voir le « Chapitre I : Notions de lin-guistique japonaise » dans Nakamura-Delloye (2003a).

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

明日 モンパルナス で 大学 の 友人 と 食事 する

Katakana Hiragana Kanji

Montparnasse

«!Demain, je prendrai un repas avec des amis de l’université à Montparnasse!»

université

Demain à faire

(partie var.)

de ami avec repas

(radical)

- - - - - - -

-FIG. 3.1 – Phrase japonaise constituée de trois types de caractères

notre objectif principal –, cette méthode est sans aucun doute tout à fait suffisante pour notre système.

3.2.2 Amélioration proposée par Rayon

Rayon (2003) propose une amélioration de cette méthode de segmentation par type de caractère : par examen du contexte droit des séquences de kanji, l’auteur crée des règles permettant d’identifier à partir de leur contexte droit, la catégorie grammaticale de séquences de kanji et de rajouter, lorsqu’il s’agit d’un mot va-riable, la terminaison constituée de caractères hiragana. Son système réalise non seulement l’étiquetage des séquences de kanji extraites – éventuellement avec l’identification de leur terminaison –, mais aussi la lemmatisation des mots va-riables.

Mais, les deux problèmes principaux de ce type de segmentation n’ont pas été résolus. Premièrement, quand le changement de type de caractère se trouve à l’in-térieur d’un mot, le système est incapable de l’identifier en tant qu’une unité et le segmente en autant de morceaux qu’il y a de changements de type de caractère. Par exemple, le mot½#(so-ren, URSS) est segmenté entre½(so) en katakana et

#(ren) en kanji.

Deuxièmement, quand la frontière entre les deux mots composants n’est pas marquée par un changement de type de caractère, le système reconnaît la sé-quence comme un seul mot sans réaliser la segmentation adéquate. Par exemple, la séquenceû — W (den-ki-ten-gai, quartier de l’électronique grand public) est reconnue comme un mot, alors qu’elle aurait dû être segmentée plutôt en trois éléments,û (den-ki, électricité),(ten, magasin) etW(gai, quartier). De même, un adverbe constitué entièrement en kanji sans être suivi d’une particule se retrouve inclus dans le mot qui le suit. La séquenceB !'k

(toki-doki-mu-shô-ni) est constituée de deux adverbes,B (toki-doki, parfois) et!'k

(mu-shô-ni, extrêment), mais le premier étant entièrement en kanji, le système n’a pas pu reconnaître la frontière entre ces deux adverbes.

Pour l’appariement grossier des mots réalisé dans le cadre de l’alignement de 96

3.2. Segmentation sans analyseur morphologique

phrases, l’étiquetage et la lemmatisation sont des opérations non indispensables. En effet, la méthode d’alignement des mots basée sur la comparaison de leur dis-tribution – proposée par Kay (voir la section 2.1) – est caractérisée par l’analyse morphologique partielle qui précède l’opération d’appariement, et réalise l’ali-gnement des unités correspondant seulement aux parties porteuses de sens (ra-dicaux) et ce sans faire de distinction des mots selon leur catégorie. En revanche, les questions de segmentation non résolues représentent un problème non négli-geable car elles risquent d’entraîner la correspondance d’un mot graphique japo-nais avec deux ou plusieurs mots du texte français, ou l’inverse.

Nous devons donc trouver une autre solution qui convienne mieux à notre opération d’alignement.

3.2.3 Notre amélioration pour la segmentation des mots composés

Le second problème décrit précédemment portait sur les séquences de mots composés constituées de plusieurs substantifs juxtaposés les uns derrière les autres. Dans ce type de séquence, généralement entièrement en kanji ou en

kata-kana, la frontière entre les deux mots composants n’est pas marquée par un

chan-gement de type de caractère. Mais, il nous paraît possible de traiter ces séquences avec la méthode utilisée pour l’étape morphologique dans l’algorithme de Kay & Röscheisen (1993), méthode que nous avons adoptée pour l’étape de lemmati-sation des mots français dans notre système. Elle consiste, comme nous l’avons déjà vu, à trouver les sous-chaînes préfixales ou suffixales communes à plusieurs formes effectives des mots graphiques et à déterminer les radicaux, porteurs de sens. Il s’agit donc de la recherche des sous-chaînes préfixales communes à plu-sieurs formes effectives. La différence dans le cas du japonais est que les parties restantes ne sont pas des suffixes mais un ou même plusieurs autres mots portant eux-mêmes un sens propre. On obtient donc à partir d’un mot graphique ab, non pas sa forme de base a, mais deux formes de base a et b.

Unité minimum

Mais la division d’un mot constitué de plusieurs kanji en plus petites unités munies de sens, donnerait un nombre de morphèmes exactement égal au nombre de kanji, puisque posséder un sens est la nature même des idéogrammes.

Malheureusement, un kanji correspond rarement à un mot graphique des langues occidentales. Par exemple, le terme « politique » en japonais est consti-tué de deux kanji : « affaires de l’État » et « assumer » ; de même, tous les noms de domaine d’étude sont constitués de un ou plusieurs kanji désignant l’objet de l’étude suivi du kanji « étude » : « nombre » + « étude » = « mathématiques », « mé-dical » + « étude » = « médecine », (« vivre » + « chose ») + « étude » = « vivant » + « étude » = « biologie ».

Il existe également des mots pour lesquels il est difficile de trouver un lien entre leur sens et celui de chacun des kanji les composant sans mener des

re-3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

cherches étymologiques en chinois. Si bien que découper les mots en kanji est sans doute inefficace, voire nuisible à l’alignement.

Nous allons ici poser comme hypothèse que la succession de deux kanji forme un ensemble dont le sens est plus concret que celui de kanji pris séparément les uns des autres. Il est en effet plus aisé de trouver la correspondance entre une sé-quence de deux kanji et les mots graphiques des langues occidentales. Bien qu’elle n’ait pour l’instant aucune justification linguistique, cette hypothèse sera à la base de notre système, qui cherchera à trouver les séquences de deux kanji.

Mécanisme de segmentation

La méthode de Kay & Röscheisen (1993) repose, comme nous l’avons déjà vu, sur la structure de données trie. La figure 3.2 représente un exemple d’arbres véri-fiant des chaînes préfixales et suffixales, créés à partir de sept entrées. Elle montre comment segmenter les mots japonais à l’aide de ces arbres.

# # 食料供給 食料不足 食料+供給 食料+不足 食料 供給 不足 援助 緊急援助 援助 緊急+援助 援助 緊急

FIG. 3.2 –Arbres vérifiant des chaînes préfixales (fig. de gauche) et suffixales (fig. de droite)

L’arbre vérifiant des chaînes préfixales sert à trouver les chaînes préfixales communes à plusieurs mots et l’arbre vérifiant des chaînes suffixales, celles com-munes à plusieurs mots.

Étudions l’arbre vérifiant des chaînes préfixales de la figure 3.2. De la deuxième branche en partant de la gauche, étiquetéeßç, et dérivant en deux branches étiquetées›fet ³, on extrait la chaîne communeßç(shokuryô, nourriture) et les deux chaînes suffixales,›f(kyôkyû, offre ; ravitaillement) et ³(fusoku, manque).

Les lemmes ainsi obtenus sont regroupés en une liste, appelée liste des lemmes. Nous réalisons ensuite, pour tous les mots lexicaux, la vérification, par 98