Segmentation sans analyseur morphologique

3 É LABORATION D ’ UN SYSTÈME

3.2 Segmentation sans analyseur morphologique

de caractères différents ; l’absence ou l’insuffisance de cognats permettant de

réa-liser un préalignement d’ancrage fiable peut être compensée par l’exploitation des mots emprunts, entraînant l’obtention d’un meilleur alignement des mots sans recourir à un dictionnaire bilingue.

Nous présentons dans les sections suivantes ces solutions de manière plus dé-taillée.

3.2 Segmentation sans analyseur morphologique

3.2.1 Méthode classique de segmentation par type de caractère

Comme nous l’avons vu dans la section 2.1.8, l’extraction des mots de l’al-gorithme de Kay, basée sur l’existence de séparateurs graphiques, pose des pro-blèmes pour les langues comme le japonais qui ne possèdent pas de signes per-mettant de segmenter les phrasesa priori.

Si nous cherchions à segmenter entièrement la phrase, il nous faudrait un sys-tème d’analyse morphologique du japonais, dont l’objectif est justement de seg-menter la phrase. Toutefois, il existe également une méthode classique d’analyse morphologique partielle permettant d’extraire, ne serait-ce que partiellement, les mots graphiques sans aucune connaissance extérieure, appelée segmentation par type de caractère1. En effet, il est possible de reconnaître la plupart des mots lexi-caux en profitant d’une particularité du système d’écriture du japonais qui utilise trois types de caractères différents selon la nature des mots :hiragana,katakana etkanji2.

– hiragana: premier syllabaire japonais souvent utilisé pour représenter la partie variable des mots variants et les mots grammaticaux ;

– kanji: idéogrammes utilisés pour représenter les mots lexicaux et les radi-caux ayant un sens ;

– katakana: second syllabaire japonais employé pour la transcription des mots emprunts des langues étrangères (à l’exception du chinois).

Ainsi, comme le montre la figure 3.1 (voir page suivante), il est possible de re-connaître la plupart des mots lexicaux en extrayant les séquences dekanjiou de katakana. C’est d’ailleurs une des méthodes de segmentation utilisée pour l’ana-lyse morphologique. Néanmoins, il existe de nombreuses exceptions telles que le cas où le changement de type de caractère se trouve à l’intérieur d’un mot. Il est donc impossible de couper totalement de manière correcte une phrase unique-ment avec cette méthode.

Toutefois, étant donné, comme nous l’avons vu précédemment, que nous n’avons besoin justement que des mots lexicaux pour l’algorithme de distribution lexicale, et que l’extraction peut même ne pas être complète – puisque ce n’est pas 1Pour une présentation de cette méthode, se référer au « Chapitre II : Méthode de segmenta-tion » de Nakamura-Delloye (2003a).

2Pour plus de détails sur le système d’écriture du japonais, voir le « Chapitre I : Notions de lin-guistique japonaise » dans Nakamura-Delloye (2003a).

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

明日モンパルナスで大学の友人と食事する

Katakana Hiragana Kanji

Montparnasse

«!Demain, je prendrai un repas avec des amis de l’université à Montparnasse!»

université

Demain à faire

(partie var.) de ami avec repas

(radical) - - - - - - -

-FIG. 3.1 – Phrase japonaise constituée de trois types de caractères

notre objectif principal –, cette méthode est sans aucun doute tout à fait suffisante pour notre système.

3.2.2 Amélioration proposée par Rayon

Rayon (2003) propose une amélioration de cette méthode de segmentation par type de caractère : par examen du contexte droit des séquences dekanji, l’auteur crée des règles permettant d’identifier à partir de leur contexte droit, la catégorie grammaticale de séquences dekanjiet de rajouter, lorsqu’il s’agit d’un mot va-riable, la terminaison constituée de caractèreshiragana. Son système réalise non seulement l’étiquetage des séquences de kanji extraites – éventuellement avec l’identification de leur terminaison –, mais aussi la lemmatisation des mots va-riables.

Mais, les deux problèmes principaux de ce type de segmentation n’ont pas été résolus. Premièrement, quand le changement de type de caractère se trouve à l’in-térieur d’un mot, le système est incapable de l’identifier en tant qu’une unité et le segmente en autant de morceaux qu’il y a de changements de type de caractère. Par exemple, le mot½#(so-ren, URSS) est segmenté entre½(so) enkatakanaet

#(ren) enkanji.

Deuxièmement, quand la frontière entre les deux mots composants n’est pas marquée par un changement de type de caractère, le système reconnaît la sé-quence comme un seul mot sans réaliser la segmentation adéquate. Par exemple, la séquenceû —W (den-ki-ten-gai, quartier de l’électronique grand public) est reconnue comme un mot, alors qu’elle aurait dû être segmentée plutôt en trois éléments,û (den-ki, électricité),—(ten, magasin) etW(gai, quartier). De même, un adverbe constitué entièrement enkanjisans être suivi d’une particule se retrouve inclus dans le mot qui le suit. La séquenceB !'k ( toki-doki-mu-shô-ni) est constituée de deux adverbes,B (toki-doki, parfois) et!'k (mu-shô-ni, extrêment), mais le premier étant entièrement enkanji, le système n’a pas pu reconnaître la frontière entre ces deux adverbes.

Pour l’appariement grossier des mots réalisé dans le cadre de l’alignement de 96

3.2. Segmentation sans analyseur morphologique phrases, l’étiquetage et la lemmatisation sont des opérations non indispensables.

En effet, la méthode d’alignement des mots basée sur la comparaison de leur dis-tribution – proposée par Kay (voir la section 2.1) – est caractérisée par l’analyse morphologique partielle qui précède l’opération d’appariement, et réalise l’ali-gnement des unités correspondant seulement aux parties porteuses de sens (ra-dicaux) et ce sans faire de distinction des mots selon leur catégorie. En revanche, les questions de segmentation non résolues représentent un problème non négli-geable car elles risquent d’entraîner la correspondance d’un mot graphique japo-nais avec deux ou plusieurs mots du texte français, ou l’inverse.

Nous devons donc trouver une autre solution qui convienne mieux à notre opération d’alignement.

3.2.3 Notre amélioration pour la segmentation des mots composés

Le second problème décrit précédemment portait sur les séquences de mots composés constituées de plusieurs substantifs juxtaposés les uns derrière les autres. Dans ce type de séquence, généralement entièrement enkanjiou en kata-kana, la frontière entre les deux mots composants n’est pas marquée par un chan-gement de type de caractère. Mais, il nous paraît possible de traiter ces séquences avec la méthode utilisée pour l’étape morphologique dans l’algorithme de Kay & Röscheisen (1993), méthode que nous avons adoptée pour l’étape de lemmati-sation des mots français dans notre système. Elle consiste, comme nous l’avons déjà vu, à trouver les sous-chaînes préfixales ou suffixales communes à plusieurs formes effectives des mots graphiques et à déterminer les radicaux, porteurs de sens. Il s’agit donc de la recherche des sous-chaînes préfixales communes à plu-sieurs formes effectives. La différence dans le cas du japonais est que les parties restantes ne sont pas des suffixes mais un ou même plusieurs autres mots portant eux-mêmes un sens propre. On obtient donc à partir d’un mot graphiqueab, non pas sa forme de basea, mais deux formes de baseaetb.

Unité minimum

Mais la division d’un mot constitué de plusieurskanjien plus petites unités munies de sens, donnerait un nombre de morphèmes exactement égal au nombre dekanji, puisque posséder un sens est la nature même des idéogrammes.

Malheureusement, un kanji correspond rarement à un mot graphique des

langues occidentales. Par exemple, le terme « politique » en japonais est consti-tué de deuxkanji : « affaires de l’État » et « assumer » ; de même, tous les noms de domaine d’étude sont constitués de un ou plusieurskanjidésignant l’objet de l’étude suivi dukanji« étude » : « nombre » + « étude » = « mathématiques », « mé-dical » + « étude » = « médecine », (« vivre » + « chose ») + « étude » = « vivant » + « étude » = « biologie ».

Il existe également des mots pour lesquels il est difficile de trouver un lien entre leur sens et celui de chacun des kanji les composant sans mener des

re-3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR cherches étymologiques en chinois. Si bien que découper les mots enkanji est sans doute inefficace, voire nuisible à l’alignement.

Nous allons ici poser comme hypothèse que la succession de deuxkanjiforme un ensemble dont le sens est plus concret que celui dekanjipris séparément les uns des autres. Il est en effet plus aisé de trouver la correspondance entre une sé-quence de deuxkanjiet les mots graphiques des langues occidentales. Bien qu’elle n’ait pour l’instant aucune justification linguistique, cette hypothèse sera à la base de notre système, qui cherchera à trouver les séquences de deuxkanji.

Mécanisme de segmentation

La méthode de Kay & Röscheisen (1993) repose, comme nous l’avons déjà vu, sur la structure de donnéestrie. La figure 3.2 représente un exemple d’arbres véri-fiant des chaînes préfixales et suffixales, créés à partir de sept entrées. Elle montre comment segmenter les mots japonais à l’aide de ces arbres.

世中動 # 世界食糧食糧計画援助行計画供給不足 # 画計動行食界糧援助世界中急緊緊急援助給供不足食糧食料供給食料不足食料＋供給食料＋不足食料供給不足食糧援助緊急援助援助緊急＋援助援助緊急

FIG. 3.2 –Arbres vérifiant des chaînes préfixales (fig. de gauche) et suffixales (fig. de droite)

L’arbre vérifiant des chaînes préfixales sert à trouver les chaînes préfixales communes à plusieurs mots et l’arbre vérifiant des chaînes suffixales, celles com-munes à plusieurs mots.

Étudions l’arbre vérifiant des chaînes préfixales de la figure 3.2. De la deuxième branche en partant de la gauche, étiquetéeßç, et dérivant en deux branches étiquetées›fet ³, on extrait la chaîne communeßç(shokuryô, nourriture) et les deux chaînes suffixales,›f(kyôkyû, offre ; ravitaillement) et ³(fusoku, manque).

Les lemmes ainsi obtenus sont regroupés en une liste, appelée liste des lemmes. Nous réalisons ensuite, pour tous les mots lexicaux, la vérification, par 98

3.3. Ancrage fiable par alignement des mots enkatakana consultation de cette liste, qu’ils ne contiennent pas un autre lemme plus court. Si

la sous-chaîne préfixaleadu mot considéréabcappartient à la liste des lemmes, ce dernier est segmenté ena etbc, nous recommençons la vérification avec la partie restantebc.

En réalisant ainsi l’ensemble de ces opérations, nous pouvons réaliser la seg-mentation d’un mot graphique en plusieurs lemmes, lorsque la séquence en contient plus de deux. Nous évitons tout de même l’excès de segmentation à l’aide d’une règle reposant sur l’hypothèse que nous avons posée, à savoir que la succes-sion de deuxkanjiforme un ensemble dont le sens est plus concret que celui de kanjipris séparément les uns des autres.

Les séquences de katakana sont segmentées de la même manière.

Néan-moins, dans le cas des séquences dekatakana, nous ne cherchons pas de sous-chaînes communes à plusieurs mots graphiques, mais des sous-sous-chaînes sem-blables à un autre mot graphique ou à un lemme extrait d’un mot graphique. Ainsi,

on empêche par exemple la segmentation de la séquence¤ó¹Èüë(

insu-tôru, installation) en deux parties,¤ó(in) et¹Èüë(sutôru), du fait de l’ab-sence de mots ou lemmes semblables, même si la première partie¤ó(in) est la

sous-chaîne commune avec la séquence¤óÈíÀ¯·çó(intorodakushon,

introduction).

L’algorithme, que nous avons développé, de segmentation des séquences constituées entièrement dekanjià l’aide detrieest présenté dans l’annexe A.1.

3.3 Ancrage fiable par alignement des mots enkatakana

Dans le document Alignement automatique de textes parallèles français-japonais (Page 96-100)