• Aucun résultat trouvé

Construction de l’index du lexique (3) Tri des mots

É LABORATION D ’ UN SYSTÈME

Exemple 1 Considérons deux chaînes, un mot français et une retranscription

3. Option complète : post-alignement et interface graphique

3.4.6 Construction de l’index du lexique (3) Tri des mots

Le tri est ensuite réalisé aussi bien pour la listeLMOTdu texte français que pour celle obtenue à partir du texte japonais afin de construire quatre nouvelles listes :

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

la liste des transfuges (LTRNS), la liste des cognats (LCOG), la liste des mots en

ka-takana (LKTKN) et la liste des mots lexicaux (LEX).

Si nous classons les mots graphiques selon ces quatre catégories, c’est que les mots des trois premières ne nécessitent pas, contrairement à ceux de la dernière, de calcul de similarité de leur distribution pour être appariés. En effet, leur équi-valence traductionnelle est calculable simplement par leur forme. Qui plus est, le résultat de ce calcul est beaucoup plus sûr que le résultat obtenu par la simila-rité des distributions. Cette calculabilité est assez évidente pour les deux premiers types lorsque l’on connaît leur définition.

Les cognats

Les « cognats », mots apparentés, sont des chaînes de caractères identiques ou proches graphiquement se trouvant dans les lexiques de langues ayant une rela-tion historique plus ou moins étroite, telles que les paires anglais-français

genera-tion/génération et error/erreur. La notion de cognats améliore de manière simple

et économique les méthodes statistiques qui n’utilisent aucune information lexi-cale, encore que son efficacité soit limitée aux langues appartenant à une même famille. Cependant, le japonais intégrant également dans son système d’écriture l’alphabet latin (íüÞW, rôma-ji), la possibilité d’obtention d’un résultat a été signalée très tôt dans Church et al. (1993).

Le système AlALeR ne considère comme cognats que les chaînes alphabé-tiques totalement idenalphabé-tiques apparaissant dans les deux textes entrés. Le système constitue d’abord la listeLCOGdu texte japonais en extrayant les mots écrits en al-phabet latin. Ensuite, en se référant à la liste japonaise, il construit une liste fran-çaise en recherchant les séquences identiques aux éléments de la liste japonaise.

Les paires de cognats ainsi reconnues constituent une liste, appelée table des « Cognats alignés » (COGAL).

Les transfuges

Les « transfuges » sont des chaînes invariantes à la traduction telles que les chiffres ou les symboles, inclus au début dans les cognats par les définitions tradi-tionnelles du domaine de l’alignement, et regroupés plus tard par Langé & Gaus-sier (1995) pour constituer une nouvelle catégorie. Les listes de transfugesLTRANS

sont constituées séparément dans les deux langues par simple extraction des sé-quences de symboles ou de chiffres.

Les paires constituées de deux mots appartenant aux listesLTRANSdu japonais et du français, constituent ensuite la liste appelée table des « Transfuges alignés » (TRAL).

Les mots en katakana

La troisième liste contient les mots du texte japonais écrits en katakana. Le schéma 3.6 page ci-contre représente la procédure d’appariement d’un mot en 110

3.4. Fonctionnement du système

Extraction des mots en katakana (LKTKN_JP) Tri des mots japonais

Tri des mots français

Alignement des mots en katakana

Retranscription à l'aide du transducteur Création de la liste de toutes les formes transcrites de tous les mots extraits

Recherche de formes transcrites semblables pour tout mot français,

Inscription du mot français dans la liste des mots originaux potentiels de la retranscription en fonction de la similarité

Rassemblement de toutes les formes retranscrites du même mot en katakana

Recherche dans la liste des mots originaux potentiels le candidat ayant la similarité la plus élevée

FIG. 3.6 – Procédure de retranscription et d’alignement des mots en katakana

katakana.

Extraits au cours du tri des mots japonais, ces transcriptions des mots em-prunts sont retranscrites par le système à l’aide d’un transducteur, comme nous l’avons décrit dans la section 3.3.1, en une ou éventuellement plusieurs formes en alphabet latin. Puis, toutes les formes retranscrites des mots en katakana consti-tuent la liste des « retrancriptions » (RETRANS).

Au cours du tri des mots français, pour tout mot français, on calcule la simila-rité entre le mot français considéré et chaque séquence de la listeRETRANS. Si la similarité avec une retranscription donnée atteint un seuil prédéfini, ce mot fran-çais est considéré comme le mot original de cette retranscription jusqu’à ce que l’on en rencontre un autre qui obtienne une similarité plus élevée.

À cette étape, on tient également compte de la similarité entre les mots fran-çais : si on trouve un mot franfran-çais (par exemple « groupes ») ayant une simila-rité moins élevée mais pour lequel le mot considéré comme original (par exemple « groupe ») est une chaîne préfixale (ou inversement, ce dernier est une sous-chaîne préfixale du mot original), on l’ajoute à la liste des mots originaux de la retranscription9. L’annexe A.6 montre un exemple de résultat de cette étape. On

9Nous n’avons pas encore à cette étape réalisé la lemmatisation des mots français : nous avons seulement la liste des mots graphiques. Nous aurions pu également réaliser la lemmatisation avant l’alignement des mots en katakana, mais afin d’éviter le regroupement des deux mots français ayant chacun un équivalent parmi les mots en katakana (par exemple, « programme » et « program-meur »), nous avons choisi cette procédure.

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR

peut y constater la retranscription 32 « gurupu » qui possède deux mots originaux potentiels « groupe » et « groupes » avec la similarité 0,535164.

Après avoir terminé l’examen des mots français, on rassemble ensuite toutes les formes retranscrites du même mot japonais en katakana afin de trouver le mot français ayant la similarité la plus élevée d’une des retranscriptions. Arrivé à cette étape, on recalcule la similarité, mais cette fois la similarité de distribution afin d’exclure les correspondances hasardeuses.

Les paires composées d’un mot français et d’un mot japonais en katakana ainsi appariées constituent ensuite la liste appelée table des « Katakana alignés » (KTKNAL).

Les mots japonais en katakana qui n’ont pas trouvé d’équivalent une fois le tri des mots français terminé, sont stockés dans la liste des mots lexicaux pour leur laisser à nouveau une chance d’être finalement alignés par la similarité de distribution.

Le schéma 3.7 page suivante représente l’exemple d’appariement du mot en

katakana,³ó¿¯È(kontakuto).

Extrait au cours du tri des mots japonais, le mot ³ ó ¿ ¯ È (kontakuto) est inscrit dans la listeLKTKNet retranscrit ensuite par le transducteur en quatre formes en alphabet latin qui sont stockées dans la liste des « retrancriptions » (RETRANS).

Au cours du tri des mots français (liste LMOT), on considère le mot français « contact ». La similarité avec une retranscription « contacuto » atteint le seuil pré-défini, le mot français « contact » est considéré comme le mot original de « conta-cuto », aucun autre candidat n’étant trouvé pendant le parcours intégral de la liste

LMOT.

Ensuite, on rassemble toutes les formes retranscrites du mot ³ ó ¿ ¯ È

(kontakuto). N’ayant trouvé aucun mot original potentiel pour d’autres retrans-criptions, le mot français « contact » est considéré comme le mot original de³ó ¿¯È(kontakuto). On vérifie leur correspondance en recalculant leur similarité de distribution et une fois qu’on constate une similarité de distribution satisfai-sante, la paire « contact -³ó¿¯È» est stockée dans la listeKTKNAL.

Les mots lexicaux

La dernière liste (LEX) contient des mots lexicaux.

La listeLEXjaponaise est créée par extraction de tous les mots constitués de plus d’un kanji. Toutefois, les mots constitués d’un seul kanji ayant une fréquence importante (à savoir 12 pour notre système) sont également stockés dans cette liste.

Pour créer la liste LEXfrançaise à partir de la liste des mots LMOT, les mots grammaticaux sont tout d’abord supprimés deLMOTà l’aide de la liste des mots grammaticaux préalablement définie (voir l’annexe A.8). Les transfuges sont en-suite extraits afin de constituer la listeTRAL. Certains mots sont également ex-traits suite à la comparaison avec la listeLCOGdu japonais et avec la liste des re-112

3.4. Fonctionnement du système アフリカ コンタクト タイプ ・・・ ・・・ ・・・ ・・・ Table LKTKN (japonais) Transducteur Retranscription ・・・ ・・・ kontakuto kontacuto contakuto contacuto ・・・ ・・・ Listes des retranscriptions ... ... considérables consommation contact contre contribuer ... ... ... Table LMOT (français) contact Tri Comparaison

Sim(contacuto, contact) > Seuil ... ... (contakuto, ...) (contacuto, contact) (contacuto, ...) ... ... ...

Listes des candidats

... ... (コンタクト, contact) ... ... ... Table KTKNAL

FIG. 3.7 – Appariement des mots en katakana

transcriptions des mots en katakanaRETRANS, pour constituer respectivement les listesCOGALetKTKNAL. Le reste des mots constitue alors la listeLEX.

3.4.7 Construction de l’index du lexique (4) Lemmatisation des mots