Calcul de similarité - Ancrage fiable par alignement des mots en katakana Le deuxième sujet imp

3 É LABORATION D ’ UN SYSTÈME

3.3 Ancrage fiable par alignement des mots en katakana Le deuxième sujet important était de chercher un moyen de compenser

3.3.2 Calcul de similarité

Comme nous l’avons dit au début de cette section, à cause de la différence de système phonétique/phonologique entre le japonais et le français (ou d’autres langues auxquelles appartiennent les mots d’origine des mots enkatakana), la re-102

3.3. Ancrage fiable par alignement des mots enkatakana transcription de la transcription risque d’être un peu, voire assez, différente du

mot original. De plus, étant donné que le nombre de règles est limité en raison d’une optimisation des calculs, il risque d’y avoir beaucoup de caractères man-quants ou superflus.

Afin de supporter la divergence et de trouver de manière robuste l’équivalence entre les mots d’origine et leur retranscription, nous recourons aux méthodes de mise en correspondance des cognats largement étudiées notamment dans le cadre de travaux sur l’alignement entre les textes de langues apparentées (voir la section 2.3.1).

La méthode de calcul de similarité entre une séquence retranscrite et un mot français que nous avons adoptée est proche de celle de la sous-chaîne maximale parallèle utilisée dans Kraif (2001) pour la reconnaissance des cognats, que nous avons présentée dans la section 2.3.1. Notre formule, adaptée aux besoins parti-culiers de la retranscription deskatakana, est définie comme suit :

Soientchfr, chaîne en français, etchjp, chaîne de retranscription d’un mot en katakana.

La similaritésimdechfretchjpest :

sim=^p^(SCM)·_L ^2SCM 1+L2−L3·_L^2CCM 4+L5 où – L₁=longueur(chfr) – L₂=longueur(chjp) – L3=nombre(’u’ danschjp)

– L₄=nombre(consonnes danschfr) – L₅=nombre(consonnes danschjp)

– SCM = sous-chaînes maximales communes

– CCM = coût calculé à partir des consonnes communes dechfretchjp

– p(SCM) = poids basé sur les sous-chaînes maximales communes

Notre formule diffère de celle de Kraif (2001) par le fait qu’elle tient compte non seulement de la sous-chaîne maximale mais aussi des consonnes communes. Le nombre de consonnes communes est pris en compte pour favoriser les deux chaînes ayant le plus de caractères consonantiques communs plutôt que celles dont les caractères vocaliques coïncident le plus.

Afin de calculer la longueur de CCM, on extrait d’abord toutes les lettres conso-nantiques des chaînes considérées. On ne considère aucune paire de deux chaînes dont les longueurs de séquences extraites sont trop différentes, c’est-à-dire dans notre méthode :

|L4−L5| max(L₄,L₅)^≥

1 2

Pour les paires remplissant cette première condition, la longueur de CCM est en-suite calculée par la méthode de calcul des sous-chaînes maximales communes de

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR Kraif, à la différence qu’au lieu de rejeter les sous-chaînes représentant des décro-chements consécutifs – c’est-à-dire des insertions ou des suppressions qui ne sont pas entourées de caractères identiques –, on donne une pénalité à chaque inser-tion dans la chaîne retranscrite d’une lettre consonantique4n’appartenant pas au mot original (potentiel) et à chaque suppression dans la chaîne retranscrite d’une lettre consonantique⁵n’appartenant pas au mot original (potentiel).

L’insertion en fin de chaîne retranscrite est également pénalisée (sauf «y» et «w») tandis que la suppression ou la divergence entre les sous-chaînes préfixales ne sont pas pénalisées.

Ces règles traduisent le constat que les dernières lettres consonantiques sup-primées correspondent souvent à des morphèmes grammaticaux (typiquement le « s » du pluriel) tandis que les dernières lettres superflues dans la retranscription ont une forte possibilité d’indiquer que ce n’est pas une retranscription du mot français considéré, par exemple entre :

mot fr : « sct » (= société) et ;

retranscription jp : « sctm » (= sicetemu, une des retranscriptions de

·¹Æà(système)).

Lorsqu’il y a une/des insertions et une/des suppressions en fin de chaîne – c’est-à-dire lorsque les deux chaînes ont une terminaison différente –, le choix n’est pas aussi évident. Il est possible que les lettres supprimées soient des mor-phèmes français et que les lettres insérées soient des mormor-phèmes équivalents d’une autre langue (typiquement l’anglais) à laquelle appartient le mot d’origine du mot japonais retranscrit.

mot fr : « prtnrt » (= partenariat) et ;

retranscription jp : « prtnrshp » (= partonashipu, une des

retrans-criptions deÑüÈÊü·Ã×(partnership, ang.)).

Afin de bien prendre en compte cette possibilité, notre méthode ne donne pas de pénalité à ces cas, accordant de l’importance surtout à leur similarité.

Par ailleurs, le caractère «u» est ignoré lors du comptage de la longueur de la chaîne japonaise, car sa présence est souvent due à la « japonisation » – une consonne est toujours accompagnée d’une voyelle – des mots étrangers par inser-tion d’une voyelle entre deux consonnes adjacentes.

p(SCM) permet de favoriser les paires de chaînes ayant une sous-chaîne com-mune longue – plus cette sous-chaîne est longue, plus la paire est favorisée. Dans notre méthode,p(SCM) est défini comme log(SCM).

4Exceptées «y» et «w» utilisées comme des lettres vocaliques dans notre grammaire de retrans-cription (ex. « sisutemu » pour « système »).

5Exceptées «y», «w» et «h» représentées souvent par une lettre vocalique ou absentes dans la retranscription (ex. « babilonia » pour « babylonien » et « caludea » pour « chaldéen »).

3.3. Ancrage fiable par alignement des mots enkatakana

Exemples

Le tableau 3.3 montre des exemples de résultat de calcul de similarité par notre formule. 1. kananasukisu ---> kananaskis [1,000000] 2. contacuto ---> contact [0,788758] 3. puroguramu ---> programme [0,672237] 4. gurupu ---> groupe [0,535164] 5. baiotecunolozi ---> biotechnologies [0,510204] 6. partonarsipu ---> partenariat [0,505225] 7. sabusahara ---> subsaharienne [0,448158] 8. sisutemu ---> systèmes [0,399411]

TAB. 3.3 – Similarités entre des retranscriptions et leur mot d’origine

Exemple 1 Considérons deux chaînes, un mot français et une retranscription

d’un mot japonais :

« contact » et « contacuto » 1. L₁=longueur(chfr) = 7 ;

2. L₂=longueur(chjp) = 9 ; 3. L₃=nombre(’u’ danschjp) = 1 ;

4. L4=nombre(consonnes danschfr) = 5 ; 5. L₅=nombre(consonnes danschjp) = 5 ;

6. SCM = sous-chaînes maximales communes = 7 ;

7. CCM = coût calculé à partir des consonnes communes = 5 ; 8. p(SCM) = poids basé sur les SCM = log(SCM) = log(7) ;

sim=^log(7)·₇²^×⁷ +⁹−¹^·

2_×5

5₊5⁼^0,788758

Exemple 2 Considérons deux chaînes, un mot français et une retranscription

d’un mot japonais :

« systèmes » et « sisutemu » 1. L₁=longueur(chfr) = 8 ;

2. L₂=longueur(chjp) = 8 ; 3. L₃=nombre(’u’ danschjp) = 2 ;

3. ÉLABORATION D’UN SYSTÈME D’ALIGNEMENT AUTOMATIQUE AU NIVEAU PHRASTIQUE:AlALeR 5. L₅=nombre(consonnes danschjp) = 4 ;

6. SCM = sous-chaînes maximales communes = 5 ;

7. CCM = coût calculé à partir des consonnes communes = 4 (consonnes com-munes) - 0 (pénalité : « y » et « s » en fin de chaîne ne sont pas pénalisées) = 4 ;

8. p(SCM) = poids basé sur les SCM = log(SCM) = log(5) ;

sim=^log(5)·₈²^×⁵ +8₋2^·

2_×4

5₊5⁼^0,399411

Dans le document Alignement automatique de textes parallèles français-japonais (Page 103-107)