• Aucun résultat trouvé

Chapitre VII Construction de systèmes de TA et support à la RI multilingue pour MUMIA

VII.2.2 Extraction de MT à partir de CLEF-IP 2011

VII.2.2.1Analyse du corpus

Nous avons analysé les brevets en ce qui concerne la structure de leurs champs XML. Nous avons constaté que quatre grands champs peuvent avoir des segments parallèles: <invention-title>, <abstract>, <description>, et <claims>. Chaque champ peut avoir des sous-champs, par exemple, un champ <claims> peut contenir 6 sous-champs <claim> dans EP-0260000-B1.xml (Figure 36).

Figure 36 : Exemple de champ <claims> contenant 6 sous-champs <claim> dans EP-0260000-B1.xml Nous commençons par ces champs, en cherchant des champs qui apparaissent plus d'une fois dans le document de brevets et tels que chaque champ ait un attribut de langue différente. Par exemple, Figure 37 montre un champ <invention-title> avec 3 attributs de langue différents (lang = "DE", lang = "EN", et lang = "FR"). Chaque champ contient également du contenu, dans la langue qui correspond à son attribut.

Figure 37 : Exemple d'un champ <invention-title> avec 3 attributs de langue différents et les contenus correspondants en 3 langues différentes

Il est bien connu que les corpus parallèles ont aussi un problème avec la direction de la traduction, car la relation de traduction est symétrique au niveau des termes, mais pas des phrases. Si une MT contient des directions de traduction différentes, cela affecte directement notre travail. Lorsque nous traitons la collection CLEF-IP 2011, nous devons donc également tenir compte de la langue source de chaque document de brevet. Chaque document XML de CLEF-IP 2011 comporte une indication de sa langue de départ. Par exemple, la Figure 38 montre un document de brevet en langue anglaise. Au cours de notre processus d'extraction, nous considérons la langue du document comme état la langue source de tous ses segments.

Figure 38 : Un champ <patent-document> avec attribut lang = "EN"

VII.2.2.2 Traitement du corpus

(Utiyama and Isahara, 2007) ont utilisé les parties du champ de description "description détaillée des modes de réalisation préférés" (Detailed Description of the Preferred Embodiments) et "Contexte de l'invention" de chaque brevet pour trouver des segments parallèles (japonais-anglais), car ils ont constaté que ces deux parties ont plus de traductions que d'autres. Parce qu'ils avaient moins de paires de brevets, (Lu et al., 2009) ont utilisé toutes les parties des documents de brevet pour trouver des segments parallèles (chinois-anglais). Dans notre travail, nous avons extrait toutes les parties des documents de brevet, mais dans le but d'assurer la qualité du corpus parallèle, nous avons rendu le champ <invention-title> et les parties <claims> disponibles dans la première version du corpus parallèle CLEF; les autres parties du corpus parallèle seront disponibles dans la prochaine version.

Notre travail est basé sur 3,5 millions de documents de brevet (fichiers XML), et nous voulons en extraire autant de segments parallèles utiles que possible. Tout d'abord, nous parcourons chaque document de brevet. Pour chaque document de brevet, nous sélectionnons la langue source à partir du champ <patent-document>, selon l'attribut de langue de ce champ. Deuxièmement, nous recherchons les segments parallèles contenus dans les quatre champs principaux (<invention-title>, <abstract>, <description>, et <claims>). Parfois, certains champs ont un attribut de langue différent de la langue du document. Par exemple, dans EP-0260000-B1.xml, l'anglais est la langue du document, mais <claims> segments ne existent pas en anglais, seules les versions allemandes et françaises sont disponibles. Même s'il est toujours souhaitable de collecter autant de texte que possible, il est encore plus important de veiller à la qualité des textes, de sorte que, dans ce cas, nous ne stockons pas les parties en allemand et en français comme un segment parallèle, parce que nous ne savons pas laquelle est la source.

Tous les champs qui apparaissent plus d'une fois dans un document de brevet et qui ont différents attributs de langue sont traités comme une collection. En général, un document de brevet OEB (IPO) a un maximum de 3 langues (anglais, français et allemand). Nous avons choisi comme segment source un segment dont l'attribut langue est compatible avec la langue source, puis avons ensuite extrait le segment parallèle cible à partir des autres champs. Par exemple, dans EP-0301015-B1.xml, la langue source est l'anglais, et <revendications> champ apparaît 3 fois. Donc, nous utilisons la partie anglaise des champs de revendications comme segments source, et nous considérons les parties en français et en allemand comme les segments cibles. Le segment source et les segments cibles sont ensuite stockés séparément dans des fichiers différents. Dans l'exemple ci-dessus, le segment source a été stocké dans CLEF_claims_en-fr.en et CLEF_ claims_en-de.en, et les segments cibles dans CLEF_ claims_en-fr.fr et CLEF_claims_en-de.de, respectivement. Afin de réduire le bruit dans les données, nous ne gardons que le texte extrait, et enlevons toutes les balises.

Toutes les données extraites ne sont pas entièrement adaptées à une utilisation directe pour les applications de TAL (NLP). Nous devons nettoyer les données extraites et éliminer un peu de bruit. Pour l'alignement, nous avons utilisé LF ALIGNER89, un outil open-source basé sur HUNALIGN (Varga et al., 2007) développé par András Farkas, qui, surtout, a la couverture linguistique la plus large (un total de 32 langues), et permet la génération automatique des dictionnaires dans une combinaison quelconque de ces langues. Les segments alignés sont préparés de façon bilingue pour 4 types (titre, résumé, description et revendications), et toutes les 6 paires de langues (de_en, de_fr, en_de, en_fr, fr_de, fr_en).

LeTableau 56montre le nombre de segments et de mots qui sont extraits à partir des champs de titre et de revendications en source et en cible après l'alignement des segments. Toutes les phrases parallèles extraites sont enregistrées dans les formats TMX et TXT, et peuvent être trouvées à http://membres-liglab.imag.fr/wang/downloads.

Tableau 56 : Nombre de segments extraits comme source et cible après l'alignement de segments dans les champs <title> et <claims>

Pairs de langues Titre Revendications

Segments Mots Segments Mots

de-en de 311,298 2,038,785 1,696,498 62 M en 2,582,703 71 M de-fr de 311,184 2,036,112 1,661,419 79 M fr 2,482,257 86 M en-de en 884,759 6,661,481 5,218,024 332 M de 5,508,289 296 M en-fr en 884,727 6,661,322 5,373,452 330 M fr 8,538,012 380 M fr-de fr 106,211 963,508 572,356 36 M de 1,204,439 37 M fr-en fr 106,246 1,285,467 586,498 38 M en 1,048,374 37 M 89 http://sourceforge.net/projects/aligner/

Documents relatifs