Récemment recherché

Aucun résultat trouvé

Étiquettes

Aucun résultat trouvé

Document

Aucun résultat trouvé

Accueil Écoles Thèmes

Connexion

Traitement des corpus

Dans le document Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales (Page 84-87)

Partie II Apprentissage de connaissances morphologiques 57

3.4 Traitement des corpus

Fig.3.2: Eﬀectif cumulé des balises par rapport à la position pour le document de la Figure 3.1.

balises<strong>dans le ﬁchier source. La position optimale du début de la zone de contenu a

donc été identiﬁée après la balise</strong> fermante.

Comme l’observe [Baroni, 2005], cette méthode est bien adaptée à l’extraction de contenu

pour des pages provenant de sites diﬀérents car elle ne repose pas sur des informations de

structure dépendantes de sites précis. De plus, comme nous l’avons vu, elle est assez précise même

s’il arrive que cette méthode supprime des éléments pertinents comme des mots ou des phrases

situés en début et ﬁn de texte ou contenus dans des tableaux HTML. Les documents comportant

des zones de contenus entre-coupées de publicités ou d’éléments de navigation constituent une

autre pierre d’achoppement de cette méthode qui ne permet de détecter qu’une zone centrale de

contenu par ﬁchier.

3.4 Traitement des corpus

Aﬁn de pouvoir utiliser les textes constituant un corpus, il est nécessaire de les soumettre à

un certain nombre de traitements. Nous détaillons ici les traitements minimaux (découpage en

mots et vériﬁcation de la langue) que nous avons utilisés. À ces traitements peuvent s’ajouter

des analyses plus sophistiquées comme l’étiquetage morphosyntaxique ou l’analyse grammaticale,

que nous ne mentionnerons pas car nous ne les avons pas appliquées à nos corpus.

3.4.1 Découpage des textes en mots, phrases et paragraphes

Les textes sont représentés dans un ﬁchier sous forme de séquences de caractères : lettres,

nombres et caractères de ponctuation. Aﬁn de pouvoir traiter ces données, il est nécessaire

d’identiﬁer diﬀérents types d’unités : paragraphes, phrases et mots. Cette tâche est loin d’être

Chapitre 3. Préliminaire : construction de corpus

est un ouvrage où l’on tente de traiter de façon exhaustive de l’ensemble du savoir humain. Par

extension, le mot désigne également un ouvrage qui traite systématiquement d’un domaine de

connaissance en particulier. Le mot encyclopédie vient du grec ancien enkuklios paideia qui

désignait l’éducation comprenant l’étude de toutes les sciences. Il devint enkuklopaideia par

une erreur de transcription, puis au XVIe siècle les savants le latinisèrent en encyclopaedia .

Cet article chez Wikipedia

Ejecta

Par les ejecta , les scientiﬁques déﬁnnisent les objets rejeté par les volcans qui ne sont pas

de la lave pendant certaines éruptions explosives qui fragmentent le magma et qui retombent

plus ou moins verticalement hors du cratère.

Ces ejecta sont classés suivant leur taille dans un ordre croissant, cendres, lapilli, blocs et

bombes sont des ejecta. La majorité de ceux-ci retombent alors en épousant une trajectoire

parabolique. Par ailleurs, les particules les plus ﬁnes peuvent atteindre une altitude suﬃsante

pour être entraînées par les courants aériens sur des distances considérables.

Chaque éruption volcanique est caractérisée par une catégorie particulière d’ejecta.Grace à

cela, les vulcanologues peuvent déﬁnir les types de volcans. Ce sont ces produits qui, par leur

accumulation, forment progressivement les cônes volcaniques.

Fig. 3.3: Résultat de l’extraction de contenu pour le document de la Figure 3.1.

triviale. En eﬀet, il n’est pas toujours aisé de déﬁnir ce qu’est un mot, voire une phrase et

donc, à plus forte raison, de les identiﬁer de manière automatique [Grefenstette et Tapanainen,

1994, Manning et Schütze, 1999]. Le mot peut être déﬁni, de manière un peu simpliste, comme

une suite de caractères séparés par des espaces ou des signes de ponctuation. Cependant, la

solution triviale qui consiste à déterminer les frontières de mots par les espaces et les signes de

ponctuation est loin d’être satisfaisante. Considérons les exemples suivants :

(1) L’edmontosaurus mesurait 3,5mètres.

(2) Des chercheurs ont analysé10.000 vertèbres de dinosaures.

(3) Cette nouvelle technique a été développée parM. Dupond.

(4) For additional information see alsohttp ://www.fda.gov/cder/approval/index.htm

(5) Pyroclastic-falldeposits,referred to as tephra,consist of combinations of pumice,

scoria, dense-rockmaterial,and crystals.

(6) Recent geophysical data revealed that Mauna Loa’s summit caldera has begun to

swell and stretch at a rate of 2 to2.5 inches a year.

Ces exemples permettent de faire les observations suivantes :

– Lepointne marque pas toujours une ﬁn de phrase. Il peut être contenu dans divers types

d’unités comme les nombres (voir exemples 2 et 6), les abréviations (exemple 3) ou les

URLs (exemple 4). Il faut donc faire la diﬀérence entre ces occurrences et les occurrences

du point comme marqueur de ﬁn de phrase.

– La virgule doit dans certains cas, lorsqu’elle apparaît en ﬁn de mot comme dans la

phrase 5, être séparée de la chaîne de caractères qui la précède. Dans d’autres cas, elle

peut faire partie d’un nombre comme dans l’exemple 1.

3.4. Traitement des corpus

choisi de toujours séparer les clitiques accolés au mot suivant ou précédent par une

apos-trophe.

– Le tiret. Nous avons conservé les tirets contenus à l’intérieur de mots (voir exemple 5),

sauf dans le cas des traits d’union marquant une liaison avec un pronom comme dans

peut-on ou puis-je. En eﬀet, comme nous le verrons dans les chapitres suivants, les tirets

fournissent des informations précieuses sur les frontières morphémiques et il est donc utile

de les préserver.

Ces exemples montrent également qu’au cours du découpage d’un texte, il est utile de repérer

certaines unités qui ont une structure spéciﬁque comme les dates, les nombres, les abréviations,

les URLs ou les adresses e-mail. Leur structure peut généralement être décrite à l’aide

d’expres-sions régulières : certaines de ces expresd’expres-sions régulières sont identiques pour toutes les langues

(URL, adresses e-mail), d’autres sont spéciﬁques aux langues comme les nombres ou les

abré-viations [Grefenstette, 1998]. Ces unités contiennent souvent des signes de ponctuation ambigus

comme le point ou la virgule. Une fois ces unités identiﬁées, les signes de ponctuation restant

peuvent être utilisés de manière non ambiguë pour délimiter les mots et les phrases.

Nous avons implémenté l’ensemble des opérations permettant la tokenisation d’un texte en

Python (voir Annexe B.2.2, p. 155).

3.4.2 Vérification de la langue

Compte tenu du caractère multilingue du Web, il est possible de trouver des portions de texte

de langues diﬀérentes au sein du même document. Sauf utilisation particulière, un corpus est

généralement construit pour une seule langue cible. Il peut donc s’avérer nécessaire de ﬁltrer les

phrases ou paragraphes écrits dans une langue diﬀérente de la langue cible. On distingue deux

types de méthodes pour identiﬁer automatiquement la langue d’un texte : les méthodes basées sur

les n-grammes (suites de n caractères) et les méthodes basées sur les mots fréquents [Grefenstette,

1995]. C’est cette dernière technique que nous avons utilisée. Les mots les plus fréquents d’une

langue (généralement les mots outils) peuvent être identiﬁés en comparant leur fréquence dans

un corpus d’apprentissage et leur fréquence dans le texte [Dunning, 1994, McNamee, 2005]. Cette

méthode est relativement eﬃcace, sauf bien sûr pour des passages très courts de quelques mots.

Nous l’avons utilisée à l’échelle du paragraphe.

Nous avons développé un outil de reconnaissance de langue basé sur la méthode décrite

dans [McNamee, 2005]. La méthode se décompose en une étape d’apprentissage et une étape

d’utilisation. Dans un premier temps, des textes d’apprentissage sont collectés pour chaque

langue. Les textes choisis par [McNamee, 2005] proviennent du corpus de textes du Projet

Gutenberg. Nous avons également utilisés des textes du Projet Gutenberg pour notre corpus

d’apprentissage (voir Tableau B.1, p. 156). Puis, les mots sont extraits de ces textes et un

fichier contenant le profil de chaque langue est généré. Un profil correspond aux 1 000 mots les

plus fréquents de chaque langue, associés au pourcentage d’occurrences du mot dans le texte

d’apprentissage (voir Tableau B.2, p. 156). Ces proﬁls sont ensuite utilisés pour identiﬁer la

langue d’une phrase ou d’un paragraphe. La langue d’un texte sera déterminée en calculant un

score pour chaque langue aﬁn de rechercher la langue de score maximal. Pour donner un score

à une langue, il suﬃt d’additionner les poids des mots du texte dans cette langue.

Chapitre 3. Préliminaire : construction de corpus

Prenons l’exemple de la séquence « in die ». Les scores pour les diﬀérentes langues sont les

suivants :

– allemand : 1,61 + 2,46 = 4,07

– anglais : 2,59 + 0 = 2,59

– français : 0 + 0 = 0

– italien : 1,09 + 0 = 1,09

– néerlandais : 2,07 + 1,23 = 3,30

La langue de la séquence « in die » est donc l’allemand. Si aucun score ne dépasse 0, alors

la langue du texte est inconnue.

Les caractéristiques de l’outil ainsi que les corpus d’apprentissage utilisés pour les diﬀérentes

langues ﬁgurent dans l’Annexe B.2.3, p. 155.

3.4.3 Extraction des mots d’un corpus

Les outils de tokenisation et de vériﬁcation de la langue peuvent être mis à proﬁt pour

extraire les mots d’un corpus et procéder à un premier ﬁltrage. En eﬀet, la tokenisation utilise

des expressions régulières représentant des entités spéciﬁques comme les nombres, les dates,

les URLs ou les adresses e-mail. Celles-ci pourront donc être exclues de la liste des mots du

corpus. De plus, le module d’identiﬁcation de langue permet d’éliminer les mots qui se trouvent

dans des paragraphes qui ne sont pas écrits dans la langue cible du corpus. Ce second ﬁltrage

élimine une grande partie des mots étrangers. Restent les entités nommées telles que les lieux et

personnes qui sont plus diﬃciles à identiﬁer et que nous n’avons pas traitées (voir par exemple

[Elkateb-Gara, 2005] pour un exemple de traitement des entités nommées).

Dans le document Apprentissage de connaissances morphologiques pour l'acquisition automatique de ressources lexicales (Page 84-87)

Télécharger maintenant "Apprentissage de conna..."

Outline

Documents relatifs