• Aucun résultat trouvé

2.3 Adaptation d’une ressource terminologique en ressource d’extraction

2.3.8 Génération automatique des transducteurs

Les étapes précédemment exposées ont pour but de fournir, pour un concept nommé par un terme simple ou composé, un ensemble de motifs de reconnaissance apparentés à des expressions régu- lières. Ces motifs ont la particularité, par rapport au terme de départ, d’augmenter sensiblement la couverture, c’est-à-dire qu’ils sont capables de reconnaître un nombre important d’expressions re- liées. Celles-ci constituent des variations plus ou moins importantes de la formulation de départ (voir les exemples exposés dans les sections précédentes).

Les motifs obtenus pour chaque concept, c’est-à-dire chaque catégorie ou classe, doivent pouvoir être appliqués d’une façon efficace aux textes afin de reconnaître les expressions susceptibles d’entrer en compte pour la classification du document. Pour ce faire, comme nous l’avons déjà mentionné à la section 2.3.1, nous avons choisi d’adopter le format des transducteurs défini par le logiciel de traitement de corpus Unitex.

Les transducteurs constituent un format particulier des grammaires locales. Une grammaire locale (Gross [1989, 1997]) permet de représenter des structures lexicales ou syntaxiques plus ou moins complexes. Ces structures sont souvent représentées sous la forme d’un graphe (Figure 2.1). Ce graphe est parcouru depuis l’état initial, représenté par une flèche placée sur la gauche, jusqu’à un état final, le carré contenu dans un cercle disposé à l’extrême droite, et cela en parcourant les transitions représentées par les boîtes. Ces dernières contiennent des éléments qui définissent31les séquences de caractères qui peuvent être identifiées dans les textes. Elles peuvent également contenir des appels à des sous-graphes permettant de construire des motifs assez complexes. Les grammaires locales sont aussi appelées des reconnaisseurs. Un transducteur est une grammaire locale pourvue à la fois d’un alphabet d’entrée, les séquences qui peuvent être reconnues, et d’un alphabet de sortie, les séquences qui peuvent être produites (« [animal] » dans le cas présenté à la figure 2.1).

Figure 2.1 : Exemple de graphe Unitex (à gauche), accompagné du sous graphe « couleur » (à droite).

Tout comme pour les tâches exposées dans les sections précédentes, la création des transducteurs à partir des listes de motifs s’effectue de manière automatique. Un transducteur est produit par classe. Chaque motif défini pour cette classe correspond à un chemin possible entre l’état initial et l’état final. Le chemin en question est constitué de divers éléments :

– des éléments dits principaux, lemmatisés et exprimés au moyen d’une forme cano-

31

À l’aide de divers moyens : une chaîne de caractères (« porte »), un appel aux dictionnaires via une forme canonique (« <porter> »), un code grammatical (« <V> ») ou sémantique (« <Prenom> »), une méta-étiquette (« <TOKEN> »), une filtre morphologique («≪^évén≫ »), etc.

2.3 Adaptation d’une ressource terminologique en ressource d’extraction 67

nique (<forme_canonique>), ou racinisés et exprimés à l’aide d’un filtre mor- phologique (≪^racine≫)32;

– des méta-étiquettes<TOKEN>pour remplacer les stopwords ;

– des appels au sous-graphe insert, lequel contient une méta étiquette au choix (par exemple<TOKEN>ou<A>).

Les boîtes sont reliées selon les principes suivants (Figure 2.2) :

(A.) un motif simple composé d’un seul élément (forcément un élément lemmatisé ou racinisé) est directement relié à l’état initial et à l’état final ;

(B.) un motif composé (au moins deux éléments lemmatisés ou racinisés) a son premier élément relié à l’état initial et son dernier à l’état final, chaque élément est de plus relié à son prédécesseur et à son successeur (si ceux-ci existent) ;

(C.) les éléments principaux successifs d’un motif composé sont également reliés par l’intermédiaire d’un appel au sous-grapheinsert;

(D.) si un stopword a été identifié entre deux éléments principaux, un élément<TOKEN>

est inséré entre ceux-ci (si une expression contient plusieurs stopwords successifs, ils sont réduit à une seule balise) ;

(E.) un appel au sous-graphe insertrelie aussi les éléments principaux à l’élément

<TOKEN>qu’ils encadrent ;

(F.) ces deux éléments insertpeuvent également être empruntés directement, sans passer par l’élément<TOKEN>issu du stopword, pour relier les deux éléments prin-

cipaux.

La séquence de sortie qui est placée à la fin, avant l’état final, permet de produire la référence à la classe concernée (son numéro ou son code). L’ensemble des transducteurs ainsi produits sont rassemblés dans un transducteur global grâce au mécanisme des sous-graphes.

Le transducteur est généré dans le format GRF correspondant à cette représentation graphique. Un exemple, correspondant au transducteur de la figure 2.2 est détaillé à la figure 2.3. La première partie (jusqu’à la ligne « # ») constitue un en-tête qui permet d’ajuster certains paramètres de mise en page. La ligne suivante indique le nombre de lignes contenues jusqu’à la fin du fichier. Les dernières lignes suivent ensuite toutes le même format :

"contenu_de_la_boîte" Position_X Position_Y Nombre_de_liens Liste_des_liens

Les deux premières représentent l’état initial et l’état final, alors que les suivantes constituent le reste des transitions du transducteur. À noter que la liste des liens correspond aux numéros de lignes, tels que la ligne 0 correspond à l’état initial. Ce fichier est ensuite compilé à l’aide du programme

Grf2Fstd’Unitex pour obtenir sa version FST2. Celle-ci est alors exploitable sur un texte au moyen du programmeLocate. Un exposé plus détaillé concernant les formats de fichiers et les programmes

32 La forme de départ est également conservée dans les cas où une forme lemmatisée ou racinisée n’aurait pu être

obtenue, ainsi que pour pallier partiellement une possible défaillance de ces mécanismes de normaliation linguistique. Dans le cas de la lemmatisation, on ajoute une contrainte grammaticale, sachant que les noms et des adjectifs sont les éléments grammaticaux qui représentent le principal intérêt.

68 2 Indexation semi-automatique, une approche symbolique de classification de textes

Figure 2.2 : Illustration des différents principes dirigeant la construction du transducteur (ici, en version lemmatisée).

utilisés est disponible dans le manuel d’Unitex (Paumier [2008]).