Extraction et classification - Accès sémantique aux bases de données documentaires. Techniques

2.4.1 Prétraitement des textes

Avant l’application aux documents des transducteurs générés à partir du thésaurus, une étape de prétraitement des textes est nécessaire. Lors de la création des transducteurs et du traitement des

stopwords, les formes élidées telles que « l’ » ont été remplacée par une méta-étiquette, par exemple

2.4 Extraction et classification 69

#Unigraph SIZE 1188 840

FONT Times New Roman: 9 OFONT Arial Unicode MS:B 9 BCOLOR 16777215 FCOLOR 0 ACOLOR 13487565 SCOLOR 16711680 CCOLOR 255 DBOXES y DFRAME n DDATE n DFILE n DDIR n DRIG n DRST n FITS 100 PORIENT L # 9 "<E>" 50 40 2 2 3 "" 1068 40 0 "<accise.N>+<accise.A>+accise" 200 40 1 8 "<droit.N>+<droit.A>+droit" 200 80 3 7 4 5 ":insert" 425 120 3 7 6 5 "<TOKEN>" 524 160 2 7 6 ":insert" 623 120 1 7 "<accise.N>+<accise.A>+accise" 722 80 1 8 "<E>/[[10]]" 1018 40 1 1

Figure 2.3 : Encodage au format GRF d’un transducteur contenant la liste de termes (avec lemmatisation) pour la classe 10.

donc plus reconnaissable par une seule étiquette <TOKEN>mais bien par deux. Afin d’éviter cette désynchronisation, un transducteur de prétraitement remplace toutes les formes élidées par une forme complète correspondante, par exemple « le » pour « l’ ».

Une procédure de désambiguïsation ciblée peut également être souhaitable afin d’éviter certaines erreurs récurrentes. Cette étape sera évidemment fonction de la ressource terminologique, ou plus précisément des transducteurs générés à partir de celle-ci, ainsi que du type de texte que l’on envi- sage de traiter. Par exemple, dans le cas de textes juridiques, l’expression « art. 2 » (article 2) peut être interprétée, à tort, comme reliée à une catégorieART(arts plastiques, etc.) issue de la terminologie. L’idéal est de réaliser une étude exhaustive des termes de la terminologie posant un problème d’ambiguïté. Évidemment, cette tâche n’est pas complètement automatisable et est spécifique à une ressource et à une langue en particulier. Afin de minimiser l’effort nécessaire, on peut cependant en- visager de mener cette étude lors de la construction même de cette ressource, qui mobilise de toutes façons les compétences de spécialistes. Pour les ressources existantes, il est nécessaire de mettre au point une méthode de détection de la polysémie permettant de repérer les cas problématiques et qui requièrent une intervention.

Finalement, d’autres tâches de prétraitement plus classiques sont réalisées. Comme déjà exposé à la section 2.3.6, le texte doit être désaccentué et décapitalisé afin de pouvoir être confronté aux transducteurs. La suite du processus, tokenisation et application des dictionnaires électroniques, est réalisé au moyen d’Unitex (TokenizeetDico).

70 2 Indexation semi-automatique, une approche symbolique de classification de textes

2.4.2 Application des transducteurs au texte

L’application des transducteurs issus du thésaurus aux textes est également effectué à l’aide d’Unitex (Locate). Le résultat est récupéré directement dans le fichier concord.ind, habituellement utilisé par Unitex pour construire les concordances. Ce fichier se présente sous la forme d’un index de mots ou d’expressions (Figure 2.4), et est par conséquent très commode à analyser automatiquement33.

0 12 @000101024.xml@ 14 16 <title> 53 53 aeroport[[MT111]] 57 57 bruxelles[[MT991]] 60 63 </title> 77 77 president[[MT157]] 113 113 ministre[[MT124]] 117 117 transports[[MT111]] 124 124 armee[[MT122]] 124 124 armee[[MT102]] 140 140 aeroport[[MT111]] 144 144 bruxelles[[MT991]] 193 193 batiments[[MT191]] 235 235 controlees[[MT992]] 264 270 personnel de le aeroport[[MT111]] 274 274 bruxelles[[MT991]] 295 295 ministre[[MT124]] 299 299 transports[[MT111]] 348 348 aeroport[[MT111]] 356 356 livre[[MT133]] 360 360 marchandises[[MT192]] 385 385 ministre[[MT124]] 420 420 president[[MT157]] 446 446 deputee[[MT124]]

Figure 2.4 : Liste de mots ou d’expressions, retrouvées à l’aide des transducteurs, telle que présentée dans le fichier concord.ind. Le code de catégorie est inclus entre les doubles crochets.

2.4.3 Pondération

Sur la base de la liste construite après application des transducteurs au texte (Figure 2.4), un poids est calculé pour chaque expression et ensuite globalement pour chaque catégorie. Cette pondération est basée sur une mesure de fréquence, mais d’autres critères peuvent également être pris en compte : la longueur d’une expression composée, la présence du terme dans le titre34, etc. Ces caractéristiques sont implémentés par des multiplicateurs appliqués au poids initial. Ces éléments sont abordés plus en détail dans les paragraphes suivants.

La valeur de base pour la pondération des expressions est constituée de leur fréquence. Elle peut alternativement être donnée par la mesure du TF.IDF (term frequency-inverse document frequency). Cette valeur est couramment utilisée pour évaluer le poids d’un terme par rapport à un corpus donné.

33_{Les deux premières colonnes indiquent les numéros des tokens délimitant l’expression} 34

Cela implique bien entendu que le titre soit délimité, ce qui constitue une attente raisonnable. Les textes pour lesquels cette information ne serait pas disponible peuvent faire l’objet d’une détection du titre lors d’un prétraitement.

2.4 Extraction et classification 71

Les formules appliquées sont :

tf_ij = Pnij knkj

idf_i = log |D| |{dj : ti∈ dj}|

où nij est la fréquence d’un terme i dans le document dj, P

knkjest la somme des fréquences pour l’ensemble des termes k d’un document dj,

|D| étant le nombre de documents dans le corpus,

et|{dj : ti∈ dj}| le nombre de documents dans lesquels le terme i est présent.

La valeur du TF.IDF est obtenue par : tf.idfij = tfij∗ idfi

Le but de cette mesure est de donner plus d’importance aux mots très fréquents dans un document, mais rares à l’échelle du corpus. Chaque expression de la liste obtient donc un poids TF.IDF. Les valeurs IDF sont précalculées35sur le corpus en appliquant les transducteurs de reconnaissance issus de la ressource terminologique.

En plus de la fréquence d’un terme, le fait que les informations importantes pour la classification apparaissent souvent au début du document, c’est-à-dire principalement dans le titre et le résumé, ou le paragraphe d’introduction s’il existe, constitue une caractéristique importante. Cette importance est soulignée par la norme AFNOR Z 47-102 (AFNOR [1993]) et est également bien connue dans le milieu du journalisme. En effet, dans un article de presse, c’est au titre et au chapeau que reviennent la tâche d’attirer l’attention du lecteur et de l’amener à lire la suite de l’article. Ces parties concentrent par conséquent de nombreuses informations pertinentes et importantes en ce qui concerne le contenu du texte. Nous avons donc introduit un multiplicateur qui est appliqué au score de base (TF.IDF) si l’expression se situe dans le titre.

L’intérêt particulier porté aux expressions composées est également exploité en tant que caractéris- tique. Bien que cet aspect soit déjà indirectement pris en compte dans la mesure du TF.IDF, nous avons prévu un multiplicateur supplémentaire pour augmenter le score des termes polylexicaux.

La dernière caractéristique prise en compte concerne les entités nommées. Celles-ci peuvent être détectées à l’aide de transducteurs spécifiques lors de la phase de prétraitement du texte. À nouveau, un multiplicateur est employé pour favoriser ce type d’expressions.

Pour chaque expression qui apparaît dans la liste de résultats (voir section 2.4.2 et figure 2.4), une mesure de base est calculée. Cette valeur est ensuite modulée, le cas échéant, par les multiplicateurs abordés ci-dessus. Pour chaque catégorie représentée, les scores obtenus par les diverses expressions qui y sont reliées s’additionnent pour former le poids final. La liste ordonnée des catégories est alors produite. Cette liste, dont les poids peuvent éventuellement être normalisés entre 0 et 1, compte un nombre variable d’éléments suivant les textes analysés.

Cette méthode peut être perçue comme un biais, mais il s’agit d’une approximation raisonnable des scores IDF qui seraient graduellement construits lors du traitement des mêmes documents en situation réelle.

72 2 Indexation semi-automatique, une approche symbolique de classification de textes

2.4.4 Réduction de la liste de catégories

La liste pondérée obtenue peut, dans certains cas, être assez longue et les différences de poids importantes. Nous désirons donc réduire cette liste afin de ne garder que les candidats les plus probables. Cette sélection est opérée au moyen d’une méthode de seuil. Trois méthodes différentes ont été ex- périmentées.

La première méthode (k-first) est très simple et permet d’obtenir des résultats de référence. Elle consiste à conserver les k premières catégories correspondant aux meilleurs scores.

Les deux autres méthodes s’appuient sur des valeurs pivot qui définissent une valeur centrale selon un certain critère. La deuxième méthode de seuil s’appuie sur la moyenne des poids obtenus par les catégories (averaged weight), alors que la dernière (middle weight) s’organise autour de la valeur centrale de l’intervalle allant de 0 au poids le plus élevé de la liste de catégories. La valeur pivot pour la méthode averaged weight correspond au poids moyen obtenu à l’aide de :

pivot_aw =

Pn i=1wi

où wiest le poids attribué à la catégorie i, et n le nombre total de catégories proposées.

Pour la méthode middle weight, la valeur pivot s’obtient assez simplement :

pivotmw = wmax₂

où wmaxest le poids le plus élevé de la liste de catégories.

À partir de ces pivots et de la valeur maximale, différents niveaux de seuils, plus ou moins stricts, peuvent être obtenus par échantillonnage. Aux cours des expérimentations, plusieurs valeurs ont été testées afin de déterminer dans quelle mesure le seuillage doit être sévère ou non. Les diverses valeurs intermédiaires sont obtenues par sauts de taille fixe à partir du pivot. Pour obtenir x niveaux de seuil (en plus du pivot), x₂ points vont être déterminés au dessus et en dessous de la valeur pivot. L’incrément ajouté ou retranché du pivot est calculé, pour les deux méthodes, selon les formules suivantes :

pour les points compris ente pivot et wmax,

increment= wmax−pivot

x/2

pour les points inférieurs à pivot,

increment= pivot_x/2

La valeur de x à été fixée à 20, ce qui donne 21 valeurs de seuil au total. Notons que la première méthode produit toujours un nombre fixe de propositions par point alors que les deux autres en retournent un nombre variable. Le but final est de déterminer quel type de seuil serait le plus approprié dans un environnement applicatif réel.

Dans le document Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles (Page 69-74)