Méthodes statistiques - Approches d’extraction des termes

1. Représentation des connaissances

1.4 Indexation automatique de documents

1.4.3 Approches d’extraction des termes

1.4.3.1 Méthodes statistiques

  + −  +  = ) ) 1 ( ( ) 1 ( 1 1 (1.7) Où Wij est le poids du terme ti dans le document dj,

tfij est la fréquence du terme ti dans le document dj

K1 contrôle l'influence de la fréquence du terme ti dans le document dj. Sa valeur dépend de la longueur des documents dans la collection de documents.

b est une constante qui contrôle l'effet de la longueur du document dlj est la longueur du document dj

l est la longueur moyenne des documents dans la collection.

Pour mieux représenter un document, la segmentation de son contenu pour extraire les différents descripteurs ne se fait pas toujours au niveau "mot simple". En effet, des mots contigus, pris ensemble, peuvent représenter une sémantique qui ne peut être retrouvée lorsque ces mots sont pris séparément. Dans la section suivante, nous décrivons quelques approches qui traitent de l’extraction d’une suite de mots représentant une unité sémantique.

1.4.3 Approches d’extraction des termes

Les premiers travaux définissaient le processus d’extraction des termes par l’identification de collocation. Leur point commun est d’identifier des segments de texte qui se répètent à l’intérieur d’un corpus. Choueka, [Choueka, 1988] définit une collocation comme étant une suite de deux ou plusieurs mots formant une unité syntaxique ou sémantique dont la signification ne peut être déduite directement à partir de ses constituants.

Les applications permettant d’extraire des termes à partir de documents exploitent un corpus spécialisé couvrant le domaine à représenter et définissent deux modes d’analyse différents. Une catégorie d’approches applique une analyse statistique et une autre catégorie s’appuie sur une analyse linguistique du corpus [Claveau, 2003]. De nouvelles approches combinent les deux catégories et proposent des méthodes hybrides.

1.4.3.1 Méthodes statistiques

Les méthodes statistiques sont très utilisées lorsqu’on veut traiter un corpus de taille volumineuse. Elles permettent un traitement rapide puisqu’elles n’utilisent aucun traitement linguistique et ne reposent que sur l’exploitation d’un corpus. L’analyse statistique s’appuie sur la distribution et le contexte d’apparition des termes dans les documents. Elles exploitent uniquement un corpus et aucune ressource externe n’est utilisée. Les descripteurs peuvent être des stemmes ou des lemmes représentés souvent par leurs fréquences.

Des critères d’associations sont également utilisés pour mesurer la liaison de deux lemmes ou lexèmes (Unité de sens et de son figée dans une langue, sans distinction flexionnelle ou dérivationnelle. Par exemple, forment et formeront sont des formes du même lexème former1). L’information mutuelle permet de comparer la probabilité d’apparition des deux lexèmes ensemble avec la probabilité de les observer séparément [Brown et al., 1990][Lebart et al., 1988][Church et al., 1989].

Travaux de Church

Les premiers travaux statistiques traitant des données linguistiques sont ceux de Church [Church et al., 1989] qui identifie automatiquement l’ensemble des collocations contenues dans un ensemble de documents textuels. Il définit l’information mutuelle qui reflète la liaison entre deux lexèmes. Il compare alors la probabilité d’observer ces deux lexèmes ensemble avec leur probabilité d’apparition seuls. La probabilité d’apparition d’un lexème seul est donnée par le rapport entre sa fréquence totale dans un corpus et le nombre total de lexèmes dans le corpus. La probabilité d’apparition des deux lexèmes ensemble est donnée par le nombre de fois où les deux lexèmes apparaissent ensemble dans une fenêtre de taille t, où t représente le nombre variable de lexèmes formant cette fenêtre.

Travaux de Fagan

La méthode statistique utilisée par Fagan [Fagan, 1987] permet d’extraire des descripteurs de deux types : uniterme et bi-termes. Les bi-termes sont des groupes de deux mots adjacents. Son processus détermine, à partir de leurs co-occurrences, les termes acceptables pour former des groupes de mots candidats p. Les groupes de mots sont sélectionnés en fonction de leur fréquence df-phrase dont la valeur doit être comprise entre un seuil minimal et un seuil maximal définis par l’auteur. A Chaque token du document est associé un statut déterminant s’il représente la tête de p (phrase-head) ou un composant de p (phrase-comp). Pour cela des seuils de fréquences df-head et df-comp sont définis. Un token t est acceptable pour être

phrase-head si sa fréquence est supérieure à df-head. Si la fréquence de t est supérieure à df-comp, t est alors un phrase-comp. Fagan construit deux vecteurs, l’un contenant les

descripteurs uniterme et l’autre les groupes de deux mots.

Dans son exemple, le document 71 extrait de la collection CISI possède les tokens (word,

word, associ, docu, retrief, system). Le token docu est acceptable pour être un phrase-head. Il

est alors combiné avec les tokens, associ et retrief qui lui sont adjacents pour former les groupes "docu associ" et "docu retrief ".

Associ ne peut être un phras-head car sa fréquence est inférieure au seuil retenu.

Fagan extrait pour le document 71, les descripteurs unitermes et bi–termes suivants : (word, associ, docu, retrief, system, retrief system, docu retrief, word associ, docu associ).

Pour l’extraction des termes, Fagan propose également une méthode syntaxique. Les résultats de ses expérimentations montrent que la méthode statistique donne de meilleurs résultats que la méthode syntaxique.

Travaux de Lebart

Les travaux de Lebart [Lebart et al., 1988][Lebart et al., 1994] ont pour objectif d’extraire des termes composés à partir d’un corpus de textes lemmatisés. Ils recherchent dans un corpus des séquences de mots contigus (segments) qui se répètent plusieurs fois dans un texte. Un seuil est fixé par expérimentation et permet de décider qu’une séquence définit un terme composé.

Travaux d’Ahmad

Les travaux d’Ahmad [Ahmad, 1996] consistent à repérer des formes, appelés "étranges", couvrant un domaine donné. L’objectif est de regrouper ces formes dans des listes pour leur exploitation par des terminologues. Deux corpus sont utilisés, l’un est technique et l’autre non technique. Il définit un coefficient d’étrangeté (co-efficient of weirdness) comme étant le rapport entre la fréquence relative d’une forme dans un corpus non spécialisé et la fréquence relative de la même forme dans un corpus technique. La liste des formes obtenue est triée en fonction du coefficient d’étrangeté et place les formes liées à la thématique du corpus technique en début de liste.

Travaux d’Alvarez

Alvarez [Alvarez et al., 2004] montre dans ses travaux que l’hypothèse de l’indépendance des termes sur laquelle se base la plupart des approches classiques dans le domaine de la recherche d’information n’est pas toujours justifiée. Si un utilisateur spécifie dans sa requête les mots clés "recherche d'information", un document qui traite le thème moteurs de

recherche et contient les termes "recherche d'information" est intuitivement plus pertinent

qu’un document n’ayant pas de rapport avec le thème recherché et qui contient les termes "recherche" et "information" dans des contextes indépendants.

Alvarez exploite les termes composés de deux mots qui apparaissent l’un à côté de l’autre sans contrainte sur l'ordre des mots avec le modèle de langue. Alvaez part de l’hypothèse que l’ordre des mots n’est pas toujours important en recherche d’information. En prenant par exemple la requête "apartment rent". Un document contenant l’expression "rent an

apartment" ne doit pas être considéré moins pertinent qu’un document contenant l’expression

"apartments for rent". Il sélectionne les paires de mots en déterminant des relations statistiques, ou des affinités lexicales, entre les mots qui co-occurrent dans une fenêtre de 5 mots (à gauche et à droite d'un mot donné).

Dans le document Modélisation ontologique pour la recherche d'information : évaluation de la similarité sémantique de textes et application à la détection de plagiats (Page 34-37)