Segmentation du texte : approche linguistique

C =_{c1, c2, . . . , c|VM|}

et _VM est le vocabulaire des termes trouv´es dans l’ensemble des messages de la boˆıte aux

lettres.

4.3 Segmentation du texte : approche linguistique

La segmentation3_{est l’opération qui consiste `}_{a décomposer un texte en unités minimales : des}

unités qui ne seront pas décomposées d’avantage. L’unité naturelle de décomposition est souvent le mot (ou plutôt la forme graphique).

Joachims [138, p. 12] classe les méthodes de segmentation, selon le niveau de complexité, en : * Niveau sub-mot - décomposition de mots selon leur morphologie.

* Niveau mot - les mots avec, ´eventuellement, information lexicale.

* Niveau mots multiples - groupe de mots, phrases avec, ´eventuellement, information syntaxique.

* Niveau s´emantique - compr´ehension du texte.

* Niveau pragmatique - compréhension du texte avec prise en compte de son contexte. Quelque soit le niveau choisi, le message est représenté par un vecteur dont les termes (attributs) non nuls sont ceux présents dans le message.

4.3.1 Niveau mots (ou formes simples)

Il y a un consensus sur l’utilisation des mots comme unité de base dans les applications de recherche documentaire et classement de textes [138] [213] [231] : il s’agit d’une décomposition naturelle, d’implémentation simple et dont l’efficacité a été démontrée. Même quand le niveau de décomposition est plus élevé que le mot, ce niveau reste encore une étape intermédiaire dans l’extraction des attributs.

Une heuristique triviale pour extraire les mots consiste à définir un ensemble de caractères séparateurs - généralement des espaces et des signes de ponctuation, puis parcourir le texte et retenir toute séquence de caractères non séparateurs comprise entre deux caractères séparateurs [183] [182]. Certains caractères peuvent être à la fois des caractères séparateurs et faire partie des formes (e.g. ’ - . , : ). D’autres peuvent être soit des séparateurs, soit être des formes à part entière (e.g. ( ) < > ! ? = ). L’opération de segmentation n’est pas triviale et doit tenir compte des caractères qui entourent chaque caractère séparateur.

Les attributs extraits de cette fa¸con s’appellent formes graphiques (ou simplement formes) et ne correspondent pas nécessairement à des mots dans le sens linguistique. Des nombres (e.g., 1.234.567,89 ), des numéros de téléphone, des sigles (S.N.C.F.) sont des exemples de formes qui ne sont pas des mots. Pour cette raison, il est préférable d’utiliser le mot forme pour désigner l’unité de segmentation.

Les occurrences sont des instances d’une même forme à des endroits différents du texte. Dans les applications de classement de spam il est souvent utile de convertir systématiquement certaines séquences courantes telles un numéro de téléphone ou un montant en une représenta- tion de format : 99.99.99.99.99 (au lieu de 01.40.51.90.00 ) ou U$ 999,999.00 (au lieu de U$ 110,865.22 ). Ces transformations visent, certes, à réduire le nombre d’entrées du vocabulaire et surtout à retenir que le terme en question fait référence à un numéro de téléphone, ou à un montant en dollars plutôt que à sa valeur précise (il s’agit d’un méta-attribut, comme nous verrons par la suite). Une autre transformation souvent utile est la conversion systématique vers une casse de caractères unique, en général les minuscules.

D’autres traitements peuvent être utiles pour des applications plus pointues : le remplacement de certains mots par un un synonyme unique ou la levée d’ambigu¨ıté pour des mots pouvant avoir

Chapitre 4. La Représentation des Messages Électroniques des sens différents selon le contexte. En général, ces traitements, assez lourds, ne se justifient pas pour le classement de spam [59].

4.3.2 Niveau formes multiples

La perte d’information due à l’hypothèse d’indépendance statistique des formes n’est pas le seul inconvénient de la représentation de niveau formes simples. Les expressions et mots composés (e.g. Recherche Documentaire, Apprentissage Artificiel ) perdent leur sens lorsque les mots sont considérés séparément.

Pour tenir compte de cet aspect, on utilise des termes qui sont constitu´es non pas d’un seul mot, mais d’une suite de mots. Les deux approches pour constituer des termes d’ordre sup´erieur sont [231] [138] :

Approche Syntaxique : cette approche consiste à considérer des séquences de mots ou même des phrases entières, conformes à la grammaire de la langue, comme termes [170] [94]. Dans ce cas, les termes sont significatifs, du point de vue sémantique ou syntaxique et n’ont pas forcément une taille fixe (en nombre de mots ou formes). Cette approche est dépendante de la langue et, à notre connaissance, aucun résultat de recherche utilisant cette approche pour le classement de spam n’a été publié.

Approche Statistique - cette approche consiste à utiliser un nombre fixe de formes (2, 3, ...) pour constituer les termes (des n-grams de niveau mot) [42]. Par exemple, dans un modèle 2-gram la phrase ”Allons enfants de la patrie” sera représentée par les termes{”Allons+enfants”, ”enfants+de”, ”de+la”, ”la+patrie”}. C’est toujours le modèle BOW qui est utilisé, mais l’utilisation d’une fenêtre glissante produit une prise en compte partielle de la dépendance statistique entre les mots. Il existe une équivalence implicite entre ce modèle de génération de messages et un processus de Markov, où l’état du processus est défini les n_{− 1 derniers termes, mais les valeurs} de probabilité visibles et utilisées sont les probabilités des états et non pas les probabilités de transition.

Plusieurs travaux [170] [94] [42] ont démontré que l’utilisation de représentations plus complexes n’améliore pas de fa¸con significative l’efficacité de classement et parfois peut même la dégrader. La raison est que les termes d’ordre supérieur au mot sont plus significatifs du point de vue sémantique, mais moins du point de vue statistique : d’une part leur fréquence est plus faible puisque le vocabulaire est plus important, et aussi le nombre d’attributs croit exponentiellement avec l’ordre de la représentation [183] [231] [59], ce qui implique une utilisation d’un nombre d’échantillons plus important et un classificateur avec une inertie importante, inconvénient ma- jeur dans le cas d’un processus évolutif tel le classement de spams.

Joachims [138] conjecture que le mot est la plus petite forme avec du sens sémantique, le point où se croisent la sémantique, la syntaxe et la morphologie, ce qui fait que ce niveau de segmentation est souvent, optimal pour un grand nombre de tâches.

Si l’utilisation des termes d’ordre supérieur au mot n’est pas toujours justifiée, le mélange de phrases ou n-grams avec des mots (e.g. mots + bi-mots) permet d’améliorer la qualité de classement [42] [231] [59].

Une variante de cette approche est le OSB (Orthogonal Sparse Bigrams) [242], utilisée par le filtre anti-spam CRM1144_{. Cette représentation permet d’intégrer l’interaction des mots non}

adjacents. Pour l’extraire les termes, il suffit de parcourir le texte avec une fenêtre de taille N (typiquement 5) et noter tous les couples de deux mots à l’intérieur, pour chaque position de la fenêtre. Le nombre de termes extraits pour un texte de longueur M est de l’ordre de M_{∗ (N − 1).} Ainsi, la phrase ”Allons enfants de la patrie” génère les termes_{{”Allons enfants * * *”, ”Allons} * de * *”, ”Allons * * la *”, ”Allons * * * patrie”, ”enfants de * *”, ..._{}. Cette représentation} semble astucieuse, mais elle présente les mêmes avantages et inconvénients des autres méthodes de représentation de niveau supérieur au mot.

4.3. Segmentation du texte : approche linguistique

4.3.3 Niveau sub-mots

Dans ce niveau, deux types de représentations ont été expérimentées pour le classement des spams : les n-grams de niveau caractère et les arbres de suffixes.

La représentation par n-grams est équivalente, au niveau caractères, à l’approche statistique du niveau mots multiples : il s’agit de parcourir le texte avec une fenêtre glissante de taille n caractères. Ainsi, la phrase ”Allons enfants de la patrie” serait représentée par les 4-grams{”allo”, ”llon”, ”lons”, ”ons ”, ”ns e”, ”s en”, ” enf”, ”enfa”, ”nfan”, ...}. Dans ce niveau de représentation, la génération de texte est modélisée par un processus de Markov d’ordre n-1 [218] ce qui permet, comme pour le niveau des mots multiples, de restaurer partiellement la dépendance entre les parties successives du texte.

La modélisation de niveau caractère du langage naturel remonte à Shannon [238] pour l’éva- luation de l’entropie asymptotique de la langue anglaise et la sécurité des systèmes cryptogra- phiques [237]. Shannon modélisait la génération d’un texte par des processus de Markov d’ordre croissant, partant d’un processus sans mémoire. Le résultat de ses travaux ont été mis à jour plusieurs années après, par Cover [72] et Brown [39]

Si bien que largement utilisée depuis longtemps dans les applications commerciales de reconnaissance vocale [218], l’application au langage naturel écrit est resté restreint à la cryptana- lyse [153], à la reconnaissance optique de caractères et à la détection et correction de fautes dans les textes [247], probablement à cause du succès limité de certaines expérimentations et de la représentation faite plus naturellement en mots que en n-grams.

A la fin des années 70, Suen [247] étudie les caractéristiques statistiques des n-grams et suggère son utilisation dans les applications de traitement de documents textuels pour des tâches plus complexes que la détection et correction de fautes typographiques. Dans les années 80 et 90, quelques travaux en recherche documentaire ont été publiés avec des résultats modérés [120, p. 116] [45] (identification d’adresses postales) ou alors non validés sur des corpus de taille suffisamment importante [120, p. 116] [83].

Cavnar [44] a utilisé des n-grams pour classer des articles de groupes de ”news” Usenet news- groups avec précision de 99.8 % pour un classement selon la langue et de 80 % pour un classement thématique. À la fin des années 90 des résultats plus robustes ont commencé à paraˆıtre pour des applications de classement [193], indexation [184] ou traduction automatique [89] de textes.

La représentation de texte avec des n-grams a plusieurs intérêts [138] [59] : la robustesse dans un environnement bruité, la capacité de identifier la similarité entre mots et/ou motifs, la capacité d’identifier et corriger les fautes d’orthographe et les déviations morphologiques, ainsi que des interactions intra et inter mots. La sensibilité au bruit est une caractéristique essentielle pour le classement des spams, à cause des fautes intentionnelles courantes (modélisées comme étant du bruit) visant à tromper les classificateurs.

La représentation par n-grams pour le filtrage de spams a été experimentée par Brien et Vogel [195], Keselj [144], Cormack [58], Sculley [230], Kanaris [141], Berger [19]. Lors de la dernière conférence TREC-2007, les deux classificateurs les plus performants utilisaient des n- grams pour la représentation des messages : Cormack [58] avec un classificateur à régression logistique [115] et Sculley avec une classificateur SVM [229]. Tous les deux utilisaient les 3500 premiers caractères du message brut.

Pampapathi [199] a utilisé des arbres de suffixes pour représenter les messages. Un arbre de suffixes est une structure hiérarchisée contenant tous les suffixes d’une chaine [186] [254] [192] [122]. Ces structures sont beaucoup utilisées pour l’indexation intégrale de texte et pour la recherche exacte de séquences similaires dans les génomes (bioinformatique). Ces structures ont des inconvénients mais des travaux récents proposent des solutions pour les minimiser : la place mémoire occupée [1] et la sensibilité au bruit (puisque la recherche est exacte) [271].

Les résultats de Pampapathi [199] semblent moins bons que ceux de Cormack et Sculley [58] [230] mais ils ne peuvent malheureusement pas être comparés : les corpus de messages sont différents, contiennent très peu de messages et, surtout, l’auteur a utilisé un protocole de validation croisée (K-fold cross validation) pour évaluer l’efficacité du classificateur - ce protocole n’étant pas adapté au classement en ligne, les résultats sont trop optimistes.

Chapitre 4. La Représentation des Messages Électroniques Dans les différentes évaluations, en particulier TREC 2007, les filtres les plus performants ont utilisé les tétragrammes de niveau caractère comme attribut. La raison, selon Gordon Cor- mack [59], est que, du fait que ce type d’attribut contient moins d’informations linguistiques que son équivalent de niveau mot, l’évidence suggère qu’il est capable de mieux capturer les interactions inter et intra mots et sont assez robustes vis-à-vis des fautes d’orthographe et des variantes morphologiques, des qualités qui semblent intéressantes dans un classificateur de messages élec- troniques.

4.3.4 Niveaux s´emantique et pragmatique

Ces deux niveaux visent la compréhension du texte, des niveaux atteint lorsque le texte est lu par un humain et suffisant pour le classement des messages. Néanmoins, l’état actuel des techniques ne permet pas d’extraire automatiquement la sémantique d’un texte non structuré et de le représenter sous une forme opérationnelle [138, p. 16]. Il n’y a pas d’évidence montrant que ce niveau apporte une amélioration au classement de spams.

Certaines méthodes de classement de spam cherchent à identifier l’objet du message par la recherche de certaines expressions régulières capables de caractériser le sujet. Mais dans ces cas, il ne s’agit pas d’une méthode inductive, c’est-à-dire, on ne part pas du texte pour déduire son sens, mais on se contente de rechercher certains critères particuliers permettant de classer le message dans la catégorie spam.

Dans le document Contribution au classement statistique mutualisé de messages électroniques (spam) (Page 53-56)