• Aucun résultat trouvé

Les approches pour comparer des ensembles de messages

En fait, la diff´erence pertinente n’est pas celle per¸cue par un ˆetre humain, mais celle per¸cue par le classificateur, qui n’acc`ede qu’`a une repr´esentation des messages.

Dans ce chapitre nous pr´esentons des r´eflexions sur la comparaison de flots ou ensembles de messages. En particulier, nous rappelons quelques id´ees issues du domaine de la Th´eorie d’Information qui justifieraient l’utilisation des divergences entre distributions de probabilit´e pour comparer des ensembles de messages soumis `a classement par un algorithme du type g´en´eratif.

13.2

Les approches pour comparer des ensembles de mes-

sages

Comme il a ´et´e dit dans l’introduction, la comparaison pertinente n’est pas celle ressentie par un ˆetre humain, mais celle per¸cue par le classificateur. Il y a trois cas `a consid´erer. Dans le premier cas, aucune information sur classificateur et la repr´esentation interne des messages n’est pas accessible. Dans les deux autres, il convient de faire une distinction entre les classificateurs g´en´eratifs (e.g. le classificateur Bay´esien Na¨ıf et les classificateurs `a compression de donn´ees) et les classificateur discriminants (e.g. , le classificateur `a R´egression Logistique, les SVM ou le Perceptron).

Dans ce chapitre nous traitons seulement le cas des classificateurs g´en´eratifs. Les sections suivantes pr´esentent les id´ees de principe de la comparaison d’ensembles de messages soumis `a un classificateur de ce type.

13.2.1

Les boˆıtes noires

Dans le chapitre 10, nous avons examin´e trois flots de messages - des spams - nous sommes arriv´es `a la conclusion que ces flots ont une certaine ressemblance. En effet, dans les exp´erimen- tations de ce chapitre, rien n’a ´et´e suppos´e ni sur le classificateur, ni sur les flots de messages. Les classificateurs sont vus comme des boˆıtes noires. Les conclusions r´esultent uniquement de mesures indirectes telles la diff´erence ressentie dans l’efficacit´e de classement, ou des caract´e- ristiques d´eduites `a l’aide d’outils particuliers (e.g. les variogrammes, les corr´elogrammes ou p´eriodogrammes) appliqu´es `a des s´eries temporelles.

13.2.2

Les classificateurs g´en´eratifs

Dans les classificateurs de ce type (e.g. , le Bay´esien Na¨ıf), on associe un mod`ele `a chaque classe. Le mod`ele correspond `a la distribution de probabilit´es empirique des termes. L’op´eration de classement consiste `a v´erifier, pour l’objet `a classer, quelle classe serait la plus susceptible de produire cet objet. Dans le cas du classificateur Bay´esien Na¨ıf, cela revient `a ´evaluer une ”distance” entre l’objet et chacune des distributions de probabilit´e. Cette distance peut ˆetre pos´ee en termes d’un rapport de vraisemblance ou d’une divergence de Kullback-Leibler. Ainsi, on peut penser que la comparaison entre deux ensembles de messages, peut se r´eduire `a ´evaluer la divergence de Kullback-Leibler entre les distributions de probabilit´e des termes.

13.2.3

Les classificateurs discriminants

Dans le cas de ces classificateurs, il n’y a pas de mod`ele associ´e `a chaque classe. L’op´eration de classement est bas´e sur la recherche de la position relative de l’objet `a classer par rapport `a une surface de s´eparation entre les classes et d’attribuer l’une ou l’autre classe selon cette position relative. L’id´ee na¨ıve consiste `a v´erifier si une telle surface existe. Une autre approche serait d’utiliser un ensemble de messages ”t´emoin” que l’on sait diff´erent des ensembles `a comparer, et de v´erifier si les surfaces de s´eparation entre les classes sont identiques ou proches autour des zones de concentration des objets. Cette comparaison peut ne pas etre triviale pour des classificateur non lin´eaires, mais dans le cas contraire, il suffirait de v´erifier la distance entre des hyperplans de d´elimitation.

Chapitre 13. Comparaison de flots ou ensembles de messages

13.3

Le divergences entre distributions de probabilit´e

Dans cette section nous passons en revue quelques coefficients de divergence entre distribu- tions de probabilit´e. Ce sont des mesures qui, du point de vue de la th´eorie d’information, ont une interpr´etation en rapport avec des bornes de taux d’erreur en teste d’hypoth`eses et applications de classement, comme nous le verrons dans la section suivante. Bien entendu, on consid`ere que les ensembles de messages peuvent ˆetre repr´esent´es par des distributions empiriques de probabilit´e des termes.

Dans la bibliographie statistique, des nombreux coefficients ont ´et´e sugg´er´es pour ´evaluer la ressemblance entre distributions de probabilit´e ou la facilit´e de les distinguer (manque de ressem- blance), avec des d´enominations diff´erentes selon l’application. Nous utilisons la d´enomination ”divergence” et non pas m´etrique puisque, en g´en´eral, ce ne sont pas des m´etriques dans le sens usuel. Kullback [156] a sugg´er´e ”coefficient de divergence d’une distribution par rapport `a une autre”. Une m´etrique est d´efinie comme suit :

D´efinition 13.1. M´etrique ou Distance [113] Soit X un ensemble quelconque. Une fonction d :X × X 7→ R+, l’ensemble des nombres r´eels, est dite une m´etrique en

X si : 1. d(x, y)≥ 0, ∀x, y ∈ X (Non-N´egativit´e) ;

2. d(x, y) = d(y, x),∀x, y ∈ X (Sym´etrie) ;

3. d(x, y) = 0, si et seulement si x = y (S´eparation) ;

4. d(x, y) + d(y, z)≥ d(x, z), ∀x, y, z ∈ X (In´egalit´e Triangulaire)

Si d est une m´etrique, (X , d) est dit un espace m´etrique. Si d satisfait (2) et (4), mais pas forc´ement (3), on dit que d est un ´ecart.

Ali et Silvey [4] sugg`erent que une divergence entre distributions de probabilit´e doit satisfaire une liste non exhaustive de quatre propri´et´es :

1. Le coefficient d(P1, P2) doit ˆetre d´efini pour toute paire P1et P2de l’espace de probabilit´es

partag´e.

2. Si l’on suppose que y = t(x) est une transformation mesurable d’un espace de mesure (X , F) vers un autre espace (Y, G) alors, on doit avoir :

d(P1, P2)≥ d(P1t−1, P2t−1)

o`u Pit−1est la mesure enY correspondante de la mesure PienX . Cette propri´et´e, qui n’est

pas intuitive, r´esulte de l’in´egalit´e de traitement des donn´ees [73] qui d´emontre que aucune transformation des donn´ees, surtout celles d’agr´egation, ne peut am´eliorer la qualit´e de l’inf´erence que l’on peut faire `a partir des donn´ees de d´epart. Cette propri´et´e a une autre interpr´etation ´equivalente. Supposons que{xn; n = 1, 2, . . .} est un processus stochastique

et que P1et P2sont deux possibles distributions pour ce processus. Il est plausible que plus

longues sont les observations faites sur le processus, meilleure sera notre capacit´e d’identifier la vraie distribution.

3. d(P1, P2) doit assumer une valeur minimale quand P1 = P2 et sa valeur maximale quand

P1⊥ P2. Selon cette propri´et´e, la divergence augmente lorsque les distributions ”s’´eloignent”.

4. Soit θ un param`etre r´eel et {Pθ; θ ∈ (a, b)} une famille de distributions Pθ(x) avec des

rapports de vraisemblance monotones en x. Si a < θ1< θ2< θ3< b, alors :

d(Pθ1, Pθ2)≤ d(Pθ1, Pθ3)

Cette propri´et´e r´esulte de la pr´ec´edente dans le sens o`u le but de la divergence est d’´evaluer la discrimination de deux distributions et, donc, augmenter avec cette capacit´e, si l’on consid`ere que le rapport de vraisemblance en est un indicateur.