• Aucun résultat trouvé

ii Présentation des Machines à Vecteurs Support (SVM)

Dans le document Effets masqués en analyse prédictive (Page 58-67)

E. Méthode d’analyse des effets locaux (AEL)

E.3. ii Présentation des Machines à Vecteurs Support (SVM)

Depuis Guadagni et Little (1983) jusqu’à West et al. (1993), toutes les grandes techniques de discrimination issues de différentes disciplines ont été adaptées en modélisation marketing. C’est dans cette tradition que se placent Cui et Curry (2005) en présentant le principe des machines à vecteurs support (SVMs) et en comparant leurs performances à celles de différentes versions de la régression logistique pour mettre en avant leur excellente capacité à prédire les choix des consommateurs. Cet article propose une présentation particulièrement éclairante et concise des SVMs, en les replaçant dans le contexte de l’apprentissage statistique. D’autres articles récents ont utilisé cette nouvelle méthodologie pour optimiser

l’analyse conjointe (Evgeniou et al., 2005), ou des arbres de décision en data mining (Bennet et al. 1998).

Du côté de la modélisation cette fois, des présentations techniques approfondies ont été proposées par Burges (1998) et Creistinaini et Shawe-Taylor (2000) à la suite des travaux fondateurs de Vapnik (1995). En complément des présentations traditionnelles, nous proposons une approche géométrique des SVMs, déjà contenue dans Vapnik (1998), développée par la suite par Bennett et Bredensteiner (2000), et que nous adaptons ici. Cette approche correspond à l’équivalent géométrique du dual du problème d’optimisation initial et propose une vue intuitive des concepts sous-jacents des SVMs, complémentaire de celle proposée par Cui et Curry (2005) et directement interprétable par des non-initiés.

Cas simple

Tout d’abord considérons le nuage bidimensionnel représenté dans la Figure E.3.1. Les individus (indexés par i=1…I, et décrits par les coordonnées des vecteurs Xi) sont divisés en deux groupes, par exemple les acheteurs (Yi=1) et les non acheteurs (Yi=-1) respectivement représentés par des points noirs et blancs. Nous utilisons la distance euclidienne.

Figure E.3.1. Différentes fonctions de discrimination linéaires

Les deux groupes étant séparables, les trois droites tracées (comme toute autre droite séparant les deux groupes) peuvent être utilisées pour séparer les deux groupes et chaque droite correspond à une fonction de discrimination différente, accordant des poids respectifs différents aux deux variables de classification. La droite tracée en petits pointillés , qui est la médiatrice du segment joignant les centres de gravité des groupes, sépare les groupes suivant un seul critère qui est l’axe des abscisses (la variable de prédiction représentée sur l’axe des ordonnées n’aurait ici aucun pouvoir discriminant). La droite tracée en grands pointillés

suggère qu’une faible valeur suivant l’axe des abscisses pourrait être compensée par une valeur élevée suivant l’axe des ordonnées. Enfin la droite tracée en trait plein suggère qu’une valeur faible sur l’axe des abscisses pourrait être compensée par une valeur faible sur l’axe des ordonnées.

Quelle droite permet la meilleure classification ? Suivant quels critères choisir?

Nous allons montrer dans ce qui suit que la droite tracée en trait plein est la meilleure droite de classification car elle se base sur l’analyse des cas marginaux, et parce qu’elle induit le mode de classification le plus robuste. L’idée centrale des SVMs est de se focaliser sur les cas marginaux. Les vecteurs de supports sont d’ailleurs en réalité les cas les plus marginaux, en ce sens que ce sont les points les plus proches de cette droite, que nous appellerons par la suite droite de classification, et c’est par rapport à eux que sera déterminée la position de cette droite de classification.

Plutôt que de chercher directement la meilleure droite de classification, nous allons d’abord nous attacher à voir où ces deux groupes, acheteurs et non acheteurs, sont les plus proches l’un de l’autre. Techniquement, nous cherchons un point c appartenant à l’enveloppe convexe qui englobe tous les points du groupe des acheteurs et un point d appartenant à l’enveloppe convexe qui englobe tous les points du groupe des non-acheteurs, tels que c et d soient aussi proches que possible. Cette présentation géométrique a été formulée par Bennet et Bredensteiner (2000) par le programme quadratique suivant :

Comme nous le voyons, c et d sont définis comme appartenant à l’enveloppe convexe de chaque groupe. Pour un optimum, les points Xi ayant des poids αi strictement positifs soutiennent les points c et d, dans le sens où c et d sont des combinaisons linéaires de ces points et de ces points seulement (les éléments du vecteur de pondération α étant contraints séparément suivant les deux sous-groupes). Ces points ayant des poids strictement positifs sont appelés vecteurs support (et parfois vecteurs de support dans la littérature française sur le sujet, plusieurs traductions du terme anglais support vector étant admises).

Figure E.3.2. Enveloppes convexes et détermination des vecteurs supports

La figure E.3.2. ci-dessus donne une représentation graphique de la solution de ce programme quadratique. Ici nous avons quatre vecteurs support. Notons que dans le groupe des acheteurs (en noir), il y a un seul vecteur support (c est donc précisément ce point), et que dans l’autre groupe trois vecteurs support sont nécessaires (à la définition du point d). Une fois que c et d sont identifiés, la droite de classification (à ne pas confondre avec la frontière de probabilité décrite dans la sous-section C.1.ii.) que l’on choisira sera la médiatrice du segment reliant c et d11. La marge, définie par le double de la distance minimale d’un point du nuage de points à la droite de classification, est alors maximisée. En effet, il est facile de constater que tout autre ligne mènerait à une marge plus étroite. C’est pourquoi une autre traduction française des SVMs est Séparateur à Vaste Marge.

11 Dans le cas d’un espace à plus de deux dimensions (disons n) le raisonnement reste parfaitement transposable. La frontière de séparation ne sera plus alors une ligne mais un hyperplan (surface à n-1 dimensions).

Médiatrice du segment [c d]

L’avantage d’avoir une large marge est que des perturbations (petits déplacements autour de la position initiale) appliquées sur les points proches de la droite de classification impliqueront moins d’erreurs qu’avec une marge plus étroite. En effet, les points marginaux sont ceux qui risquent de passer de l’autre côté de la droite de classification et de constituer ainsi des erreurs de prédiction en cas de perturbations. Or dans le cas d’une marge large, ils ont été placés, par définition de la marge, le plus loin possible de la droite de classification. Cet avantage procure aux SVMs de grandes qualités de robustesse.

En effet, pour les lecteurs déjà initiés à l’apprentissage statistique, cette robustesse est établie par le fait qu’une large marge réduit la capacité. La capacité est le nombre de frontières de décisions possibles (Vapnik, 1995). Plus grand est ce nombre, moins grandes sont les chances d’avoir un résultat généralisable. La dimension de Vapnik-Chervonenkis (qui varie de manière opposée à la capacité) maximise la généralisabilité des résultats. Pour illustrer ce concept, prenons l’exemple où le tracé de la frontière est défini par une forme polynômiale. Plus le polynôme est de degré élevé, plus le nombre de frontières possibles est grand, donc plus la capacité est grande. Plus le polynôme est de degré faible, plus le nombre de frontières est faible et donc plus la capacité est réduite. Dans le cas d’un polynôme de degré élevé, il est possible d’avoir des frontières beaucoup plus complexes, mais ceci augmente le risque de sur-ajustement (Vapnik, 1998).

Il est essentiel de remarquer que la droite permettant la meilleure classification est seulement déterminée par les cas les plus marginaux (les vecteurs support).

Ceci constitue une différence conceptuelle importante par rapport aux approches habituelles comme la régression logistique et l’analyse discriminante. Avec les SVMs, la droite de classification est entièrement définie par les points de chaque groupe qui sont les plus proches de l’autre groupe. La détermination de cette droite de classification n’est nullement influencée par les points de chaque groupe qui se situent loin de cette frontière, c’est-à-dire les cas extrêmes. C’est pourquoi cette approche est particulièrement appropriée dans le cadre de notre méthode qui s’attache à caractériser les leviers efficaces sur les individus marginaux, proches de la droite de classification.

Cas où les groupes ne sont pas linéairement séparables

Malheureusement, tous les problèmes de discrimination ne correspondent pas à des groupes linéairement séparables (cas où les groupes peuvent être parfaitement séparés par une droite, dans le cas bidimensionnel, un hyperplan dans les cas de dimension supérieure). Il y a deux cas potentiels dans lesquels les groupes ne sont pas linéairement séparables, d’après Gyon et Stork (1999). Celui où les deux groupes se recouvrent mutuellement et celui où la ligne optimale de classification n’est pas une droite. Même si ces deux cas apparaissent souvent simultanément, il est intéressant des les distinguer parce que leur différence de nature apporte des réponses différentes, qui seront par la suite combinées.

Figure E.3.3. Deux exemples de cas non linéairement séparables

Comme le montre la figure E.3.3.1., dans le cas d’un recouvrement des groupes, les deux enveloppes convexes se recoupent à cause de quelques cas marginaux, mais la ligne de classification optimale semble toujours être linéaire (une droite).

Dans le second cas, sur la figure E.3.3.2, la ligne de classification optimale n’est clairement pas linéaire et une frontière linéaire serait sous-optimale.

Nous allons à présent montrer brièvement comment les SVMs gèrent ces deux cas.

Considérons d’abord le cas le plus fréquent où les deux groupes se recouvrent. Les enveloppes convexes des deux groupes contiennent des points de l’autre groupe. Nous ne pouvons donc plus appliquer la méthode précédente. Cependant nous allons modifier la définition des enveloppes convexes pour qu’elles soient perméables, de manière à ce que certains points du groupe qu’elles englobent puissent se trouver en dehors de cette enveloppe, mais que l’enveloppe englobe encore l’essentiel de ce qui caractérise ce groupe. Les

enveloppes auront ainsi des tailles plus restreintes, ne se recouperont plus, et nous permettront d’appliquer la méthode précédente.

Ces enveloppes modifiées, appelées enveloppes « quasi-convexes » sont obtenues en imposant une valeur maximale D à chaque αi. En effet, prenons le point j appartenant au groupe -1 mais trop avancé dans le groupe 1 pour faire partie de l’enveloppe quasi-convexe que l’on souhaite déterminer. Si αj peut être égal à 1, alors l’enveloppe convexe passera nécessairement par ce point parce que s’il est loin des autres points de son groupe, il sera nécessairement sur les contours de l’enveloppe qui entoure tous les points du groupe (enveloppe convexe). Par contre, si αj ne peut être égal à 1, alors l’enveloppe ne passera pas par ce point j, même si ce point influencera partiellement la détermination de l’enveloppe quasi-convexe.

Ainsi les points très éloignés du cœur de leur groupe en direction de l’autre groupe auront certes une influence sur la détermination de la forme de l’enveloppe, mais une influence limitée par cette borne D, et ils pourront se trouver en dehors de l’enveloppe. En choisissant une borne D adaptée, les enveloppes ne se recouperont plus et nous pourrons procéder comme précédemment, à savoir choisir comme droite de classification la médiatrice du segment reliant les points de chaque enveloppe les plus proches de l’autre enveloppe. Plus formellement, une des contraintes du programme d’optimisation quadratique précédent doit être modifiée : la contrainte « αi supérieur à 0 » devient « αi supérieur à 0 et inférieur à D.» Ainsi l’algorithme est très similaire au cas précédent, si ce n’est que certains points seront en dehors de l’enveloppe de leur groupe, et que l’enveloppe ne passera par aucun des points du groupe, même si tous les points proches de l’autre groupe auront orienté sa définition.

La borne D synthétise donc le trade-off déjà évoqué entre précision et robustesse. En effet, plus D est faible, plus les enveloppes seront resserrées autour de leurs groupes respectifs. Il y aura ainsi plus d’espace pour « faire passer la droite de classification » entre enveloppes et la marge finale (espace entre la frontière et chacune des enveloppes) sera plus grande. Ainsi plus D est faible, plus la marge est grande et par conséquent, plus la robustesse est grande.

Par contre, il y a un risque plus important de mauvais classement lorsque la valeur de D diminue. En effet, une faible valeur de D autorise un plus grand nombre de points à être en

dehors des enveloppes. Ces points hors des enveloppes risquent d’être « mal classés », puisque, rappelons-le, le choix de la droite de classification est uniquement fondé sur la séparation des enveloppes. Ainsi plus D est faible, plus le risque de commettre des erreurs de prédiction est grand, donc plus la précision est faible. En résumé, plus la valeur de D est faible, plus la discrimination sera robuste, mais moins elle sera précise.

Pour refaire le lien avec le cas précédent, lorsque que l’on a des groupes linéairement séparables, il n’est pas nécessaire de réduire la taille des enveloppes pour pouvoir séparer les groupes. Par défaut D prend donc la valeur 1 c’est-à-dire qu’il s’agit de la véritable enveloppe convexe du groupe, enveloppant tous les points du groupe sans exception. Ceci dit, il arrive que même dans le cas de deux groupes linéairement séparables, l’on veuille obtenir une plus grande marge pour améliorer la robustesse. Ainsi on fixera aussi dans ce cas une valeur de D inférieure à 1, au risque d’un peu dégrader l’ajustement.

Ce mode de contrôle du trade-off entre ajustement et précision à l’aide d’un seul paramètre est un des atouts caractéristiques des SVMs par rapport à d’autres techniques d’apprentissage statistique comme les réseaux de neurones.

Considérons à présent le second cas, pour lequel la ligne de classification optimale n’est pas une droite. Comme on peut le voir sur la figure E.3.3.2., ni les enveloppes convexes, ni les enveloppes quasi-convexes ne sont appropriées pour gérer ce cas. La technique des SVMs repose alors sur le fait de se ramener au cas linéaire en changeant d’espace vectoriel. On va se placer dans un nouvel espace dans lequel la surface de classification optimale sera linéaire, c’est-à-dire sera un hyperplan.

Pour cela, on crée de nouvelles variables à partir des variables initiales (en fait des fonctions des variables initiales) pour placer le nuage de points dans un espace de plus grande dimension. Dans cet espace de plus grande dimension, le nuage de points sera bien plus dispersé, ce qui augmente très rapidement les chances de pouvoir avoir uun hyperplan comme surface de classification optimale (Vapnik, 1995). Et alors nous appliquerons simplement la procédure précédente dans cet espace de grande dimension. L’équation de l’hyperplan déterminé dans cet espace de grande dimension pourra s’exprimer à partir des variables initiales dans l’espace initial mais n’aura pas une expression linéaire (il s’agira donc d’une ligne de classification, et non plus d’une droite.). Son expression dépendra des fonctions

utilisées pour créer de nouvelles variables à partir des variables initiales (car l’expression numérique de cette ligne de classification se fera à partir des fonctions inverses des fonctions précédemment utilisées, afin de se ramener à l’espace initial).

L’ajout d’un grand nombre de dimensions permet de se ramener de manière certaine à un cas où les groupes sont linéairement séparables, mais cette manipulation comporte un fort risque du sur-ajustement. Heureusement, le critère d’optimisation de la marge et le critère de lissage par la borne D protègent de ce risque, car comme on l’a vu précédemment, ces critères privilégient la robustesse par rapport à l’ajustement.

Un dernier enjeu est l’aspect hautement calculatoire d’opérations menées dans des espaces de grande dimension. L’innovation technique proposée par les SVMs, connue sous le nom de

kernel trick, consiste à choisir des transformations φ(x) des variables initiales pour lesquelles

le produit scalaire des vecteurs transformés peut s’exprimer directement en fonction des vecteurs originaux, ce qui revient à dire qu’il existe une fonction K telle que :

φ(x)Tφ(y)=K(x,y) [3]

Si l’on ne change pas de dimension, alors φ(x)= x, et le noyau K est égal au produit scalaire :

K(x,y) = xTy [4]

Si l’on veut ajouter comme dimensions les puissances des coordonnées initiales de 0 à p, on utilise alors le noyau polynomial suivant :

K(x,y) = (xTy + 1)p [5]

Par exemple, avec p égal à 3 on aurait pour x : φ(x) = (1 : xT : x2 T : x3 T) T

Etant donné que les dimensions ne sont pas modifiées à une constante multiplicative près disons que pour x : φ(x) = (a : bx T : cx2 T : dx3 T) T

Les constantes a, b, c et d sont les mêmes pour toutes les variables étant donné que la transformation φ définissant le noyau doit être la même pour toutes les variables.

Le produit scalaire est alors égal à :

φ(x)T. φ (y)= (a : bx T : cx2 T : dx3 T). (a : by T : cy2 T : dy3 T) T φ(x)T. φ (y) = a2 + b2 xTy + c2 (xTy) 2 + d (xTy)30

On a donc bien avec a = 1 ; b = √(3) ; c = √(3) et d =1 : φ(x)T. φ (y) = (xTy + 1)3

Ce qui permet de faire tout le calcul du produit scalaire entre φ(x) et φ(y) à partir des coordonnées x et y dans l’espace initial.

Ainsi toutes les opérations sont réalisées à partir des coordonnées dans l’espace initial, ce qui réduit drastiquement le coût de calcul. Pour plus de détails sur cette astucieuse pratique, on peut se référer à nouveau à Vapnik (1995) et Cui and Curry (2005).

Dans le document Effets masqués en analyse prédictive (Page 58-67)