• Aucun résultat trouvé

La théorie de l’apprentissage statistique développée dans l’ouvrage de Vapnik dans sa courte et longue version [Vapnik 1998] (incluant des démonstrations) donne à l’apprentissage automatique un cadre théorique possible. Dans les travaux de Vapnik et Chervonenkis, le problème de l’apprentissage devient un problème statistique de

sélection de modèle pénalisée (d’où le nom de théorie statistique de l’apprentissage). La sélection de modèle pénalisée n’est pas une approche nouvelle et elle revient aux travaux d’Akaike. L’approche original de Vapnik est d’introduire un concept original de la complexité appelée la dimension Vapnik-Chervonenkis (dimension VC). Nous présentons dans ce qui suit une synthèse de ce dernier.

A.2.1 Cadre général

Les travaux de Vapnik et Chervonenkis [Vapnik 1998] ne sont pas contradictoires avec l’approche PAC et peuvent être considérés comme les travaux fondateurs. La principale différence entre l’apprentissage PAC et la théorie statistique de l’appren-tissage est essentiellement une question de vocabulaire. D’un coté avec le formalisme PAC nous avons un vocabulaire orienté vers les informaticiens et de l’autre nous avons un vocabulaire qui est orienté vers les statisticiens.

Sélection de modèles

Nous reprenons dans cette partie, le formalisme de Vapnik pour la sélection de modèles en statistique.

Minimisation du risque empirique (ERM)

Etant donné l’ensemble H des fonctions de prédictions h, et X un échantillon d’apprentissage de taillen,XN

1 ={(X1, Y1), . . . , (Xn, Yn)}. Nous souhaitons trouver la fonction h qui a le nombre le plus petit d’erreurs. La stratégie la plus commune est d’introduire un risque empirique Rn(h).

Définition A.3. Le risque empiriqueRn(h) est construit sur la base de l’échantillon des points XN

1 où le nombre d’erreurs faites par le classifier h est calculé et par la suite normalisé. Rn(h) = 1 n n X i=1 L(Yi, h(Xi)) (A.3)

Définition A.4. La minimisation du risque empirique, ou ERM pour Emprical Risk Minimization est ce que Vapnik appel le principe inductive est le fait de trouver une fonction h ∈ H qui minimise Rn(h) ceci se traduit par hn = arg min

h∈H

Rn(h). Ainsi, la fonction de prédictionhn est la meilleure de l’espace d’hypothèseH, et ceci selon les exemples X1N.

Il est légitime de croire que lorsque le nombre d’exemples tend vers l’infini, il y a une convergence du risque empiriqueRn vers le risque réelR et aussi une proximité entre la fonction h et la fonction optimal f . Dans la théorie de l’apprentissage statistique, nous voulons prouver que l’estimateur Rn est convergent ou consistant (traduit de consistent estimator en anglais)

Estimateur convergent

Un estimateur convergent est un estimateur qui tend vers la quantité de proba-bilité estimée quand la taille de l’échantillon d’exemplesXN

1 augmente. La quantité souhaitée ici est l’erreur réel inf

f∈H

R(f ). L’écart R(h)− inf

f∈H

R(f ) est la quantité qui nous intéresse. La convergence de l’ERM rendra cette écart faible avec l’augmen-tation du nombre d’exemples XN

1 . Cette écart peut être étudié dans un ensemble bornée où la vitesse de convergence ne dépend que de la structure de l’ensemble d’hypothèses H. Pour cela nous reconsidérons l’écart précédent par rapport à l’er-reur de Bayes R. Cette formulation vient des travaux de Vapnik et Chervonen-kis [Vapnik 1998] et retrouve racine dans les théorèmes historique de Kolmogorov-Simrnov. R(h)− R = R(h)− inf f∈H R(f ) ! + inf f∈H R(f )− R ! (A.4)

R(h)− R = Evar + Ebias (A.5)

La taille de H est un compromis. La première quantité dans l’équation (2.3) représente l’erreur d’estimation (variance) et la deuxième quantité représente l’erreur d’approximation (biais). Quand la taille de H est large nous obtenons une erreur d’estimationEvar qui est grande, et une erreur d’approximationEbias qui est petite. À l’inverse si la taille de H est restreinte nous obtenons une Evar qui est petite, et uneEbiasqui est grande. Le problème que nous avons ici est le suivant, nous pouvons avoir une erreur d’approximation proche de zéro avec un H large mais on pourrait prendre le mauvaise fonction de prédiction h avec une erreur empirique proche de 0 mais qui n’est applicable que sur l’échantillon d’exemples X1N. Ce phénomène s’appelle le sur-apprentissage (overfitting en anglais). Nous avons besoin donc d’une fonction de prediction qui évite le sur-apprentissage et qui est capable de généraliser son apprentissage sur un nouveau échantillon d’exemples. Dans le cas idéal nous avons besoin que :

1. H soit assez "large" pour que l’erreur d’approximation (biais) soit petite. 2. H soit assez "petit" pour que l’erreur d’estimation (variance) soit petite. La problématique de la complexité dans l’apprentissage survient suite aux considéra-tions que l’on se fait des condiconsidéra-tions du choix de l’espace d’hpothèsesH. Cette espace d’hypothèses détermine la convergence de l’estimateur ERM. Nous verrons dans la suite que la dimension de Vapnik-Chervonenkis apparait comme la plus approprié pour résoudre cette problématique.

A.2.2 La dimension de Vapnik et Chervonenkis (VC)

Dans ce qui suit nous définirons la dimension VC dans le cas de la classification binaire. Il ne sera pas question dans cette partie de développer les démonstrations mathématiques de la dimension VC mais de l’introduire comme outils essentiel dans la compréhension de la catégorisation de concepts. Afin de définir cette quantité,

Figure A.2 – mH(N ) = 8 avec N = 3

nous introduisons les définitions de deux concepts fondamentaux : la fonction de croissance (Growth function en anglais). Et les espace explosé (Shattered sets en anglais).

Fonction de croissance

Une fonction de croissance est une fonction appliquée sur un ensemble de dicho-tomies. Nous travaillons dans le cas de la classification binaire, une dichotomie est définie donc comme h :XN

1 → {−1, +1} où XN

1 est un sous ensemble de X est sa valeur est {x1, x2, ..., xN}. Puisque une dichotomie est une hypothèse appliquée à un sous ensemble deX , nous pouvons dénoter le nombre de dichotomies en fonction de l’espace d’hypothèsesH et ceci de la façon suivante : |H(x1, x2, ..., xN)|. Dans ce cas, la question est la suivante : combien pouvons-nous obtenir de classification pos-sible des exemples dansX1N en appliquant différentes dichotomiesh ? Le maximum que l’on obtenir dans ce cas est 2N. Le cardinal maximal des dichotomies possibles s’écrit donc :

|H(x1, x2, ..., xN)| = 2N (A.6) Définition A.5 (Fonction de croissance). La fonction de croissance compte le nombre maximal de dichotomies que l’on peut appliquer sur un nombre d’exemples N en utilisant l’espace d’hypothèse H(x1, x2, ..., xN). Elle est dénoté de la façon suivante :

mH(N ) = max

XN

1 ∈X|H(x1, x2, ..., xN)| (A.7) La fonction de croissance est limité par la quantité2N comme suit :

mH(N )≤ 2N (A.8)

Comme exemple de l’application de la définition 1, nous avons illustrer dans la figureA.2le nombre maximal de dichotomies appliquées sur 3 points. Chaque partie grisée est une dichotomie qui sépare les trois point soit en rond qui correspond (i.e. +1) soit en croix qui correspond à la valeur (i.e. -1).

Dans l’exemple illustrée dans la figure A.2 mH(N = 3) = 23 = 8. Dans certain cas ceci est possible dans d’autres cas nous avons un nombre de dichotomies inférieur à2N. Ce nombre de dichotomies maximal et qui est inférieur à2N est appelé point de cassure (break point en anglais). Cette notion de point de cassure est importante car elle permet de caractériser un hypothèse ou une dichotomieh.

Définition A.6 (Point de cassure). Un point de cassurek est la taille deXk 1 pour laquelle il n’existe pas d’espace d’hypothèseH(X1k) qui peut donner une dichotomie maximal de2N. La fonction de croissance s’écrit alors :

mH(k) < 2k (A.9)

Les principaux résultat que l’on obtient avec la définition d’un point de cassure sont présentés dans le lemme 1.

Lemme A.1. 1. Si il n’existe pas de point de cassure k alors mH(N ) = 2N. 2. Si il existe un point de cassurek alors mH(N ) est polynomial en N .

Le deuxième point du lemme 1 est important car si la fonction de croissance est polynomial alors nous pouvons apprendre sur l’espace d’hypothèseH. Et de ce fait, la fonction de croissance peut être réécrite de la manière suivante :

mH(N )≤ k−1 X i=0  N i  (A.10)

Le point de cassure peut être trouver de plusieurs façons soit en prouvant que l’on peut plus avoir de dichotomies à2N, soit en prouvant que la fonction de croissance n’est pas une exponentielle et qu’il y aura une cassure. Le point de cassure peut être trouver aussi avec la dimension VC que l’on présentera dans ce qui suit.

Définition A.7 (Dimension VC). La dimension VC est une quantité définie pour une espace d’hypothèse H, elle est dénoté dV C(H). Elle représente la plus large quantité N d’exemples pour laquelle mH = 2N. En d’autres termes, la dimension VC présente la capacité de l’espace d’hypothèseH a catégoriser l’ensemble des points N .

Ceci implique, siN ≤ dV C(H) alors il existe 2N dichtomies possible pour séparer les N exemples. Et implique aussi, si k > dV C(H) alors k est un point de cassure pourH.

Définissons la dimension VC en terme de la fonction de croissancemH(N ). Nous savons que la dimension VC est en dessous du point de cassure et en tenons compte de la fonction A.9, la fonction de croissance s’écrit alors

mH(N )≤ dV C X i=0  N i  (A.11)

"La dimension VC fournit une mesure approximativement similaire, mais plus générale que la mesure ln|H obtenu à partir d’une analyse PAC. La dimension VC peut être appliqué sur des classes de fonctions continues, ce qu’une analyse PAC standard ne peut pas faire. l’apprentissage PAC et la théorie de l’apprentissage statistique ont été connecté par les quatre allemands (Blumer, Ehrengeucht, Haussler et Warmuth en 1989." [Russell 2009]

A.2.3 Séparateurs à Vaste Marge (SVM)

Figure A.3 – Un exemple d’un hyperplan optimal qui sépare les données avec une marge maximale

Les séparateurs à vaste marge (SVM) ou encore machines à point de support sont une méthode de classification supervisée binaire. Les SVM ont été introduits par Vapnik dans son ouvrage sur la théorie de l’apprentissage statistique. Conçu comme un classifieur linéaire, la méthode consiste à chercher un hyperplan qui sépare deux classes de données de manière à maximiser la marge entres les exemples les plus proches de chacune des deux différentes classes, ces exemples sont appelés vecteurs support (voir figure 2.3).

Mathématiquement ça consiste à trouver l’hyperplanw avec la marge maximale entre les deux plans qui représenteront les deux classes dans le cas d’une classification binaire. Le problème de la recherche de la marge est écrit avec une formulation de Lagrange et tourné vers un probléme d’optimisation qui est résolu avec l’optimisation quadratique.

La méthode a par la suite été généralisée dans le cas des classes non séparables linéairement avec l’astuce du noyau (Kernel Trick en anglais). L’astuce consiste à faire une projection des exemples dans un espace à grande dimension (infinie) où il est rendu possible de chercher, à travers l’optimisation d’une fonction quadratique un hyperplan optimal pour séparer les exemples.