Modélisation à partir des données

(1)

Modélisation

(2)

Types de problèmes de décision

- Classement (ou discrimination) : la variable expliquée est une variable nominale, chaque observation possède une modalité (appelée en général classe)

- Régression : la variable expliquée est une variable quantitative (domaine ⊂ R)

-

- Prédiction structurée : la variable expliquée prend des valeurs dans un domaine de données structurées (les relations entre parties comptent)

(3)

- Modèle = règle de décision

Exemple: frontière de discrimination: deux classes

Éventuellement complété par des critères de rejet (refus d’affectation)

Refus de classer les données trop proches de la frontière (rejet d’ambiguïté)

Refus de classer les données trop éloignées des données connues (rejet de non représentativité)

Types de problèmes de décision

(4)

- Modèle : règle de prédiction (trait noir dans la figure) y = ax + b pour modèle linéaire

- Exemple : (variable explicative X en abscisse, variable expliquée Y en ordonnée)

Types de problèmes de décision

Régression

(5)

Modélisation à partir des données

- Construction analytique, à partir d’une parfaite connaissance du phénomène - Exemples :

- Temps de vol ← distance et vitesse

- Concentration de produit de réaction ← concentration de réactif et température - Néglige souvent l’impact de variables non contrôlables !

- A partir de données : ensemble d’observations pour lesquelles les valeurs des variables explicatives et des variables expliquées sont en général connues

→ Apprentissage supervisé : à partir d’observations pour lesquelles les valeurs des variables explicatives

→ Apprentissage semi-supervisé : tient compte aussi des observations pour lesquelles les valeurs de

(6)

Apprentissage et généralisation

- Information de Supervision = valeur de la variable expliquée

- Modélisation à partir de données (observations) d’apprentissage, qui disposent de l’information de supervision

- Choix famille paramétrique, puis optimisation des paramètres → modèle

- Erreur du modèle sur ces données = erreur d’apprentissage ou risque empirique

(7)

Apprentissage et généralisation

- Le modèle permet de prendre des décisions pour de futures (nouvelles) données

- Erreur du modèle sur ces futures données = erreur de généralisation ou risque espéré

Données M1

erreur = 14 % M2

erreur = 6 %

→ Objectif : avoir la meilleure généralisation (le risque espéré le plus faible)

(8)

Modélisation à partir des données

Comment trouver le modèle qui présente la meilleure généralisation ?

- Erreur d’apprentissage (facilement) mesurable car ces données sont disponibles - Données futures inconnues ⇒ erreur de généralisation ne peut pas être mesurée

- Hypothèse importante : la distribution des données d’apprentissage est représentative de celle des données futures !

•Or, on constate souvent que la distribution évolue dans le temps (n’est pas stationnaire)

⇒ il est nécessaire d’adapter régulièrement le modèle

→ Minimiser l’erreur d’apprentissage permet de minimiser l’erreur de généralisation ?

•Considérons des données de test, non utilisées pour l’apprentissage mais disposant de l’information de supervision

•Comparons trois modèles différents

(9)

Modélisation à partir des données

Apprentissage

Err. app. 12 % 2.3 % 4.5 %

M1 M2 M3

Test

Err. test 14 % 6 % 4.6 %

(10)

Lien entre Err. test et Err. généralisation

Constats

- Le modèle qui a la plus faible erreur d’apprentissage n’a pas la plus faible erreur de test

- Cela reste valable si on compare des modèles issus de la même famille, par ex. par arrêt précoce de la procédure d’optimisation

- L’erreur d’apprentissage est en général une estimation optimiste de l’erreur de test - L’écart entre erreur d’apprentissage et erreur de test dépend de la famille de modèles Si on ne peut pas mesurer l’erreur de généralisation, comment l’estimer ?

- Par l’erreur sur des données de test, non utilisées pour l’apprentissage

→ Les observations disponibles avec information de supervision sont séparées en données d’apprentissage ( → obtenir le modèle) et données de test ( → estimer la généralisation)

- Grâce à une éventuelle borne supérieure sur l’écart entre erreur d’apprentissage et erreur de généralisation : erreur généralisation ≤ erreur apprentissage + borne

→ Lorsqu’elle existe, la borne peut être trop élevée pour être exploitable

(11)

Modélisation à partir des données

1- Préparation des données et choix d’une fonction de perte (loss ou erreur) 2- Choix des familles paramétriques dans lesquelles chercher des modèles 3- Dans chaque famille, estimation du « meilleur » modèle intra-famille 4- Choix du meilleur modèle entre familles

5- Évaluation des performances de généralisation du modèle retenu Étapes générales

(12)

Modélisation à partir des données

- Domaine des variables explicatives (ou espace d’entrée) : X (par ex. ) - Domaine de la variable expliquée (ou espace de sortie) : Y (par ex. {−1 ; 1}, ) - Données à modéliser décrites par variables aléatoires (X , Y ) ∈ X × Y suivant la

distribution inconnue P

X ⊆ ℝ^p ℝ Un cadre plus précis

Classement : Y = {cX ⊂ ℝ¹,c²²}

Régression : X ⊂ ℝ Y ⊂ ℝ Exemples

(13)

- Observations (données) avec information de supervision : correspondant à des tirages identiquement distribués suivant P

- Supervision :

- Sauf cas particuliers (par ex. séries temporelles) on considère les données de issues de tirages indépendants

→ Objectif : trouver, dans une famille F, une fonction f : X → Y qui prédit y à partir de x et présente le risque espéré le plus faible

- L() est la fonction de perte (ou d’erreur)

- est l’espérance par rapport à la distribution inconnue P - Le choix d’une fonction de perte dépend de

- La nature du problème de modélisation : classement, régression, prédiction structurée - Le choix de la famille F et de la procédure d’optimisation associée

D_N = {(x_i, y_i)}_1≤i≤N {y_i}_1≤i≤N

D_N

R( f ) = E_P[L(X, Y, f )]

E_P

Modélisation à partir des données

Un cadre plus précis

(14)

- Perte 0-1 :

- f (x) , y ∈ Y ensemble fini

- Perte nulle si prédiction correcte, perte unitaire si prédiction incorrecte

- Si f (x) ∈ alors , avec H() fonction échelon adéquate (+1 si z positif ou nul, -1 sinon)

L₀₁(x, y, f ) = 1_f(x)≠y

ℝ L₀₁(x, y, f ) = 1_H(_f(x))≠y

Fonctions de perte pour problème de classement

Les flèches bleues indiquent quelques données mal classées par le modèle (frontière de discrimination linéaire, dans ce cas)

(15)

- Hinge loss pour la discrimination entre deux classes en maximisant la marge (SVM) :

- (pour f (x) ∈ )

- Lh n’est pas différentiable par rapport à f mais admet un sous-gradient

- Des extensions existent pour le cas multi-classe et la prédiction structurée L_h(x, y, f ) = max{0,1 − yf(x)} ℝ

Fonctions de perte pour problème de classement

Hinge loss pour y = −1 (en rouge) et y = 1 (en bleu)

(16)

- Perte quadratique : (régression) - f (x) est la prédiction du modèle f pour l’entrée x

- y est l’information de supervision (prédiction désirée) pour l’entrée x

- f est à son tour différentiable par rapport aux paramètres du modèle ⇒ optimisation basée sur le gradient peut être appliquée directement

L_q(x, y, f ) = [ f(x) − y]²

Fonctions de perte pour problème de classement

(17)

Choix des familles paramétriques

La seconde étape dans la démarche de modélisation décisionnelle à partir de données est le choix des familles paramétriques dans lesquelles les modèles seront recherchés.

Modèles linéaires : prédiction = combinaison linéaire des variables explicatives

Classement Régression 1D

f(x) = w^Tx + w₀ H( f(x)) ∈ {−1,1}

f(x) = w₁x + w₀ Exemples

- Peuvent s’avérer insuffisants dans l’explication de la variable de sortie.

- Capacité d’approximation limitée d’une frontière de discrimination dans le cas d’un problème de classement.

(18)

Choix des familles paramétriques

Modèles polynomiaux : de degré n borné (n plus grand que 1)

- La capacité d’approximation (d’une frontière pour le classement, d’une dépendance pour la régression) augmente avec le degré

- Chaque valeur de borne sur le degré n définit une famille paramétrique

Diverses familles de modèles non linéaires, par ex. perceptrons multicouches (PMC) d’architecture donnée, etc

(19)

Choix des familles paramétriques

Err. app. 12 % 2.3 % 4.5 %

M1 M2 M3

Err. test 14 % 6 % 4.6 %

- Erreur d’apprentissage plus faible pour le modèle issu de la famille avec la capacité d’approximation la plus élevée.

- Erreur de généralisation plus faible pour un modèle issu d’une autre famille .

- Une capacité d’approximation trop élevée peut mener au sur-apprentissage (overfitting) ou apprentissage « par cœur » : le modèle a appris les particularités (par ex. le bruit) des données d’apprentissage.

- Examiner des familles de capacité inférieure n’est pas sans intérêt…

(20)

Estimation du modèle

- Objectif: trouver, dans une famille F choisie, une fonction (un modèle) f : X → Y qui prédit y à partir de x et présente le risque espéré (ou théorique) le plus faible.

- Or ne peut pas être évalué car P est inconnue.

→ Evaluer le risque empirique sur les données d’apprentissage . Trois approches:

1- Minimisation du risque empirique (MRE) : recherche du modèle qui minimise l’erreur

d’apprentissage .

2- Minimisation du risque empirique régularisé (MRER) : recherche du modèle qui minimise la somme entre l’erreur d’apprentissage et un terme de régularisation pondéré par une

constante ( α ), .

3- Minimisation du risque structurel (MRS) : on considère une séquence de familles de capacité qui augmente et on effectue une estimation MRE dans chaque famille. Le choix final d’un modèle tient compte à la fois du risque empirique du modèle et de la capacité d’approximation de la famille dont il

R( f ) = E_P[L(X, Y, f )]

R( f )

R_D_N(f ) = 1 N

N

∑i=1

L(x_i, y_i, f ) D_N

f_D*_N = arg min

f∈F R_D_N( f )

G(f ) f_D*_N = arg min

f∈F [R_D_N( f ) + αG(f )]

(21)

Analyser le risque espéré

- : la fonction de F qui minimise le risque empirique - : la fonction de F qui minimise le risque empirique Alors:

f_D*_N R_D_N( f )

f* R

R( f_D*_N) = R* + [R( f*) − R*] + [R( f_D*_N) − R( f*)]

Posons:

- : risque résiduel (ou risque de Bayes), borne inférieure

Strictement positif en présence de bruit : suivant le bruit, à un même x peuvent correspondre plusieurs valeurs de y

- : erreur d’approximation (≥ 0) car F ne contient pas nécessairement la « vraie » dépendance.

Nulle si peut être atteint par une fonction de F.

- : erreur d’estimation (≥ 0)

La fonction de F qui minimise le risque empirique n’est pas nécessairement celle qui minimise le risque espéré

R*

[R( f*) − R*]

[R( f_𝒟*_N) −R*R( f*)]

(22)

Capacité, erreur d’approximation et erreur d’estimation

Échantillon 1

Échantillon 2

Échantillon 3

M1 M2 M3

Résultats obtenus à partir de 3 familles sur 3 échantillons différents de DN

(23)

- Capacité M1 < capacité M3 < capacité M2 - Famille M1

- Erreur d’apprentissage élevée donc capacité insuffisante pour ce problème - Erreur d’approximation élevée (fort biais)

- Famille M2

- Erreur d’approximation probablement faible car erreur d’apprentissage faible ) capacité suffisante

- Erreur de test bien plus élevée, variance supérieure à M2 Erreur d’estimation élevée

- Famille M3

- Somme assez faible entre erreur d’approximation et erreur d’estimation, meilleure généralisation que les deux autres familles

- Erreur de test assez faible et proche de l’erreur d’apprentissage

Capacité, erreur d’approximation et erreur d’estimation

(24)

Mesurer la capacité

- vecteurs , donc façons différentes pour séparer en deux parties.

- Définition:

La famille F de fonctions pulvérise si toutes les séparations peuvent être construites avec des fonctions de F.

- Définition: (Vapnik-Chervonenkis)

L’ensemble F est VC-dimension h s’il pulvérise au moins un ensemble de h vecteurs et aucun ensemble de h+1 vecteurs.

- Exemple: la VC-dimension de l’ensemble des hyperplans de est h=p+1

Dans , l’ensemble des droites pulvérise le triplet de points à gauche mais aucun quadruplet (par ex., aucune droite ne peut séparer les points bleus des rouges)

N {x_i}_1≤i≤N ∈ ℝ^p 2^N

f : ℝ ↦ {−1,1} {x_i}_1≤i≤N 2^N

ℝ^p ℝ²

(25)

Lien entre capacité et généralisation

- La VC-dimension est une mesure intéressante de la capacité car elle permet d’obtenir une borne pour l’écart entre risque théorique et risque empirique

- Théorème:

Soit le risque empirique défini par la fonction de perte .

Si la VC-dimension de F est alors pour tout , avec une probabilité égale au moins , on a

- diminue quand N augmente, quand h augmente et quand augmente;

- ne fait pas intervenir le nombre de variables;

- ne fait pas intervenir la loi conjointe de P;

Résultat intéressant d’un point de vue théorique bien que peu utile en pratique

R_D_N(f ) L₀₁(x, y, f ) = 1_f(x)≠y

h < ∞ f ∈ F 1 − δ (0 < δ < 1)

R(f ) ≤ R_𝒟_N( f ) + h (log ^2N_h + 1) − log ₄^δ N

B(N,ℱ)

pour N > h

B(N, F) δ

B(N, F) B(N, F)

(26)

Lien entre capacité et généralisation

- Conséquences de l’existence d’une borne

- Pour une famille F de capacité trop faible, la borne est basse

Mais vu que le risque empirique est élevé, absence de garantie intéressante pour

- Pour une famille F de capacité trop élevée, le risque empirique est faible, mais élevée Absence de garantie intéressante pour

- Pour une famille F de capacité adéquate, le risque empirique , aussi Garantie intéressante pour

R(f ) ≤ R_D_N( f ) + B(N, F)

B(N, F)

R_D_N( f ) R( f )

R_D_N( f ) B(N, F) R( f )

(27)

Minimisation du risque empirique régularisé

- La minimisation du risque empirique (MRE) ne suffit pas pour assurer une bonne généralisation.

- Si la famille F possède une capacité trop élevée, la MRE a pour conséquence un « apprentissage par cœur » (overfitting).

- Il est nécessaire de maîtriser la capacité de la famille F (complexité du modèle).

- La régularisation est l’une des solutions: le modèle optimal est obtenu en minimisant la somme entre et un terme qui pénalise la capacité:

est un hyperparamètre qui pondère le terme de régularisation - Plusieurs formes sont possibles pour :

- « Oubli » (weight decay) : , w étant le vecteur de paramètres du modèle.

- Régularisation par arrêt précoce (early stopping) : aucun terme n’est présent mais l’algorithme d’optimisation s’arrête avant d’atteindre le MRE.

f_D*_N R_D_N( f ) G( f )

f_D*_N = arg min

f∈F [R_D_N( f ) + αG( f )]

α

G( f )

G( f ) = ∥w∥²₂

G( f )

(28)

Minimisation du risque structurel

- La capacité de la famille de modèles peut également être maîtrisée de façon explicite dans le cadre de la minimisation du risque structurel.

- Etapes:

1) Définir une séquence de familles de familles de capacités croissantes, c’est à dire pour lesquelles

2) Minimisation dans chaque famille du risque empirique pour .

3) En tenant compte de la borne trouvée pour le risque espéré R, sélection de qui permet de minimiser la somme entre le risque empirique et la borne de généralisation

orrespondant à cette famille .

F₁ ⊂ F₂ ⊂ F₃… h₁ < h₂ < h₃…

f_D^(i)*_N = arg min

f∈F_i R_D_N( f ) i ∈ {1,2,3…}

f_D^(i)*_N , i ∈ {1,2,3…}

R_D_N( f_D^(i)*_N ) + B(N, F_i)

(29)

Exemple: régression linéaire

- Chaque observation est caractérisée par les valeurs de p variables explicatives réelles et la valeur d’une variable expliquée réelle.

- Espace d’entrée:

- Espace de sortie:

- Pour trouver le modèle, nous disposons de N observations qui possèdent l’information de supervision, .

- Chercher le modèle dans la famille de modèles linéaires . - Un modèle est défini par les valeurs des p+1 paramètres .

- Forme matricielle: avec - lignes: observations de

- colonnes : variables, sauf pour la dernière qui est une colonne de 1 et permet d’inclure dans . X = ℝ^p

Y = ℝ D_N = {(x_i, y_i)}_1≤i≤N

̂y = w₀ + ^p∑

j=1

w_jx_ji w_i, 0 ≤ j ≤ p

̂y = Xw X ∈ ℳ^N×(^p+1) D_N

w₀ w

(30)

Exemple: régression linéaire

- Deux approches possibles pour la recherche du modèle linéaire:

1) MRE: l’erreur quadratique totale sur

Solution par calcul direct: où est le pseudo-inverse de X.

Si est inversible, alors

2) MRER: somme entre l’erreur quadratique sur et terme de régularisation Régularisation de Tikhonov:

Solution: , où est la matrice unité de rang p+1.

N

∑i=1

(ŷ_i − y_i)² D_N w* = X⁺y X⁺

X^TX X⁺ = (X^TX)⁻¹X^T

D_N

N

∑i=1

(ŷ_i − y_i)² + ∥w∥²₂ w* = (X^TX + I_p+1)⁻¹X^Ty I_p+1

(31)

A retenir

1. Pour construire un modèle décisionnel à partir de données, l’information de supervision est indispensable.

2. L’ojectif est d’obtenir le modèle qui présente la meilleure généralisation (et non la plus faible erreur d’apprentissage).

3. L’erreur d’apprentissage (le risque empirique) est excessivement optimiste comme estimateur de l’erreur de généralisation (risque espéré).

4. Pour minimiser le risque espéré, il faut chercher le bon compromis entre la minimisation de la capacité de la famille de modèles et la minimisation de l’erreur d’apprentissage.

(32)

Evaluation des modèles

- L’estimation directe du risque espéré par le risque empirique est excessivement optimiste, surtout pour des familles F de capacité élevée (ou infinie), et doit donc être évitée.

- A partir du risque empirique et en tenant compte de bornes de généralisation:

Une méthode générale pour estimer le risque espéré est celle des données de test ou de l’échantillon-test:

1) L’ensemble de données disponibles est partitionné en deux ensembles mutuellement exclusifs par sélection aléatoire:

- données d’apprentissage A (par ex. env. 70% du nombre total) - données de validation V (par ex. 30% du nombre total).

2) L’apprentissage du modèle est réalisé sur les données de l’ensemble A, en utilisant une des approches mentionnées (la MRE ou la MRER).

3) Le risque espéré du modèle résultant est estimé sur les données de V.

R( f_D*_N) ≤ R_D_N( f_D*_N) + B(N, F)

D_N

(33)

Validation croisée

- Pour réduire la variance de l’estimation du risque espéré obtenue sur un échantillon-test, plusieurs partitionnements différents de en sont réalisés avec

et .

- A chaque fois un modèle est appris sur , son erreur est calculée sur et le risque espéré est estimé par la moyenne .

- Selon les partitionnements réalisés, les méthodes peuvent exhaustives ou non.

D_N A_i et V_i i ∈ 1,…, k D_N = A_i ∪ V_i A_i ∩ V_i = Ø

f_i A_i L(V_i, f_i) V_i

1 k

k

∑i=1

L(V_i, f_i)

(34)

Validation croisée

- Méthodes exhaustives: tous les partitionnements possibles respectant certains effectifs sont utilisés

1) Leave p out (LPO): N−p données sont employées pour l’apprentissage et p pour la validation : tous les partitionnements possibles avec ces effectifs sont utilisés.

apprendre modèles différents: coût excessif.

2) Leave one out (LOO): N−1 données sont employées pour l’apprentissage et une seule pour la validation.

partitionnements possibles, et donc N modèles différents. Le coût reste élevé pour des données volumineuses ( N élevé).

(A_i) (V_i) C_N^p

C_N^p

(A_i) C_N¹ = N

- Méthodes non exhaustives:

1) k fold: partitionnement des N données en k parties, apprentissage sur k − 1 parties et validation sur la k-ême k modèles seulement (souvent k = 5 ou k = 10)

( _D^⇤ )  D ( _D^⇤ ) + ( ,F)

!

) . . .

) )

1 1 )

1 = )

1

) = 5 = 10

(35)

Comment choisir…

- LPO très rarement employée car excessivement coûteuse.

- LOO vs k-fold : k-fold préférée en général LOO plus coûteuse car . - Variance en général supérieure pour LOO.

- Estimation k-fold pessimiste car chaque modèle apprend sur données

- Shuffle and split vs k-fold

- Pour k-fold le nombre de modèles (k) est lié à la proportion de données de test (1/k), shuffle and split moins contraignante

- Pour shuffle and split certaines données ne sont dans aucun échantillon alors que d’autres sont dans plusieurs échantillons

- Parallélisme: quelle que soit la méthode, tous les partitionnements peuvent être explorés en parallèle (multi-coeur ou distribuées)

k ≪ N

N(k − 1)

k < N − 1

(36)

Evaluation

- Evaluation de base: taux de mauvais classement.

- Erreur moyenne en utilisant une perte 0-1

- Coût de classement symétrique: coût = 1 quel que soit le sens - Exemple: détection de maladie grave, détection radar de navire - Courbes ROC (receiver operating characteristic)

- Une classe peut être considérée la classe « d’intérêt »;

- Le modèle appris est vu comme le « détecteur » de la classe d’intérêt;

- Pour un tel détecteur appris, les cas suivants peuvent être constatés :

Classe présente Classe absente Classe détectée Vrai Positif Faux Positif Classe non détectée Faux Négatif Vrai Négatif

(37)

Evaluation

Idéalement:

- Toutes les détections positives devraient correspondre à de vrais positifs : pas de faux négatifs (FN = 0), ou taux de vrais positifs = 1

- Ce qui n’est pas détecté devrait correspondre aux seuls vrais négatifs : pas de faux positifs (FP = 0), ou taux de faux positifs = 0

Vrais Positifs

Total Positifs = VP VP + FN Faux Positifs

Total Négatifs = FP

VN + FP = 1 − VN VN + FP Sensibilité (Taux de vrais positifs):

1− spécificité (Taux de faux positifs):

On définit les mesures suivantes :

(38)

Exemple

- Frontière est positionnée très haut: toutes le données sont du côté « négatif ». Aucun vrai positif n’est détecté et aucun négatif n’est détecté comme positif

- sensibilité = 1-spécificité = 0

- Déplacement vers le bas et vers la gauche, plus de positifs détectés, mais aucun négatif - On représente des données dans : vert (classe d’intérêt), rouge (autres classes).

- Trois modèles: trois courbes de séparation non linéaire ℝ²

taux devrais positifs

taux de faux positifs

(39)

Exemple

↵ = 10 ⁵ ↵ = 1

AUC (area under curve)

- Plus l’aire sous la courbe ROC est élevée, meilleur est le modèle.

- Si valeurs AUC proches ou pour objectifs plus précis : comparaison des taux de vrais positifs (sensibilité) à taux de faux positifs (spécificité) donné(e)s

M1 M2 M3