• Aucun résultat trouvé

Les modèles linéaires généralisés

Dans le document Mémoire d'actuariat (Page 37-40)

2 Un meilleur contrôle des prix pour limi- limi-ter le reste à charge

2.2 Introduction de variables externes pour expliquer la vo- vo-latilité des prixvo-latilité des prix

2.2.2 Les modèles linéaires généralisés

Devant le grand nombre de mémoires redémontrant la théorie des GLM, le choix a été fait de plus se concentrer sur l’interprétation des résultats d’un GLM. Ainsi, seuls les principaux théo-rèmes sont rappelés (sans démonstration) dans cette partie. Aucune application n’est présentée, le lecteur pourra donc choisir de sauter cette partie sans subir une perte d’information pour la suite.

Les modèles linéaires généralisés ou GLM permettent de modéliser la relation entre une variable réponse Y (également appelée variable à expliquer) et un certain nombre de variables explica-tives X1, X2, ..., Xp. Cette relation est explicitée par la fonction de lien g qui relie µ l’espérance mathématique de Y avec une combinaison linéaire des p variables Xi. On peut ainsi écrire :

g(µ) = β01X1+...+βpXp

Les distributions possibles pour les GLM sont déterminées par une représentation graphique des données et les coefficient βi peuvent être trouvés par la méthode du maximum de vraisemblance.

La famille exponentielle

Soit une variable réponse Y et y une de ses observations. Un des prérequis à l’utilisation des GLM est que la loi de probabilité de Y appartienne à la famille exponentielle. Cette condition s’écrit :

f(y|θ, φ) = exp(yθ−b(θ)

a(θ) +c(y, φ)) (2.1)

Avec :

— θ le paramètre canonique ou naturelle

— φ le paramètre de dispersion ;

— a(), b() et c() des fonctions.

Un certain nombre de lois connues appartiennent à la famille exponentielle, comme par exemple la loi Gamma ou Poisson. Par ailleurs, on peut déduire de l’équation (2.1) plusieurs autres égalités (dans le cas d’un lien canonique) :

E(Y) =µ=b0(θ) (2.2)

g(µ) = θ (2.3)

V ar(Y) = b00(θ)∗a(φ) (2.4)

b00(θ) =V ar(µ) (2.5)

La fonction lien

Il découle des relations (2.3) et (2.4) que :

g(µ) =b0(µ)−1

A partir de cette relation, on en déduit le tableau suivant qui récapitule les différentes fonctions de lien canonique associées à des distributions de probabilité classiques.

Loi de probabilité Fonction lien

En pratique, il est possible de choisir d’autres fonctions lien que celle canonique.

Sélection d’un modèle

Lors de l’application de GLM, il peut être difficile de déterminer visuellement quelle loi de proba-bilité est la plus adaptée. Pour déterminer le meilleur modèle, plusieurs critères existent.

Le critère d’information d’Akaike - AIC

L’ajout de paramètres peut parfois se traduire par une hausse de la vraisemblance du modèle.

L’AIC cherche à satisfaire le critère de parcimonie et pénalise pour cela les modèles selon leur nombre de paramètres. Il est défini de la façon suivante :

AIC = 2(p−ln(L)) Avec :

— p le nombre de paramètres à estimer

— L la log-vraisemblance maximisée

Il faut choisir le modèle avec le plus faible AIC.

Le Critère d’Information Bayésien - BIC

Le BIC est assez semblable à l’AIC, il cherche lui aussi à trouver le modèle présentant le meilleur compromis entre complexité et qualité d’ajustement. Il est défini de la manière suivante :

BIC =−2ln(L) +pln(n) Avec :

— p le nombre de paramètres à estimer

— n le nombre d’observations

— L la log-vraisemblance maximisée

Il faut également minimiser ce critère. Cependant, il faut être vigilant car le BIC n’est pas adapté à des bases de données trop petites.

L’Erreur Quadratique Moyenne - MSE

Dans le cas de variables continues, la MSE sert à évaluer la précision des prédictions du modèle.

Elle est définie comme suit :

M SE(ˆθ) = E[(ˆθ−θ)2

Où θˆest l’estimateur d’un paramètre θ. La MSE doit être minimisée.

Qualité du modèle La déviance du modèle

On appelle modèle saturé le modèle présentant autant de paramètres que d’observations. La dé-viance vient comparer le modèle estimé au modèle saturé :

D=−2(L − Lsat) Avec :

— L le maximum de la fonction de log-vraisemblance du modèle estimé

— Lsat le maximum de la fonction de log-vraisemblance du modèle saturé

Asymptotiquement, D suit une loi χ2 à n-p degrés de liberté. Cette propriété permet alors de conclure à la mauvaise qualité d’un modèle dans le cas où le critère suivant est vérifié :

D > χ2n−p;1−α (2.6)

Où α représente un seuil d’erreur accepté.

L’équation (2.6) signifie que l’on rejette le modèle selon la significativité de la valeur de la déviance.

Analyse des résidus

L’analyse des résidus permet de confirmer les choix de fonctions (variance ou lien) faits au cours de la modélisation. Leur étude permet également de détecter d’éventuelles valeurs aberrantes. On définit les résidus de la manière suivante : i = ˆyi−yi.

Si les modélisations sont réalisées sur R, plusieurs graphiques peuvent être analysés :

— Le Residuals vs fitted permet de vérifier la condition d’homoscédasticité des résidus, soit que quelque soit i, la variance des i est constante. Graphiquement, on doit avoir une dispersion centrée autour de la droite d’ordonnée 0.

— Le Normal Q-Q plot permet de vérifier la normalité des résidus. Dans un cas parfait, les points sont alignés le long de la première bissectrice.

— La distance de Cookpermet de repérer les valeurs aberrantes.

La courbe ROC

Soit Yˆ une prédiction binaire et s un seuil d’acceptation tel que :

— Si s≤P[ ˆY = 1|X =x]alors Yˆ = 1;

— Sinon Yˆ = 0.

Plusieurs cas peuvent être alors rencontrés :

Réponse prédite juste Réponse prédite fausse Yˆ = 1 VP - Vrais positifs FP - Faux positifs Yˆ = 0 VN - Vrais négatifs FN - Faux négatifs

On définit également les quantités suivantes :

— La sensibilité ou taux de vrais positifs - V PV P+F N ;

— La spécificité ou taux de vrais négatifs - F P+V NV N ;

— Le taux de faux positifs ou 1-spécificité.

La courbe ROC représente le taux de vrais positifs en fonction du taux de faux positifs pour différentes valeurs seuil. On définit alors l’AUC1 comme l’aire sous la courbe ROC. Mathéma-tiquement, l’AUC correspond à "la probabilité pour qu’un événement positif soit classé comme positif par le test sur l’étendue des valeurs seuil possibles". Ainsi, plus l’aire se rapproche de 1, plus le modèle est bon. A partir d’une aire à 0.7, le modèle est considéré comme étant de bonne qualité. Ce critère est souvent utilisé dans les modèles GLM de type "logit" mais il peut être aussi utilisé pour les arbres CART par exemple.

1. Area Under Cover.

Dans le document Mémoire d'actuariat (Page 37-40)