• Aucun résultat trouvé

Déterminer l’existence de la surmortalité des jeunes

2.3 Qualité d’ajustement des modèles

2.3.1 Mesures et tests de significativité

Une fois la procédure d’estimation définie, il est possible d’estimer la qualité d’ajustement globale de chaque modèle de mortalité (HPS, HP et HPK). L’objectif de cet exercice est de définir pour chaque population, lequel de HP, HPK ou HPS fournit la meilleure qualité d’approximation. Si la réponse est HP ou HPK, on en déduira l’existence d’une bosse de surmortalité. Si, au contraire, HPS fournit une qualité d’approximation suffisante sans estimer de bosse de surmortalité, alors cette dernière n’est pas justifiée par les données.

Il existe une multitude de mesures de qualité d’ajustement issues des moindres carrés. Dans un premier temps nous allons voir comment les appliquer à nos

mo-dèles de mortalité et juger de leurs qualités et défauts. Puis, nous sélectionnerons ceux qui serviront à tester l’existence d’une bosse de surmortalité.

Dans la littérature relative aux modèles non-linéaires, un indicateur qui revient souvent est l’erreur quadratique moyenne (Mean Squared Error=MSE), voire sa racine carrée (Root Mean Squared Error=RMSE)

RM SE=

r P(qxqˆx)2 n

nreprésente le nombre d’observations. Des variantes de cette mesure existent, comme une version standardisée par rapport à l’intervalle des valeurs extrêmes N RM SE =qmRM SEax−qmin, ou son coefficient de variationCV(RM SE) = RM SEq¯ . Ces deux dernières expressions sont connues pour permettre une comparaison du RMSE entre modèles portant sur des données différentes. Elles sont donc potentiellement utiles lorsqu’il s’agit de comparer la qualité d’approximation de modèles estimés sur différentes populations, mais sont inutiles lorsque deux modèles alternatifs, qui plus est emboîtés, sont testés sur les mêmes données.

Afin de conserver une cohérence avec la méthode d’estimation, il est souhaitable à nouveau d’adapter ces mesures à l’usage des pondérations12. Ainsi, par exemple, avec les pondérations retenues précédemment, la racine de l’erreur quadratique moyenne (RMSE) devient

RM SE= v u u t

P(qxqˆx)2· q1

x

P 1 qx

Le RMSE, bien que largement utilisé dans la littérature, présente une propriété souvent ignorée qui consiste à dépendre de la variance de la distribution des erreurs Willmott and Matsuura(2005). Le RMSE ne mesure donc pas uniquement la dé-viation des valeurs prédites par rapport aux valeurs mesurées, mais également leur dispersion. Il est dès lors impossible de déterminer dans quelle mesure le RMSE reflète l’une ou l’autre de ces deux caractéristiques. Or, l’intérêt d’une mesure de qualité d’ajustement est avant tout d’obtenir une mesure de tendance centrale des termes d’erreurs. Il est donc préférable d’utiliser l’erreur absolue moyenne (Mean Absolute Error=MAE), définie par

M AE=

P|(qxqˆxq1

x| P 1

qx

12. Bien que cette manière de procéder ait été critiquée parWillett and Singer(1988) pour sa prise en compte de l’amélioration de l’approximation due à la diminution de l’hétéroscédasticité par l’usage des pondérations, elle nous parait importante dans le cas qui nous occupe. En effet, l’étude de la mortalité des jeunes adultes nécessitant une très bonne qualité d’approximation aux âges où la force de mortalité est faible, la comparaison de la qualité de modèles alternatifs doit accorder une place particulièrement importante à ces âge-là. Cette particularité a souvent été ignorée dans la littérature comparant les modèles de mortalité (Gage and Mode 1993), ce qui explique en partie la moins bonne qualité d’approximation attribuée au modèle de Heligman et Pollard, en comparaison avec d’autres modèles estimés sur la courbe de survie.

Ces trois premières mesures (MSE, RSME et MAE) ont ceci de commun qu’elles estiment toutes l’écart global entre les observations et les valeurs estimées sans prendre en compte la variance originale des valeurs estimées. Au contraire, le coef-ficient de détermination, plus connu sous son abréviation R2, prend comme point de comparaison la dispersion initiale (somme des carrés totaleSCtot) et exprime la part de cette dispersion qui est expliquée par le modèleSCexp13. Cette caractéris-tique du R2, qui compare un état de distribution antérieur des données avec celui obtenu après traitement, est particulièrement intéressante parce qu’elle introduit précisément une notion de comparaison entre le modèle nul et le modèle testé. Il est possible ensuite d’étendre cette notion à la comparaison entre deux modèles non-nuls. Avec l’usage des pondérations, le R2 se définit de la manière suivante :

R2 = SCexp

SCtot =SCtotSCres

SCtot = P1/qx·(qxq¯)2−P1/qx·(qxqˆx)2 P1/qx·(qxq¯)2

L’expérience montre que même des modèles de mortalité simples sont capables d’obtenir une valeur de R2 très élevée. En effet, la régularité de la progression du taux de mortalité dans la seconde moitié de la vie, celle de la sénescence, est très simple à modéliser et permet d’expliquer une grande partie de la variance to-tale. Ainsi, le modèle de Gompertz explique par exemple 95% de la variance dans le cas de la mortalité des hommes suisses entre 1980 et 1984, bien qu’il ne prenne pas du tout en compte ni la mortalité infantile, ni la surmortalité des jeunes adultes.

Cette constatation implique que l’essentiel de la différence entre les modèles à comparer (HPS, HP et HPK) s’effectue sur une portion restreinte de la variance totale. C’est pourquoi il est utile d’avoir à disposition une mesure relative, capable d’estimer la part de la variance supplémentaire expliquée par un modèle complexe (W), par rapport à un modèle plus simple (V). Cette statistique, qu’on baptisera coefficient de détermination relatif,R2W Vrel , s’exprime de la manière suivante :

R2rel(W, V) = R2(W)−R2(V) 1−R2(V)

De cette manière,R2relexprime la proportion de variance supplémentaire expli-quée par le modèle plus complexe par rapport à la variance résiduelle d’un modèle plus simple. Il s’agit donc d’une mesure d’ajustement relative.

Toutefois, les mesures basées sur les termes d’erreur favorisent presque invaria-blement les modèles plus complexes. Dans notre cas, les modèles HPS, HP et HPK sont tous emboîtés, ce qui permet de dire que HPS est un cas particulier d’HP, qui

13. Certains statisticiens ont pu affirmer que "an absolute rather than a relative measure is to be preffered"Healy(1984), critiquant donc l’usage du R2 par rapport au RMSE par exemple.

Cette critique repose cependant principalement sur la présence de doublons dans la variable indépendante, problème qui n’existe pas dans notre cas (la probabilité de décès n’est jamais observée deux fois pour le même groupe d’âge).

est lui-même un cas particulier de HPK. En effet, en cas de bosse de surmortalité symétrique, HPK revient à HP en fixantk= 1. De plus, en cas d’absence de bosse de surmortalité, HP et HPK reviennent à HPS en fixantE= 0. Dans ces deux cas, les modèles plus complexes obtiendront au pire le même R2 que les modèles plus simples. Cela signifie qu’au-delà de la valeur du R2, il est nécessaire de pénaliser une complexité inutile.

La significativité de l’apport d’un modèle plus complexe par rapport à un mo-dèle moins complexe peut être évaluée par le test de Fisher Chow(1960). Ce test consiste à comparer les sommes des carrés des erreurs résiduelles des deux modèles, en les pondérant par leurs degrés de liberté respectifs. La statistique s’exprime de la manière suivante :

F =(SCVSCW)/(pWpV) SCW/(npW)

SCV et SCW représentent respectivement la somme des carrés résiduelle du modèle plus simple (V) et plus complexe (W), pW et pV sont le nombre de paramètres de chaque modèle, et (npW) est la différence entre le nombre d’ob-servations et le nombre de paramètres du modèle W.

En comparant cette statistique à une distribution du test de Fisher on obtient une p-valeur qui indique la probabilité que l’augmentation de qualité d’ajustement soit due au hasard. En fixant un seuil αà cette p-valeur, on peut alors décider si le gain permis par le modèle W est significatif. En d’autres termes, si la p-valeur est plus petite que le seuil α, il est préférable de retenir le modèle plus complexe.

A l’opposé, si cette valeur est supérieure au seuil α, alors les paramètres supplé-mentaires ne sont pas justifiés.

Puisque la fixation d’un seuil de significativité α est une décision arbitraire, des alternatives ont été proposées. L’une d’entre elles consiste à utiliser le critère d’information bayesien (BIC). Cette mesure permet de comparer la qualité d’ajus-tement de deux modèles en comparant leurs valeurs de maximum de vraisemblance pondérées par le nombre de paramètres et d’observations. Algébriquement,

BIC= 2·ln(L) +k·ln(n)

Lest la valeur maximisée de la fonction de vraisemblance, alors queket n indiquent respectivement le nombre de paramètres du modèle et d’observations.

Afin d’illustrer toutes les mesures de qualité globales proposées jusqu’ici, pre-nons comme exemple les hommes suisses entre 1980 et 1984 et appliquons les diffé-rentes mesures aux trois modèles HPS, HP et HPK (tableau 2.3). Le RMSE et le MAE indiquent une hiérarchie dominée par HPK, qui est très légèrement supérieur à HP, mais bien meilleur que HPS. Comme anticipé, tous les modèles atteignent un R2 très élevé, ce qui pousse à se pencher sur les mesures comparatives (R2rel), qui indiquent que HP permet d’expliquer 81% de la variance résiduelle de HPS, alors que HPK ne permet qu’un gain de 5% par rapport à HP. La différence entre HPK

et HP est significative au seuil de 5% mais pas à 1%. Quant au BIC, il marque lui-aussi une nette différence entre les modèles avec bosse (HPK et HP) et celui sans bosse (HPS). La faible différence entre HPK et HP est à l’avantage du premier, ce qui confirme l’information tirée de R2.

R2 RMSE MAE R2rel p-val BIC

HPS 0.99985 0.00035 0.00023 -43201

HP 0.99997 0.00015 0.00006 -43474

HPK 0.99997 0.00015 0.00005 -43497

HP vs HPS 0.81 0.0000 -273

HPK vs HP 0.05 0.0383 -23

HPK vs HPS 0.82 0.0000 -296

TABLEAU 2.3 – Mesures de qualité d’ajustement : Hommes suisses 1980-84 Cette comparaison des indicateurs d’ajustement amène à deux conclusions.

D’une part, les mesures semblent concorder et indiquent la même hiérarchie dans le choix du modèle le mieux adapté aux données. Ce résultat relativise d’une certaine manière l’importance du choix de la mesure d’ajustement. D’autre part, lorsqu’il s’agit de trancher quant à la significativité de l’apport de paramètres supplémen-taires, la décision peut être parfois difficile à prendre et dépend du choix souvent arbitraire du seuil de significativité (Stigler 2008).

Ce choix pourrait être simplifié par l’usage du BIC, à condition que ce dernier soit insensible à la taille de la population et au niveau général de mortalité. Ce dernier point étant intimement lié à la question complexe de la variabilité aléatoire des données, elle mérite qu’on s’y attarde plus longtemps.