• Aucun résultat trouvé

Identification des paramètres et choix d’un algorithme d’optimisation

Déterminer l’existence de la surmortalité des jeunes

2.2 Estimation des modèles

2.2.3 Identification des paramètres et choix d’un algorithme d’optimisation

Une faiblesse reconnue des modèles non-linéaires est le problème d’identification des paramètres. Ce problème intervient lorsque le modèle contient trop de para-mètres que ce qui est nécessaire, plusieurs parapara-mètres mesurant dès lors conjoin-tement le même effet et se substituant l’un à l’autre. Le modèle de Heligman et

Pollard, par exemple, est défini par trois termes additifs qui ont chacun une signi-fication particulière d’un point de vue théorique : ontogenescence, surmortalité des jeunes adultes et sénescence.

Un cas problématique d’identification des paramètres apparait par exemple lorsque l’un de ces termes n’est plus justifié par les données et est utilisé par l’algo-rithme d’optimisation à des fins pour lesquelles il n’était pas conçu. Ce phénomène a été par exemple mis en évidence lorsque la bosse de surmortalité observée est si faible que les paramètres D, E et F changent d’affectation et interfèrent avec les paramètres G et H dans la modélisation de la sénescence (Heligman and Pollard 1980, 59).

De manière générale, le danger à éviter est que grâce à leur nombre supérieur de paramètres, les modèles plus complexes (HP et HPK) puissent augmenter signi-ficativement leur qualité d’estimation en fixant des valeurs inattendues de certains paramètres, qui ne remplissent alors plus la fonction pour laquelle ils ont été conçus.

Une manière de diagnostiquer ce problème est d’observer le degré de corrélation entre les paramètres. Ce point, bien que nécessaire dans l’analyse des modèles non-linéaires, n’est pourtant jamais abordé dans les publications portant sur les modèles de mortalité.

Figure2.8 – Risque de décès par âge des hommes américains et femmes suédoises en 1960

0 20 40 60 80

−7

−6

−5

−4

−3

−2

âge

ln(q)

qx HP HPK HPS

USA

0 20 40 60 80

−8

−6

−4

−2

âge

ln(q)

qx HP HPK HPS

Suède

Prenons comme exemples les hommes américains et les femmes suédoises en 1960 (figure 2.8). Dans le premier cas, qui comporte une forte bosse de surmorta-lité, le modèle HPS engendre de fortes corrélations entre presque tous les paramètres (figure 2.9). A l’inverse, le modèle HP ne génère de corrélations qu’à l’intérieur de chaque terme, c’est-à-dire respectivement entre A, B et C, entre D, E et F, et entre G et H. L’ajout d’un neuvième paramètre k, par contre, introduit à nouveau de fortes dépendances entre tous les paramètres. Ce constat est le signe que le modèle

HP est le mieux adapté à cette situation et que les modèles HPS et HPK sont respectivement sous- et sur-paramétrisés.

Figure 2.9 – Corrélation entre les paramètres Modèles HPS, HP et HPK : Hommes américains 1960

1

Dans le cas des femmes suédoises, pour lesquelles la bosse de surmortalité est très faible, la situation est inversée avec une corrélation modérée dans le modèle HPS, mais d’importants problèmes d’identifications dans le modèle HP entre tous les paramètres D à H (figure 2.10). L’ajout du paramètre k permet de limiter quelque peu cette confusion générale mais au final ne fait que la concentrer sur ce nouveau paramètre. On en conclut que, dans cette population, les modèles HP et HPK comportent trop de paramètres par rapport à ce qui est nécessaire, ce qui est un signe que la bosse n’est pas suffisante dans les taux observés pour supporter l’estimation des paramètres concernés.

Figure2.10 – Corrélation entre les paramètres Modèles HPS, HPS et HPK : Femmes suédoises 1960

1

La conclusion de cette analyse de la corrélation entre paramètres est que lorsque les modèles sont mal adaptés aux taux observés, qu’ils soient sur- ou sous-paramétrisés, il devient difficile d’identifier la fonction de chaque paramètre. Heureusement, lorsque le modèle est adéquat, la corrélation entre les termes est faible. Il serait donc peu prudent d’observer l’évolution de chaque paramètre pris individuelle-ment, étant donné qu’il est impossible d’exclure que ces variations soient dues à un équilibre instable avec un autre paramètre. Au mieux, il est possible d’étudier l’évolution d’un terme dans son ensemble.

Une solution pratique au problème d’identification (et de surparamétrisation) est de fixer des bornes aux paramètres afin de s’assurer qu’ils restent dans des valeurs plausibles et qu’ils n’interfèrent pas les uns avec les autres. Ces bornes peuvent être intégrées dans l’algorithme d’optimisation utilisé pour estimer le

mo-dèle, comme celui de Gauss-Newton (Wang 2012), l’algorithme "port" (Kaufman and Gay 1977) ou celui de Levenberg-Marquardt (Levenberg 1944; Marquardt 1963). Le choix des valeurs initiales de l’algorithme est également important en cas de non-convexité de la fonction objective (soit la somme des carrés résiduels).

Les valeurs initiales et les limites adoptées pour chaque modèle (tableau 2.1) sont inspirées de celles publiées dans la littérature et sont le fruit d’un long pro-cessus d’amélioration par tâtonnement qui a permis de minimiser les cas de non-convergence. En guise de comparaison, on trouve ici les valeurs des paramètres publiées respectivement par Heligman et Pollard pour les hommes australiens en 1970-72 (Heligman and Pollard 1980, 58), et Kostaki pour les femmes françaises en 1986-88 (Kostaki 1992, 279).

La borne la plus importante est celle qui fixe la limite supérieure du paramètre F, car en cas de faible bosse de surmortalité l’algorithme pourrait chercher à placer la bosse à un autre endroit de la courbe et corriger ainsi d’éventuelles petites dévia-tions du rythme exponentielle dans la phase de sénescence. C’est pour cette raison que les limites de ce paramètre (16 à 22 ans) sont placées relativement proches de la valeur initiale (20 ans), de sorte qu’elles ne permettent une variation que dans une fourchette de -20% à +10%.

Le paramètre k du modèle HPK doit aussi être limité à des valeurs entre 0 et 1, ceci pour des raisons théoriques. En effet, si k<0, alors la seconde partie de la bosse devient convexe et chevauche la région d’influence des paramètres G et H.

Les autres paramètres bénéficient de plus de liberté, particulièrement ceux servant à mesurer la mortalité infantile (A, B et C) et la mortalité de base (baseline mor-tality) (G) puisque ces deux aspects ont énormément évolué au cours des derniers siècles. Une fourchette trop étroite pour ces paramètres limiterait les contextes auxquels les modèles peuvent s’adapter.

(HP 1980) initial min max (Kostaki 1992) initial min max initial min max

HP HPK HPS

A 0.00163 0.001 1e-04 0.1 0.000612 0.001 1e-04 0.1 0.001 1e-04 0.1

B 0.0144 0.005 1e-06 0.5 0.02833 0.005 1e-06 0.5 0.5 1e-06 0.5

C 0.1182 0.11 1e-04 1 0.11044 0.11 1e-04 1 0.11 1e-04 1

D 0.00164 0.0015 0 0.01 0.000223 0.0015 0 0.01 0.0015 0 0.01

E 18.49 8 1 50 28.936 8 1 50

F 19.88 20 16 22 18.43 20 16 22

G 6.4e-05 3e-05 1e-07 0.01 4.2e-05 3e-05 1e-07 0.01 3e-05 1e-07 0.01

H 1.1013 1.105 0.5 1.5 1.0877 1.105 0.5 1.5 1.105 0.5 1.5

k 0.1355 0.5 0 1

TABLEAU 2.1 – Valeurs initiales et limites des paramètres

Afin de tester la pertinence de ces valeurs initiales et de ces bornes, nous avons tiré un échantillon aléatoire de 500 populations issues de laHuman Mortality Da-tabase et avons appliqué les trois modèles (HPS, HP et HPK) en utilisant deux algorithmes différents (Levenberg-Marquard et "port"). Les résultats montrent que l’algorithme "port" converge dans plus de 97% des cas, tous modèles de mortalité confondus (tableau 2.2). Parmi les cas de non-convergence, environ un sur trois peut être corrigé grâce à l’algorithme de Levenberg-Marquard, laissant au final en-viron 1.5% de cas de non-convergence (NC).

port LM NC port LM NC port LM NC

HP HPK HPS

n 487 4 9 485 7 8 488 4 8

% 97.4 0.8 1.8 97 1.4 1.6 97.6 0.8 1.6

TABLEAU 2.2 – Convergence selon le modèle de mortalité et l’algorithme utilisé L’étude plus précise des 25 cas de non-convergence (9 pour HP, 8 pour HPK et 8 pour HPS) montre qu’ils ne représentent en réalité que 9 populations distinctes, car dans huit cas la convergence n’est atteinte sur aucun des modèles de mortalité, et dans un cas elle n’est atteinte que sur les modèle HPS et HPK. Les huit cas de non-convergence totale concernent tous des séries où au moins un quotient qx

est nul car aucun décès n’a été enregistré pour cet âge-là. Or, les deux algorithmes d’optimisation impliquent le calcul du gradient, ce qui produit visiblement une er-reur de calcul dans ce cas.

Une solution simple à ce problème est de remplacer les valeurs nulles par des valeurs manquantes et de légèrement modifier la procédure d’optimisation de ma-nière à ce qu’elle ignore ces observations. En agissant de la sorte, il apparaît qu’une seule des 500 populations ne peut être correctement estimée. Il s’agit des hommes ukrainiens en 2005, avec lesquels le modèle de Heligman et Pollard n’est visible-ment plus du tout compatible.

Certes, cette méthode de traitement des valeurs nulles a des limites, notamment lorsque la population du pays est si petite que plusieurs classes d’âge consécutives sont concernées par l’absence totale de décès. Sans entrer dans les détails - nous reviendrons sur les difficultés induites par la taille des populations sur les tests de significativité dans la section suivante - il est imaginable qu’au-delà d’un certain nombre de valeurs nulles remplacées par des valeurs manquantes, l’estimation du modèle soit trop affectée. Pour tester cette limitation, nous avons généré un jeu de valeurs deqxsur la base de paramètres du modèle HP pris au hasard11. Cette table de mortalité artificielle a été copiée cent fois pour obtenir cent séries identiques, puis nous y avons introduit des valeurs manquantes entre 0 et 25 ans de manière totalement aléatoire. Le nombre de valeurs manquantes est lui-aussi aléatoire et varie de 1 à 25.

Cette simulation donne les résultats suivants. Sur les 100 séries de données géné-rées, 86 permettent une convergence du modèle HP. Les 14 cas de non-convergence concernent tous des séries dans lesquelles ont été insérées 20 valeurs manquantes ou plus. De plus, la probabilité qu’un modèle ne converge pas est de 20% avec 20 valeurs manquantes, augmente à 90% pour 23 valeurs manquantes et à 100% pour 24 et 25 valeurs manquantes. Il semble donc que l’existence de plus de 20 groupes d’âge sans décès entre 0 et 25 ans soit un seuil au delà duquel il ne vaut plus la peine d’estimer un modèle car le risque qu’il ne converge pas est trop important.

11. Il s’agit en l’occurrence des valeurs initiales des paramètres multipliées par 1.02.

Cela ne signifie pas pour autant que si le nombre de valeurs manquantes est infé-rieur à 20, le modèle sera capable d’estimer correctement les paramètres, mais au moins nous disposerons de résultats prétant à interprétation.

Pour aider à cette interprétation, nous avons calculé la déviation relative de chaque paramètre,

D(Θ) = ˆΘ Θ

où Θ est le paramètre utilisé pour simuler le jeu de données et ˆΘ est la valeur estimée de ce même paramètre. Si l’estimation n’était pas affectée par les valeurs manquantes, la valeur estimée du paramètre devrait rester proche de celle utilisée pour générer les données, doncD(Θ)∼= 1.

Incontestablement, les paramètres les plus affectés par les valeurs manquantes sont A, B et C (figure 2.11), dont la déviation atteint parfois un facteur de 100 pour A et B (qui correspond d’ailleurs à la borne supérieure de ces paramètres).

Cette déviation apparait dès 3 à 4 valeurs manquantes pour le paramètre B, mais seulement au-delà de 20 valeurs manquantes pour A et C. Cette grande sensibilité de B n’est pas surprenante dans la mesure où ce paramètre ne repose que sur deux observations, soient q0 etq1 (Heligman and Pollard 1980, 50).

Les paramètres G et H ne sont logiquement que très peu affectés par l’existence de valeurs manquantes dans la première partie de la vie - leur déviation reste dans une fourchette de 1% - puisqu’ils mesurent le rythme de sénescence qui ne touche que la seconde partie de la vie. Quant aux paramètres de la bosse de surmortalité, D, E et F, ils sont touchés de manière variable. Si la localisation de la bosse (F) reste toujours assez bien estimée même avec plus d’une dizaine de valeurs man-quantes, D et E sont rapidement affectés dès cinq à dix valeurs manquantes.

La conclusion de cette analyse est double. Premièrement, il est inutile de pro-céder à une estimation de modèles sur une série de données qui comporte plus de 20 valeurs manquantes dans les 25 premières années de vie, car cette estima-tion a de grandes chances de ne pas converger. Deuxièmement, l’interprétaestima-tion des paramètres estimés sur une série de données comportant plus de cinq valeurs man-quantes dans les 25 premières années de vie est délicate, surtout sur le paramètre B.

Figure2.11 – Valeurs nulles et qualité d’estimation des paramètres