III — Effet de la structure par âge de l’échantillon de référence

Question n° 2 : quel est l’effet de la structure par âge de l’échantillon de référence sur la fiabilité de la méthode de Brooks et Suchey ?

Objectif n° 2 : tester la fiabilité de la méthode de Brooks et Suchey sur deux échantillons virtuels de structure d’âge différente composés d’individus masculins français contemporains.

III — 1. Matériel : les deux « sous-échantillons »

À partir de l’échantillon EPFM décrit au précédent chapitre, nous avons construit aléatoirement deux « sous-échantillons ». La distribution par âge du premier sous-échantillon était similaire à celle de l’échantillon initial de Brooks et Suchey. Cet échantillon sera nommé DBS pour « Distribution Brooks et Suchey ». La distribution par âge du second sous-échantillon était similaire à celle de la population Française en janvier 2014. Cet échantillon sera nommé DPF pour « Distribution Population Française » (Insee, 2015). Nous avons utilisé une répartition par âge de 10 ans. Étant donné que la répartition par groupe d’âge était définie à l’avance, la taille des deux « sous- échantillons » a été « limitée » par le plus petit groupe d’âge de l’échantillon de départ.

III — 2. Méthode

Les analyses statistiques et les représentations graphiques ont été réalisées avec le logiciel R 3.3.3 (R Development Core Team, 2008).

III — 2.1. Statistiques descriptives

Pour les échantillons DBS et DPF :

- les histogrammes de distribution d’âge des individus ont été représentés par intervalle de 10 ans d’âge ;

- les moyennes ont été comparées à l’aide du test de Mann Whitney ;

- la corrélation entre l’âge et les stades a été calculée à l’aide de la corrélation de Spearman ;

- les diagrammes en boîte (« box plots ») par stade, des deux « sous-échantillons » et de EBSM ont été représentés.

III — 2.2. Fiabilité

La fiabilité a été testée par le calcul de la précision (erreur absolue) et du biais (erreur relative) (Lovejoy, 1985b). La fiabilité a été calculée pour chaque intervalle d’âge de 10 ans en considérant que l’âge estimé pour les individus des deux sous-échantillons correspondait à l’âge moyen du stade correspondant de l’échantillon de Brooks et Suchey.

III — 3. Résultats

III — 3.1. Les 2 « sous-échantillons » : statistiques descriptives

La figure 7 représente la distribution par âge de chaque sous-échantillon par intervalle de 10 ans d’âge comparativement à l’échantillon de référence de Brooks et Suchey (EBSM) (histogrammes « back-to-back »). DBS était constitué de 485 surfaces symphysaires (âge moyen = 40,7 ; âge minimum = 15 ans ; âge maximum = 92 ans et écart-type = 18,2 ans) et DPF était constitué de 404 surfaces symphysaires (âge moyen = 46,7 ; âge minimum = 15 ans ; âge maximum = 92 ans et écart- type = 19,2 ans). La moyenne d’âge de DBS était inférieure à celle de DPF (p < 0,000 1).

Figure 7 : Histogramme « back-to-back » de distribution par âge de l’échantillon de référence EBSM comparativement à la distribution par âge des deux sous-échantillons (DBS et DPF).

Le tableau 5 montre que l’âge moyen pour les stades I et II était significativement plus faible dans les deux sous-échantillons que dans l’échantillon de référence et l’âge moyen pour les stades IV, V et VI était significativement plus élevé dans les deux sous-échantillons que dans l’échantillon de référence (sauf entre EBSM et DBS pour le stade VI). Ces résultats sont en accord avec ceux du chapitre précédent. En revanche, si les âges moyens de chaque stade (sauf pour le stade I) de DBS étaient inférieurs à ceux de DPF, ces résultats n’étaient pas significatifs.

Tableau 5 : Statistiques descriptives par stade pour les échantillons DBS et DPF comparativement à EBSM (ns = non significatif).

EBSM DBS DPF EBSM / DBS EBSM / DPF DBS / DPF Stade n moy. n moy. n moy. p p p

I 132 18 50 17,1 21 17,1 0,000 5 0,031 ns II 52 23,5 55 20,5 30 21,4 < 0,001 0,007 ns III 40 29,5 48 31,4 39 34,9 ns ns ns IV 154 36,7 115 40,7 93 41,6 0,007 0,006 ns V 137 46,5 181 51,2 174 53,8 0,001 < 0,001 ns VI 205 60,4 36 64,6 47 69,7 ns < 0,001 ns

L’âge était significativement corrélé avec les stades (Rho = 0,78 de Spearman ; p <0,000 1 pour DBS et Rho de Spearman = 0,72 ; p <0,000 1 pour DPF).

A des fins illustratives, pour compléter le précédent tableau, les diagrammes en boîte par stade des deux « sous-échantillons » et de l’échantillon EBSM ont été représentés à la figure 8.

Figure 8 : Diagrammes en boîte par stade, des deux « sous-échantillons » et de l’échantillon EBSM.

III — 3.2. Fiabilité

Le tableau 6 montre les erreurs absolues (précisions) et les erreurs relatives (biais) par intervalle de 10 ans d’âge lorsque l’âge moyen de EBSM est appliqué aux échantillons DBS et DPF. Les erreurs absolues et relatives augmentent avec l’âge. L’erreur absolue est supérieure à 20 ans pour les personnes de plus de 65 ans. Même si les âges moyens par stade entre DBS et DPF n’étaient pas significativement différents on note une tendance à obtenir des erreurs absolues majorées et une sous- estimation plus importante pour les individus âgés du sous-échantillon DPF.

Tableau 6 : Erreurs absolues (E.A.) (précision) et erreurs relatives (E.R.) (biais) par intervalle d’âge de 10 ans lorsque l’âge estimé pour les individus des « sous-échantillons » DBS et DPF correspond à l’âge moyen du stade correspondant pour l’échantillon EBSM.

DBS DPF

Groupe d’âge E.A. E.R. E.A. E.R.

15–25 4,4 4,1 5,2 4,9 26–35 8,8 7,2 9,0 7,5 36–45 6,1 -0,4 6,4 -0,7 46–55 7,9 -6,6 7,8 -6,9 56–65 13,2 -12,8 13,3 -12,9 66–75 23,9 -23,9 22,8 -22,8 76–85 25,7 -25,7 26,5 -26,5 86–95 29,8 -29,8 33,9 -33,9 Total 9,3 -3,0 11,4 -6,0

III — 4. Discussion

De façon générale, les erreurs absolues et relatives sont en accord avec les résultats du précédent chapitre. Concernant l’effet de la répartition de l’âge par la comparaison de DBS et DPF, les âges moyens de chaque stade n’étaient pas significativement différents. En revanche, les erreurs semblaient être majorées pour DPF comparativement à DBS, en particulier pour les personnes les plus âgées.

Ces résultats semblent soutenir l’hypothèse d’un effet de la structure par âge de l’échantillon de référence. La population française est plus âgée que l’échantillon de Brooks et Suchey (les âges moyens de nos deux sous-échantillons étaient significativement différents) et lorsque l’échantillon cible (DPF) est « distribué » comme la population française (les différences d’âge entre l’échantillon cible et l’échantillon test sont majorées) les erreurs sont également majorées.

Toutefois, la fiabilité reste faible (erreurs absolues élevées) et les biais importants même lorsque l’échantillon cible (DBS) à la même structure par âge que l’échantillon de référence (EBSM). Ainsi, ce biais méthodologique représenté par l’attraction à la moyenne ne semble pas suffisant pour expliquer la sous-estimation des individus les plus âgés.

Dans le document Estimation de l'âge au décès d'individus français contemporains. Apport d'un échantillon virtuel à la méthode de Brooks et Suchey (Page 41-49)