A2 E CUEILS METHODOLOGIQUES

INDICATEURS, MATERIEL, TRAITEMENT DES DONNEES : DES CHOIX DIFFICILES

L’analyse et le classement des écueils méthodologiques est indispensable avant d’entreprendre l’utilisation d’un indicateur pour estimer l’âge.

a) fidélité et reproductibilité des caractères

Le premier problème méthodologique réside dans la fidélité et la reproductibilité des observations proposées dans les méthodes. Quel que soit l’objectif d’une observation sur le squelette, elle doit faire l’objet d’une standardisation préalable à l’interprétation. Ce problème a été posé pour la lecture des atteintes dégénératives (Waldron et Rogers, 1991) et pour l’étude de caractères non métriques crâniens (Brasili et al., 1999 ; Gualdi-Russo et al., 1999). Il est nécessaire de standardiser les méthodes de cotation des indicateurs pour éviter les différences entre observateurs (Buikstra et Konisberg, 1985). Une méthode ne devrait être utilisée qu’après avoir été parfaitement décrite et publiée (Masset, 1976b). Si une méthode ne peut être appliquée par d’autres personnes, son intérêt est nul (Lynnerup et al., 1998). L’expérience du chercheur est un facteur de biais important (Ubelaker, 2000), or nous partageons l’avis de Ferembach et al. (1979) qui préconisent qu’une méthode d’estimation de l’âge doit être reproductible par n’importe quel observateur, expérimenté ou non. Ces

problèmes de lecture touchent toutes les méthodes d’estimation de l’âge au décès des adultes, toutes techniques confondues.

Outre le problème de lecture des caractères métriques ou qualitatifs, les tests statistiques utilisés pour analyser la variabilité, la fidélité, et la reproductibilité sont discutables. C’est souvent le résultat lui-même de l’estimation de l’âge qui est utilisé comme indicateur des erreurs inter et intra-observateurs. Les études utilisent soit la comparaison de l’âge moyen estimé sur un échantillon (Baccino et al., 1999 ; Kunos et al., 1999), soit la corrélation entre les âges estimés de deux observateurs (Lovejoy et al., 1985b ; Meindl et al., 1985), ou encore, la comparaison de l’estimation de la distribution par âge d’un l’échantillon par le test Kolmogorov-Smirnov (Kunos et al., 1999). Mais l’âge estimé est une interprétation de la lecture ou des mesures des indicateurs, ce n’est donc pas le meilleur moyen d’évaluer la reproductibilité des méthodes. La comparaison directe des observations, des phases, des scores etc, est plus appropriée et plus directe. La mesure de la concordance entre deux observations est beaucoup plus intéressante (Saunders et al., 1992) ; elle reflète le résultat individu par individu alors que les autres types d’analyses ont tendance à donner des résultats généraux sur les observations des deux investigateurs en noyant l’information élémentaire.

b) échantillons de référence d’âge au décès non-connu

L’utilisation de collections ostéologiques d’âge individuel inconnu est à proscrire absolument pour mettre au point de nouvelles méthodes d’estimation de l’âge au décès. C’est une règle générale pour toutes les études méthodologiques. Pour convaincre, notons à titre d’exemples, la proposition d’une nouvelle méthode pour estimer l’âge à partir de l’attrition dentaire sur une population protohistorique (Dreier, 1994). L’âge au décès est estimé en premier avec la symphyse pubienne et les sutures crâniennes. Les estimations ainsi obtenues sont considérées comme reflétant l’âge réel au décès. Le standard proposé ensuite pour estimer l’âge à partir de l’attrition dentaire se base donc sur des estimations, ce qui est beaucoup trop optimiste. Une étude sur le comptage des anneaux du cément dentaire sur des populations archéologiques du Moyen Age (Cipriano-Bechtle et al., 1996) se targue d’obtenir des classes d’âge pour les individus de plus de 60 ans (60-66, 67-74, 75+). Mais, il n’y a aucun moyen de vérifier les résultats puisque l’âge au décès est inconnu. De même, les comparaisons de plusieurs indicateurs pour tester le degré le concordance des méthodes sur un échantillon archéologique d’âge inconnu apporte peu d’informations (Thompson et Guness- Gillet, 1991 ; Iwamoto et Konishi, 1993 ; Beyer-Olson et al., 1994 ; Ericksen, 1997). Cependant, des études, comme

celle de Kemkes-Grottenthaler (1996) et celle de Rougé (1993) sur du matériel datant du Moyen-âge donnent des informations intéressantes car elles analysent le comportement des indicateurs, les uns par rapport aux autres, plutôt que de comparer des méthodes pour trouver la plus performante.

Dans le même ordre d’idée, l’étude sur des populations archéologiques, de la perte osseuse, du remodelage osseux ou de l’arthrose, tenant compte du paramètre de l’âge (Martin et Armelagos, 1979 ; Burr et al., 1990 ; Waldron, 1993b ; Cuhna, 1996 ; Stout et Luek, 1995 ; Mulhern, 2000), nécessite au préalable l’estimation de l’âge au décès des individus étudiés. Mais les indicateurs n’étant pas fiables, on peut douter de la valeur réelle du résultat de ces études (Bocquet-Appel et Masset, 1985 ; Feik et al., 2000 ; Mays, 2000).

Pour développer une méthode d’estimation de l’âge fiable, il faut utiliser des ensembles osseux pour lesquels on possède une information fiable sur l’âge au décès (Iscan et Loth, 1989 ; Cox, 2000).

c) analyse de la fiabilité des méthodes : validation sur des échantillons indépendants

Pour valider une méthode, c’est à dire pour démontrer qu’elle permet d’estimer un âge au décès fiable, il faut qu’elle soit testée en aveugle sur des individus qui n’ont pas été inclus dans l’échantillon de référence. En général, un échantillon différent de la même collection est utilisé (Lovejoy et al., 1985a, 1985b ; Meindl et al., 1985 ; Kunos et al., 1999). Comme nous allons le voir, la méthode Suchey-Brooks basée sur la symphyse pubienne a été testée de nombreuses fois sur des collections différentes de celle qui a servi de référence. Il en est de même pour la méthode basée sur la quatrième côte. Ces études ont permis de déceler des différences entre populations et d’utiliser ces méthodes avec beaucoup plus de précautions qu’auparavant. Par contre, les tests de validité pour les méthodes histologiques sur le matériel osseux et dentaire sont rares.

d) analyse de la relation entre l’âge chronologique et les indicateurs de l’âge

Dans la plupart des méthodes, l’étude de corrélation se fait par le test statistique du coefficient de corrélation « r ». Il donne la valeur de l’indicateur par rapport à l’âge, mais dans un sens général et théorique. Lorsque cette technique statistique est utilisée, « r » doit absolument être complété par un coefficient de détermination qui mesure la part réelle de l’âge sur l’indicateur, soit « r2 ». Ce dernier est très facile à calculer si les publications ne donnent que le coefficient de corrélation. Mais, pour que le coefficient de détermination soit valable, il faut que la distribution par âge soit homogène, information qui est rarement précisée.

Indispensable aussi est la valeur du « p », qui est un indicateur de la force de la démonstration. Elle fut proposée par Fisher (1958). Cette valeur répond à la question : à quel point sommes-nous sûrs qu’il y a une corrélation entre les deux paramètres (Motulsky, 1996) et que cette relation n’est pas due à l’effet de l’échantillon ? Or dans la plupart des publications, seul est donné le coefficient de corrélation et la valeur du « p » n’apparaît pas systématiquement. Enfin, toute méthode d’estimation de l’âge doit être validée sur différents échantillons d’âge connu. On ne peut se contenter des performances calculées sur l’échantillon de référence.

e) prédiction de l’âge au décès : des techniques non appropriées L’utilisation de la régression

La plupart des méthodes d’estimation de l’âge ont recours à la régression linéaire. Dans cette analyse statistique, x est l’indicateur d’âge et y l’âge chronologique. La calibration inverse permet d’obtenir l’âge de nouveaux individus à partir de la droite de régression obtenue, mais cette approche n’est pas sans biais systématique. Pour deux variables corrélées, x et y, si x est plus grand ou plus petit que sa moyenne, y tend à être moins extrême que x et donc proche de sa propre moyenne (Berry, 1996). Plus la corrélation est faible entre âge et indicateur, plus la pente est élevée ce qui simule une corrélation même avec les âges des jeunes sur-estimés et les âges des vieux sous-estimés (Katz et Suchey, 1986 ; Ayckroyd et al., 1997). Or plus la corrélation est basse, plus le biais augmente (Ayckroyd et al., 1999). De plus, dans une régression, seule l’erreur standard simple (la dispersion des observations individuelles autour de la ligne de régression) a tendance à être considérée, ce qui ne correspond qu’à 66% des observations. En fait, il faut la multiplier par 1.96 pour obtenir l’erreur double, ce qui correspond à peu près à 95% des observations et par 2.65 pour l’erreur triple, ce qui correspond à peu près à 99 %. Ces pourcentages représentent la correction théorique pour l’application à un diagnostic individuel. Si une méthode donne une erreur standard de 10 ans, cela fait un intervalle de 20 ans autour de l’âge estimé avec, en plus, une probabilité d’être correct à 68%. Pour une probabilité de 99 %, l’âge est estimé entre 20 et 80 ans (Rösing et Kvaal, 1998).La certitude et la précision sont inversement proportionnelles.

Biologiquement parlant, utiliser une calibration inverse pour estimer l’âge de nouveaux sujets est une erreur. Par exemple, ce n’est pas l’âge qui dépend du degré de synostose des sutures crâniennes mais bien le contraire (Bocquet-Appel et Masset, 1982). Il est plus juste d’employer une calibration classique (Lucy et Pollard, 1995 ; Aykroid et al., 1999). En effet,

le fait que les erreurs systématiques prennent toujours la même forme, quelle que soit la méthode et l’indicateur d’estimation de l’âge employés, suggère que la cause vient de la méthodologie. Dans la calibration classique, la variable x indépendante, contrôlée, est l’âge et y est, cette fois, l’indicateur. L’erreur est plus grande dans la calibration classique que la calibration inverse (Konisberg, et al., 1994). L’estimation est moins efficace mais elle comporte moins de biais. Biologiquement, cette façon de procéder est beaucoup plus logique. L’âge doit être considéré comme la variable fixe et l’observation des changements dus à l’âge comme la variable dépendante. L’âge induit les changements biologiques et non l’inverse. L’utilisation des phases morphologiques

Le traitement par phase correspondant à des classes d’âge ne se chevauchant pas ne reflète pas la réalité puisqu’il suppose que les erreurs données par phase morphologique ou par classe d’âge sont fixes pour tous les individus, ce qui ne tient absolument pas compte de la vraie variabilité des phénomènes morphologiques.

f) indicateurs de l’âge étudiés sur le vivant : un biais méthodologique

On peut se demander si l’utilisation de référentiel vivant est appropriée à la problématique de l’estimation de l’âge au décès. Nous avons déjà précisé que les méthodes d’estimation de l’âge en paléoanthropologie sont appliquées sur des populations inhumés qui sont constituées d’individus décédés, d’individus qui ne sont pas parvenus à un âge plus avancé. Leur organisme, et particulièrement leur squelette, a-t-il évolué de la même manière que ceux qui ont survécu ?

Reproductibilité des caractères, population de référence pas toujours identifiée, absence de validation de la méthode et système de prédiction inapproprié sont les écueils principaux inhérents à toutes les méthodes d’estimation de l’âge couramment utilisées. Si l’on y ajoute la variabilité des marqueurs de sénescence, nous ne sommes plus étonnés du constat d’échec permanent de l’estimation de l’âge au décès des adultes en paléoanthropologie.

Dans le document Variabilité de la sénescence du squelette humain. Réflexions sur les indicateurs de l'âge au décès : à la recherche d'un outil performant. (Page 50-55)