• Aucun résultat trouvé

L’approche par méta-analyse: au-delà de la revue des travaux antérieurs

Chapitre 1 Introduction et revue de la littérature

1.13. Rappel sur quelques procédures statistiques et déroulement de la méta-analyse

1.13.4. L’approche par méta-analyse: au-delà de la revue des travaux antérieurs

La méta-analyse et la modélisation sont deux concepts différents. En effet, l’établissement d’un modèle n’est pas forcement dépendant d’une approche par méta-analyse (Sauvant et al., 2005). Une méta-analyse est une discipline scientifique récente qui vise à réaliser des revues de synthèse sur des résultats d’une série d’études indépendantes conduites séparément sur un problème donné. Elle est née de l’augmentation du nombre de publications et de données chiffrées pour des sujets d’intérêt. L’objectif de la méta-analyse est l’analyse simultanée d’un ensemble d’études s’intéressant à la même question et de compiler des résultats provenant d’études indépendantes dans le but d’obtenir des informations qu’aucune de ces études prises isolément ne pourrait fournir. En combinant ces résultats de diverses études, il est possible d’augmenter la puissance des tests statistiques et d’obtenir une estimation beaucoup plus précise qu’une seule étude puisqu’une seule expérience n’est guère représentative d’effets ou de relations observés pour un problème donné (Sauvant et al., 2005). La méta-analyse peut aussi dégager un effet lorsque celui-ci est trop faible pour être clairement soutenu par les essais pris individuellement (Sauvant et., 2005). De plus, il est difficile de mesurer au sein d’une même expérience, l’ensemble des paramètres pertinents. Comme la méta-analyse, l’approche globale basée sur la synthèse bibliographique qualitative classique permet de recouper les différents résultats provenant de différentes études. Toutefois, ce type d’approche laisse place à une non-exhaustivité dans le choix des publications à rapporter ce qui peut conduire à des conclusions biaisées. L’analyse inter-étude ou méta-analyse se rapproche a priori davantage des lois générales recherchées (Sauvant et., 2005). Indépendamment du type de données présentes, il existe deux types de méta-analyses (Cucherat et al., 1997):

 la méta-analyse des données publiées dans des journaux avec comité de lecture  la méta-analyse sur des données individuelles de chaque individu figurant dans des

fichiers d’analyse (Meurice et al., 2008).

 Ce second type est considéré comme la méthode de référence (Oxman et al., 1995) pour l’absence de biais lié à la publication (étude). Cependant, il existe très peu de données individuelles en libre accès permettant d’adopter cette approche.

1.13.5. Déroulement d’une méta-analyse

Les bonnes pratiques de méta-analyse se font en plusieurs étapes (Figure 1-10). Au moins deux conditions sont tout d’abord nécessaires pour réaliser une méta-analyse de qualité: l’exhaustivité des données et la rigueur dans le choix des publications et des tests statistiques. En premier lieu l’objectif et les hypothèses de la méta-analyse doivent être clairement définis. Ensuite, les étapes suivies avec rigueur. Il convient pour cela de décider de la population concernée et de la ou des variables à expliquer (Sauvant et al., 2005; Loncke, 2009).

Figure 1-10 Principales étapes de la méta-analyse (tiré deSauvant et al., 2005)

Définir l’objectif de l’étude

La première étape d’une méta-analyse consiste à définir la question de recherche qui détermine les objectifs plus ou moins ciblés. Il s’agit généralement de relier une ou des variable(s) explicative(s) X à une variable d’intérêt Y. La variable réponse Y peut être continue ou discrète; la discussion se limitera ici au cas de la variable d’intérêt continue. Les variables explicatives peuvent être de nature quantitative ou qualitative. La formulation de la question de recherche doit permettre de préciser clairement la population concernée, le

résultat ou la variable à étudier ainsi que les possibles variables explicatives à prendre en compte dans l’analyse. Néanmoins, la question de recherche peut évoluer en fonction des données disponibles et des premiers résultats.

La récolte des données et constitutions de la base

Une bonne méta-analyse nécessite une bonne recherche bibliographique à partir de revues de référence ou à partir de bases de données informatisées (ex : Web of Science, résumés CAB, Prod INRA et Science Direct), on parle alors de méta-dispositif. La constitution de cette base consiste à rassembler le maximum de données disponibles sur le sujet d’intérêt. Les publications sélectionnées pour constituer la base doivent répondre à divers critères. L’un des premiers critères est la cohérence et la pertinence des données contenues dans la publication par rapport au thème de l’étude défini préalablement. Cela nécessite aussi un regard sur la globalité des données ainsi qu’un regard sur l’individualité de chacune des publications. Ensuite, les données sont extraites et transcrites avec précision dans la base de données après codage. Ce codage consiste à dissocier des ensembles de données pour lesquels plusieurs objectifs expérimentaux sont confondus (Sauvant et al., 2005). Il faut aussi s’assurer que l’ensemble des facteurs d’études sont renseignés dans chacune des publications à défaut de les prédire.

Exploration du métadispositif a) Exploitation graphique

Après avoir constitué une base de données, l’étape suivante consiste à représenter les données des combinaisons des différentes variables prises 2 à 2 graphiquement afin d’avoir une idée globale de l’hétérogénéité et de la cohérence des données ainsi que de la nature et de l’importance des liaisons entre les variables et cela aux niveaux intra et inter-études. Cette visualisation graphique permet aussi de repérer les valeurs aberrantes ou influentes (Sauvant et al., 2005).

b) Statistique descriptive

La deuxième étape consiste à effectuer des statistiques descriptives de chaque variable X et Y (nombre de données, nombre de données manquantes, moyenne, écart-type, minimum, maximum). En ce qui est des variables qualitatives (exemple : type d’ingrédients, stade physiologique), il est possible de regarder les effectifs de chacune d’entre elles, afin de s’assurer de l’hétérogénéité des classes représentées. Il se peut, en fonction de la base, que certains statuts soient peu représentés et le cas échéant, il est bon de le signaler.

c) La pondération

Le but de cette étape est de hiérarchiser ou pondérer les données des différentes expériences. Un système de pondération des expérimentations indexées par i (i= 1 à n) peut être appliqué soit de façon globale (pour l’ensemble de l’expérience ou publication), soit pour les différents groupes de traitements (Tomassone et al., 1983). Dans le cadre du modèle linéaire général, les estimateurs du maximum de vraisemblance peuvent être obtenus en pondérant chaque observation par l’inverse de l’écart-type du résultat de l’expérimentation.

d) Corrélation entre variables

Le calcul des coefficients de corrélation entre les différentes variables quantitatives permet de visualiser les liens existant entre elles. Ces corrélations sont calculées selon deux modalités (inter-étude et intra-étude) (Figure 1-11). La première corrélation (inter-étude) dite de Pearson permet de tester la liaison de 2 variables (X et Y) sans tenir compte du fait que certains traitements sont issus de la même étude. Autrement dit, cette représentation est globale pour toutes les données. La corrélation intra-étude est testée par la procédure GLM incluant l’effet publication (Loncke, 2009).

Figure 1-11 Représentation graphique des corrélations inter et intra études (tiré de Loncke, 2009)

e) Analyse des pentes individuelles

L’étude des pentes individuelles (pentes intra-étude) de Y en fonction de X permet de mieux connaître le méta-dispositif. Cette pente individuelle peut être très différente de la pente globale inter-étude (Figure 1-12) (Loncke, 2009). Les pentes individuelles peuvent être calculées de la manière suivante: en réalisant deux analyses de variances séparées, l’une de X et l’autre de Y en prenant comme facteur de variation le facteur «études», ou le rapport entre les résidus de l’analyse sur Y par ceux de l’analyse sur X qui est égal aux pentes individuelles. Cette méthode de calcul n’induit pas d’erreur pour les études comprenant exactement deux traitements. Dans le cas d’études à plus de deux traitements, le calcul des pentes est entaché d’une erreur plus ou moins grande selon les cas. En effet, la pente individuelle d’une étude correspond alors à la moyenne des rapports des résidus, ce qui peut conduire à des valeurs aberrantes. Il faut donc rejeter, de l’analyse des pentes individuelles, les études ayant une valeur de pente aberrante. L’analyse des valeurs des pentes individuelles

permet de mieux apprécier la relation entre X et Y au niveau intra-étude et de repérer des études ayant des pentes atypiques (trop élevée ou trop faible) qui, après réflexion, seront éventuellement exclues du modèle statistique.

Figure 1-12 Représentation graphique d’un exemple de relation opposée en inter et intra étude (tiré de Loncke, 2009)

f) Normalité et homogénéité des variances

Des tests de comparaison de moyennes et des analyses de variance ont été établis pour tester les différences entre sous-populations du jeu de données. Une autre étape consiste à tester la normalité des différentes variables utilisées (test de Shapiro-Wilk). De même, il est nécessaire de tester l’homogénéité des variances (test de Levene) ainsi que de comparer les moyennes (test t de Student) afin de déterminer si certains groupes doivent être étudiés séparément ou si, au contraire, ils peuvent être confondus (Sokal et Rohlf., 2012).

Choix des prédicteurs et établissement des équations

Une autre étape très importante en méta-analyse est le choix des prédicteurs. Le choix des prédicteurs est modulé par l’interprétation des corrélations entre variables qui ont été mises en évidence dans l’étude du méta-dispositif. Concernant le choix du modèle, deux options sont possibles sur la prise en charge du facteur : étude fixe (Sauvant et al,. 2005) ou effet aléatoire (Saint Pierre, 2001). L’effet étude sera pris comme aléatoire si chaque étude peut être considérée comme un échantillon pris au hasard dans une population plus large. À l’inverse, l’effet étude est considéré comme fixe si chaque étude peut être vue comme étant issue d’une population particulière. C’est le cas lorsque, par exemple, les méthodes d’études (méthodes de mesures, d’analyses biochimiques) varient entre publications et que l’on suppose que ces méthodes conditionnent les résultats obtenus. En effet le modèle fixe est utilisé quand on analyse les données d’une expérience. Il permet de dégager les effets des facteurs de variation sur les variables d’intérêt (Liais, 2006). Il permet de prendre en compte les variations dont on ne maîtrise pas l’effet. Il permet ainsi de tenir compte des conditions expérimentales différentes. On peut utiliser plusieurs expérimentations dans le même modèle et ainsi déterminer l’évolution générale indépendamment de l’effet de l’expérimentation (Liais, 2006). De plus, les différentes méthodologiques entre les publications influent directement les données utilisées et constituent ainsi un effet lié à la publication (et donc à l’étude) qui ne peut pas être considéré comme aléatoire.

Comme il existe plusieurs facteurs de variation entre expérience (type d’ingrédients, état physiologique, type de canulation, sexe des animaux), le modèle général intra-étude est le suivant (Sauvant et al,. 2005):

Yij= μ + μi + β Xij + βi Xij+ eij

- i l’indice du facteur étude - j l’indice du numéro de traitement - Yij la variable expliquée

- Xij la variable explicative quantitative

- eij erreur résiduelle aléatoire

- μ l’ordonnée générale fixe à l’origine

- μi effet fixe de l’étude i sur l’ordonnée à l’origine du modèle

le terme (Yij – eij) désigne la part expliquée par l’ensemble des données avec l’effet

publication. Ce sont des valeurs ajustées du modèle. Lorsque βi est nul, la partie (Yij – μi -

eij) représente la part expliquée par le modèle sans l’effet publication, ce sont alors de valeurs

estimées.

Parfois en raison de l’hétérogénéité, il peut être nécessaire de définir une relation non pas générale, mais par type d’ingrédients, stade physiologique ou sexe. Pour prendre en considération dans un modèle intra-étude un effet éventuel sur les pentes ou les ordonnées à l’origine d’une variable qualitative Z (associée au facteur z) uniforme pour chaque groupe de traitement, un modèle emboîté est alors utilisé:

Yij= μ + μi (Zi) + Zi + β Xij + Zi Xij *+ eij

- i l’indice du facteur étude

- j l’indice du numéro de traitement - Yij la variable expliquée

- Xij la variable explicative quantitative

- μ l’ordonnée générale fixe à l’origine

- μi effet fixe de l’étude i sur l’ordonnée à l’origine du modèle

- Zi effet de la caractéristique z de l’étude i

- β coefficient général fixe de régression - eij erreur résiduelle aléatoire

(* )peut être non significatif. Le cas échéant, peut être enlevé et il existe uniquement un effet sur l’ordonnée à l’origine.

Recherche des facteurs interférents

Après avoir établi les modèles, l’étape suivante est l’étude des facteurs interférents. Cette étape sert à détecter des variables (forces motrices quantitatives) autres que la variable X susceptibles d’expliquer les variations de Y et donc susceptible d’influencer le modèle. De tels facteurs peuvent être quantitatifs ou qualitatifs. L’étude de ces facteurs est réalisée en regardant leurs influences sur les pentes individuelles, sur les moyennes ajustées (Least Squares Means) et sur les résidus du modèle. L’influence des facteurs interférents est déterminée par l’étude des corrélations dans le cas d’un facteur quantitatif et par des comparaisons de moyennes (ANOVA) dans le cas d’un facteur qualitatif. Lors de la mise en évidence de facteurs interférents, ils sont inclus dans le modèle. La mise en évidence de facteurs interférents peut se faire en partie grâce à l’analyse des pentes individuelles. En effet, un facteur qui influence les pentes affecte les variations de la variable Y ce qui rend nécessaire sa prise en compte dans le modèle statistique. Il peut intervenir, soit en

remplacement de la variable explicative X, soit de manière associée à cette dernière. L’étude de l’influence des facteurs interférents sur l’ordonnée à l’origine se justifie par le fait que même si l’effet étude se démarque généralement par une différence inter-étude au niveau des ordonnées à l’origine. Il n’est pas conseillé de travailler sur ces dernières qui se situent le plus souvent en dehors de la plage de validité du modèle (Loncke, 2009) (Figure -1-13). En effet, les ordonnées à l’origine (u+ui) présentent l’inconvénient de se situer souvent en dehors

de la plage de validité des modèles. Pour y pallier, on calcule généralement la moyenne ajustée (LSMeans) pour chaque étude. Si un facteur interférent est mis en avant grâce à l’analyse des moyennes ajustées, il peut intervenir dans le modèle en remplacement de l’effet étude, ce facteur permettant d’expliquer les différences entre les études des valeurs moyennes de Y (Loncke, 2009).

Figure 1-13 Représentation graphique des moyennes ajustées (LSMeans),elle correspond à la projection de la pente intra-étude sur l’axe des ordonnées (sur le logiciel Minitab). (Loncke, 2009)

Les post-analyses

La dernière étape de la méta-analyse consiste à ajuster les modèles établis. Cela implique l’analyse de la normalité des résidus par le test de Shapiro-Wilk. La normalité est aussi examinée graphiquement soit en comparant les quantiles (QQ-plot) des résidus estimés à l’espérance des mêmes quantiles sous hypothèse de normalité ou à l’aide de la droite de Henry (Figure 1-14). Concernant l’hypothèse d’homoscédasticité, il faut tout simplement que 95 % des résidus standardisés soient dans une bande de largeur constante (entre -3 et 3). Si par contre, une forme de cône ou des vagues sont observées, un travail sur les résidus et en particulier sur leur variance est nécessaire. Le calcul des effets de levier [hi = 1/n + (Xi − X moyens) ² / Σ (Xi − X moyens) ²] permet de repérer la présence de valeurs influentes au niveau de la variable explicative X. toutes les valeurs d’effet levier excédant la valeur 3 (p + 1)/n (p correspond au nombre de paramètres du modèle (variable explicative) et n au nombre d’observations) sont analysées et éventuellement supprimées. Quant aux valeurs atypiques, elles sont repérées par le calcul de la distance de Cook et la valeur DFFITS (la différence entre les valeurs prédites calculées avec et sans l’observation de la i ème observation

(Vaillant, 2010).

Figure 1-14 Représentation graphique de la dispersion des résidus autour de la droite de Henry 5.0 2.5 0.0 -2.5 -5.0 99.99 99 95 80 50 20 5 1 0.01 Résidus studendisés P er ce nt ag e

L’évaluation des modèles

L’évaluation de chaque modèle est une étape très importante, même si les modèles empiriques sont considérés comme autovalidés dans les champs des données et des facteurs considérés. Cette étape ne constitue pas une validation du modèle, mais un moyen de s’assurer de la pertinence de celui-ci et ainsi d’un risque d’erreur minimum. Cette évaluation se fait par la représentation des valeurs réelles (ordonné) en fonction des valeurs prédites (abscisse). Ensuite, il convient de s’assurer d’une non-différence statistique entre les paramètres estimés de cette régression et des paramètres de la 1 ère bissectrice, ce qui signifie que le modèle prédit de façon adéquate les valeurs observées. En complément à ces tests, le calcul du biais moyen de prédiction [1/n∑(yi-ȳi)] est réalisé. Ce paramètre, qui peut être positif ou négatif, est un bon indicateur d’une éventuelle sous-estimation ou surestimation de la prédiction (Vaillant, 2010). Le calcul du carré moyen de prédiction [1/n∑(yi-ȳi)]2 peut servir non seulement à évaluer la qualité du modèle, mais également à comparer différents modèles d’une même variable Y en vue d’en sélectionner un seul. Ce paramètre assure une estimation de l’erreur générale sans tenir compte du signe de la différence entre les valeurs prédites et observées, mais de la distance entre ces valeurs. Dans le cas de validation interne, une validation croisée peut être réalisée, le principe de cette méthode d’échantillonnage consiste à segmenter l’échantillon de base en deux ou plusieurs échantillons (p) en fonction de la méthode choisie (tests et validation ou holdout method, k-fold cross-validation et leave- one-out cross-validation). On recalcule le modèle sans l’échantillon (s) en question, autrement dit, un des k échantillons de base est utilisé pour l’établissement du modèle, et les (p-1) autres échantillons seront utilisés pour la validation du l’échantillon testé. La RMSE (Root Mean Square Error) est calculée à partir de ces échantillons. L’opération est répétée en sélectionnant un autre échantillon de validation parmi les (p-1) échantillons inutilisés pour la validation du modèle. L’opération se répète ainsi p fois pour qu’en fin de compte chaque sous-échantillon ait été utilisé exactement une fois comme ensemble de validation. La moyenne des erreurs est enfin calculée pour estimer l’erreur de prédiction générale RMSEP (Root Mean Square Error of Prediction). Dans le cas d’une validation externe, il est intéressant d’évaluer l’erreur de prédiction. Cela se fait à l’aide de l’erreur RSME. Ce dernier est la somme des carrés moyens des écarts entre les valeurs observées et les valeurs prédites, rapporté au nombre d’observations. L’erreur MSPE est décomposée en erreur de tendance

centrale (ETC), l’erreur due à la régression (ER) et l’erreur de déviation (ED), tel que décrit par Bibby et Toutenberg (1977) Un bon modèle est celui qui a un R² ajusté (R² adj) élevé, et une MSPE faible et une faible dispersion des points autour de la droite de régression (valeurs réelles et valeurs prédites) (Loncke, 2009).

Bibliographie

Abdi H and Williams LJ 2010. Principal component analysis. John Wiley and Sons, Inc 2, 433-459.

Adeola O and Sands JS 2003. Does supplemental dietary microbial phytase improve amino acid utilization? A perspective that it does not. Journal of Animal Science 81 78–85. Adeola O, Young LG, McMillan EG and Moran, E. T. 1986. Comparative Availability of

Amino Acids in OAC Wintri Triticale and Corn for Pigs. Journal of Animal Science 63, 1862-1869.

Anderson PA 1985. Interactions between proteins and constituents that affect protein quality. Digestibility and Amino Acid Availability in Cereals and Oilseeds. G. W. Finley and D. T. Hopkins, ed. American Association of Cereal Chemists, St. Paul, MN. 31-16. Arentson RA and Zimmerman DR 1995. True digestibility of amino acids and protein in pigs

with 13C as a label to determine endogenous amino acid excretion. Journal of Animal Science 73, 1077-1085.

Bach Knudsen KE and Hansen I 1991. Gastrointestinal implications in pigs of wheat and oat fractions. British Journal of Nutrition 65, 217-232.

Barnett BJ, Clarke WA and Batterham ES 1993. Has phytase a proteolytic effect in diets for weaner pigs? Manipulating Pig Production IV. Australasian Pig Science Association, Werribee, Vic, 227.

Bastianelli D, Sauvant D and Rérat A 1996. Mathematical modeling of digestion and nutrient absorption in pigs. Journal of Animal Science 74, 1873-1887.

Beam RM and Eggum BO 1981. The effect of type and level of protein, fibre and starch on nitrogen excretion patterns in rats. British Journal of Nutrition 46, 301-313.

Bibby J and Toutenburg H 1977. Prediction and Improved Estimatio in Linear Models. J. Wiley and Sons, New York, NY.

Blair R 2007. Nutrition et alimentation des porcs biologiques. Série Cabi, CABI, Wallingford, Royaume-Uni.

Boval M, Edouard N and Sauvant D 2015. A meta-analysis of nutrient intake, feed efficiency and performance in cattle grazing on tropical grasslands. Animal 9, 973-982.

Box GEP and Cox DR 1964. An analysis of transformations. Jounal of the Royal Statistic Society 26, 211-252.

Bruce KJ, Karr-Lilienthal LK, Zinn KE, Pope LL, Mahan DC, Fastinger ND, Watts M, Utterback PL, Parsons CM, Castaneda EO, Ellis M and Fahey J, G. C. 2006. Evaluation of the inclusion of soybean oil and soybean processing by-products to soybean meal