• Aucun résultat trouvé

Méthode utilisée pour la caractérisation des profils de pratiques alimentaires

4 Profils de pratiques alimentaires dans la première année de vie et caractéristiques

4.2.3 Méthode utilisée pour la caractérisation des profils de pratiques alimentaires

4.2.3.1 Méthodes les plus courantes

Les méthodes d’analyse exploratoire multidimensionnelle permettent de résumer

l'information contenue dans un grand volume de données. Ces méthodes sont largement

utilisées en épidémiologie nutritionnelle où, pour caractériser l’alimentation, il faut tenir

compte d’un nombre important de variables corrélées entre elles. Deux approches ont été

utilisées dans la description des profils de consommations alimentaires dans la littérature. Les

approches a priori se basent sur des connaissances existantes des effets favorables ou néfastes

sur la santé de divers constituants de l’alimentation pour classer les individus. Les scores ainsi

calculés identifient des groupes avec un ‘bon’ ou un ‘mauvais’ profil nutritionnel. La seconde

approche consiste en l’utilisation de données d’enquêtes en population générale pour

identifier a posteriori des profils de consommations alimentaires. Les méthodes alors

employées peuvent se classer en fonction de leur objectif (réduction de dimension ou

classification) et du type de données à analyser (quantitatives et/ou qualitatives). On compte

en particulier parmi elles, les analyses factorielles et les analyses en clusters. L’analyse en

composantes principales (ACP), proche de l’analyse factorielle, est la méthode la plus utilisée

en épidémiologie nutritionnelle (Newby PK, 2004). Elle regroupe les aliments en fonction de

leurs interrelations. L’analyse en clusters quant à elle regroupe les individus en catégories

mutuellement exclusives, selon les similarités existantes dans leurs habitudes alimentaires.

Smith et son équipe ont montré sur une cohorte d’enfants britanniques âgés de 7 ans que,

malgré quelques différences, les deux approches étaient complémentaires et permettaient

d’obtenir des profils similaires. Ils concluaient que l’approche par ACP semblait plus

Profils alimentaires et caractéristiques familiales

96

qualitative (Smith, 2011). L’approche en cluster est à l’inverse plus facilement transposable à

la pratique médicale car elle catégorise chaque individu comme appartenant à un groupe

(cluster) spécifique. L’objectif pour nous étant de réduire le nombre de dimensions à

considérer et d’obtenir des scores individuels (données quantitatives) pour la suite des

analyses, notre choix s’est porté sur l’utilisation d’une ACP.

4.2.3.2 L’analyse en composantes principales

4.2.3.2.1 Principe

Basée sur la matrice de corrélation, l’analyse en composantes principales est une méthode

statistique qui permet d’agréger plusieurs variables sur la base du degré de corrélation existant

entre elles. Le but de l'ACP est d'obtenir une représentation la plus fidèle possible du nuage de

points (constitué par l’ensemble des individus xi dans l’espace à p dimensions des variables

initiales) en le projetant sur un espace de faible dimension défini par des axes. Il en résulte la

création de nouvelles variables ou encore « composantes principales » indépendantes qui

sont des combinaisons linéaires des variables initiales et qui expliquent le maximum de la

variance existante dans les données (Joliffe, 1992; Michels KB, 2005). Ces composantes

principales sont des vecteurs renfermant les coordonnées des projections des individus sur les

différents axes.

Lorsque les unités des variables initiales sont différentes, il est courant de procéder à leur

standardisation ((variable initiale – moyenne) / écart-type). Les nouvelles variables

standardisées ont alors une moyenne de 0 et une variance égale à 1, ce qui permet de

s’intéresser à la matrice des corrélations plutôt qu’à la matrice de variance-covariance des

variables (Falissard 2005).

4.2.3.2.2 L’extraction des composantes

En pratique, pour la première composante (ou axe), l’ACP crée une équation linéaire qui

extrait le maximum de la variance contenu dans le tableau de données. Ensuite, la variance

expliquée par la première composante est enlevée et une seconde composante orthogonale,

c’est-à-dire indépendante de la première et qui extrait le maximum de la variance restante est

Profils alimentaires et caractéristiques familiales

créée, et ainsi de suite jusqu’à ce que les composantes puissent expliquer toute la variance

contenue dans le jeu de données. L’analyse génère autant de composantes qu’il y a de

variables initiales. Le pouvoir explicatif de chaque composante est exprimé par sa valeur

propre. La valeur propre quantifie la variance qui est prise en compte par cette composante.

Elle peut être calculée comme la somme des carrés des coefficients de toutes les variables

dans l’équation linéaire qui caractérise cette composante.

Choix du nombre de composantes à extraire

Pour déterminer le nombre de composantes à retenir, plusieurs critères peuvent être

utilisés. Une combinaison de critères permet de sélectionner les composantes pertinentes. Les

plus courants sont les suivants :

 Le critère de Kaiser : la règle de Kaiser est de supprimer toutes les composantes

ayant des valeurs propres inférieures à 1 et donc qui expliquent moins de variance que

celle expliquée par une seule variable

1

. Une composante ayant une faible valeur propre

contribue peu à l’explication de la variance contenue dans toutes les variables et peut

être ignorée car redondante avec les plus importantes.

 Le « scree plot » ou diagramme des valeurs propres associé à chaque composante :

ce graphique représente les valeurs propres de chaque composante en ordonnée et le

numéro de la composante en abscisse. En règle générale, le point au niveau duquel la

courbe s’infléchit de manière abrupte ou le point de « cassure » est considéré comme

indiquant le nombre maximal de composantes à extraire. Plusieurs « cassures »

peuvent être identifiées dans le diagramme. Les composantes situées avant la première

« cassure » sont souvent considérées comme significatives.

 Le fait que les composantes soient interprétables.

1

Profils alimentaires et caractéristiques familiales

98

4.2.3.2.3 Interprétation

Une composante principale est une combinaison linéaire des variables initiales. Par

conséquent, chaque composante principale peut être caractérisée par les variables d'origine

qui contribuent le plus à sa construction. Des poids (ou coefficients) sont assignés à chaque

variable introduite dans l’analyse. Ils décrivent la corrélation des variables avec la

composante d’intérêt et représentent donc leur contribution à la construction de la

composante. Analogue au coefficient de Pearson r, le carré du coefficient obtenu pour chaque

variable équivaut au pourcentage de variance de cette variable expliquée par la composante.

Les coefficients varient de -1 à +1. On considère généralement qu’une variable est associée de

manière « significative » à une composante lorsque celle-ci a un |coefficient| > 0,30.

4.2.3.2.4 Les scores individuels

Les composantes ne s'excluant pas mutuellement, chaque participant obtient un score pour

chaque composante extraite. Ce score (moyenne=0, déviation standard=1) représente en fait la

somme des produits des valeurs de chacune des variables standardisées avec le coefficient

correspondant de la composante. Les scores ne sont en principe pas corrélés les uns avec les

autres. Les propriétés de l’ACP permettent la maximisation de la variance le long de chaque

composante, contrastant les individus dont les caractéristiques diffèrent le plus (Joliffe, 1992).

Ainsi, pour chaque composante, les scores définissent la position de chaque individu le long

d'un gradient positif ou négatif selon le signe du coefficient.

4.2.4 Stratégie d’analyse

4.2.4.1 Extraction des profils de pratiques alimentaires

Nous avons inclus dans l’analyse l’ensemble des variables alimentaires (n=39) décrites

dans les sections 4.2.1 et 4.2.2. La PROC FACTOR (method = Prin) du logiciel SAS a été

utilisée pour effectuer l’ACP. Pour pouvoir évaluer la contribution spécifique de la durée

d’allaitement maternel exclusif, les variables durée totale d’allaitement maternel et durée

d’allaitement maternel exclusif depuis la sortie de la maternité ont été incluses en même

Profils alimentaires et caractéristiques familiales

temps dans les ACP. Après analyse du diagramme des valeurs propres Figure 4.2.1, les trois

premières composantes ont été extraites de cette analyse.

Figure 4.2.1 : Diagramme des valeurs propres (scree plot)

Le tableau 4.2.1 présente les pourcentages de variance expliquée par les 6 premières

composantes. Ces valeurs sont calculées en divisant la valeur propre de la composante par le

nombre de variables incluses dans l’ACP. Dans notre échantillon, à partir de la 4

e

composante, la proportion de variance expliquée ne varie plus beaucoup ; les composantes

expliquent peu de la variation restante dans les données et sont donc mineures.

Tableau 4.2.1 : Pourcentage de variance expliquée

par les 6 premières composantes

N° de la

composante

Valeurs propres Proportion de

variance expliquée

1 5,75 0,15

2 4,97 0,13

3 2,36 0,06

4 1,91 0,05

5 1,69 0,04

6 1,35 0,03

Profils alimentaires et caractéristiques familiales

100

Chaque composante représente un profil d’individus. Nous avons considéré que les

variables ayant des coefficients supérieurs à 0,30 en valeur absolue contribuaient de manière

significative à la caractérisation des profils. Enfin, une analyse de sensibilité a été effectuée en

excluant les sujets concernés par le troisième cas d’imputation, c’est-à-dire ceux pour lesquels

le mode de préparation des aliments consommés à 12 mois avait été imputé (n=57).

4.2.4.2 Étude des relations entre profils et caractéristiques familiales

Les variables prédites étaient les scores individuels de chaque individu sur chaque profil.

Les associations univariées entre les scores et le centre de recrutement, les caractéristiques

parentales (âge, éducation, IMC, statut par rapport à l’emploi entre 0-12 mois maternels,

parité, l'IMC paternel, revenu du ménage) et infantiles (sexe, poids de naissance, âge

gestationnel, mode de garde entre 0 et 12 mois) ont été effectuées par test de Student ou

analyse de variance pour les variables à plus de deux classes. Nous avons utilisé les

corrélations de Spearman pour les variables quantitatives (données non présentées). Les

associations entre les scores individuels et les caractéristiques familiales ont été examinées à

l’aide de modèles de régression linéaire multiple.

Profils alimentaires et caractéristiques familiales

4.3 Résultats