4 Profils de pratiques alimentaires dans la première année de vie et caractéristiques
4.2.3 Méthode utilisée pour la caractérisation des profils de pratiques alimentaires
4.2.3.1 Méthodes les plus courantes
Les méthodes d’analyse exploratoire multidimensionnelle permettent de résumer
l'information contenue dans un grand volume de données. Ces méthodes sont largement
utilisées en épidémiologie nutritionnelle où, pour caractériser l’alimentation, il faut tenir
compte d’un nombre important de variables corrélées entre elles. Deux approches ont été
utilisées dans la description des profils de consommations alimentaires dans la littérature. Les
approches a priori se basent sur des connaissances existantes des effets favorables ou néfastes
sur la santé de divers constituants de l’alimentation pour classer les individus. Les scores ainsi
calculés identifient des groupes avec un ‘bon’ ou un ‘mauvais’ profil nutritionnel. La seconde
approche consiste en l’utilisation de données d’enquêtes en population générale pour
identifier a posteriori des profils de consommations alimentaires. Les méthodes alors
employées peuvent se classer en fonction de leur objectif (réduction de dimension ou
classification) et du type de données à analyser (quantitatives et/ou qualitatives). On compte
en particulier parmi elles, les analyses factorielles et les analyses en clusters. L’analyse en
composantes principales (ACP), proche de l’analyse factorielle, est la méthode la plus utilisée
en épidémiologie nutritionnelle (Newby PK, 2004). Elle regroupe les aliments en fonction de
leurs interrelations. L’analyse en clusters quant à elle regroupe les individus en catégories
mutuellement exclusives, selon les similarités existantes dans leurs habitudes alimentaires.
Smith et son équipe ont montré sur une cohorte d’enfants britanniques âgés de 7 ans que,
malgré quelques différences, les deux approches étaient complémentaires et permettaient
d’obtenir des profils similaires. Ils concluaient que l’approche par ACP semblait plus
Profils alimentaires et caractéristiques familiales
96
qualitative (Smith, 2011). L’approche en cluster est à l’inverse plus facilement transposable à
la pratique médicale car elle catégorise chaque individu comme appartenant à un groupe
(cluster) spécifique. L’objectif pour nous étant de réduire le nombre de dimensions à
considérer et d’obtenir des scores individuels (données quantitatives) pour la suite des
analyses, notre choix s’est porté sur l’utilisation d’une ACP.
4.2.3.2 L’analyse en composantes principales
4.2.3.2.1 Principe
Basée sur la matrice de corrélation, l’analyse en composantes principales est une méthode
statistique qui permet d’agréger plusieurs variables sur la base du degré de corrélation existant
entre elles. Le but de l'ACP est d'obtenir une représentation la plus fidèle possible du nuage de
points (constitué par l’ensemble des individus xi dans l’espace à p dimensions des variables
initiales) en le projetant sur un espace de faible dimension défini par des axes. Il en résulte la
création de nouvelles variables ou encore « composantes principales » indépendantes qui
sont des combinaisons linéaires des variables initiales et qui expliquent le maximum de la
variance existante dans les données (Joliffe, 1992; Michels KB, 2005). Ces composantes
principales sont des vecteurs renfermant les coordonnées des projections des individus sur les
différents axes.
Lorsque les unités des variables initiales sont différentes, il est courant de procéder à leur
standardisation ((variable initiale – moyenne) / écart-type). Les nouvelles variables
standardisées ont alors une moyenne de 0 et une variance égale à 1, ce qui permet de
s’intéresser à la matrice des corrélations plutôt qu’à la matrice de variance-covariance des
variables (Falissard 2005).
4.2.3.2.2 L’extraction des composantes
En pratique, pour la première composante (ou axe), l’ACP crée une équation linéaire qui
extrait le maximum de la variance contenu dans le tableau de données. Ensuite, la variance
expliquée par la première composante est enlevée et une seconde composante orthogonale,
c’est-à-dire indépendante de la première et qui extrait le maximum de la variance restante est
Profils alimentaires et caractéristiques familiales
créée, et ainsi de suite jusqu’à ce que les composantes puissent expliquer toute la variance
contenue dans le jeu de données. L’analyse génère autant de composantes qu’il y a de
variables initiales. Le pouvoir explicatif de chaque composante est exprimé par sa valeur
propre. La valeur propre quantifie la variance qui est prise en compte par cette composante.
Elle peut être calculée comme la somme des carrés des coefficients de toutes les variables
dans l’équation linéaire qui caractérise cette composante.
Choix du nombre de composantes à extraire
Pour déterminer le nombre de composantes à retenir, plusieurs critères peuvent être
utilisés. Une combinaison de critères permet de sélectionner les composantes pertinentes. Les
plus courants sont les suivants :
Le critère de Kaiser : la règle de Kaiser est de supprimer toutes les composantes
ayant des valeurs propres inférieures à 1 et donc qui expliquent moins de variance que
celle expliquée par une seule variable
1. Une composante ayant une faible valeur propre
contribue peu à l’explication de la variance contenue dans toutes les variables et peut
être ignorée car redondante avec les plus importantes.
Le « scree plot » ou diagramme des valeurs propres associé à chaque composante :
ce graphique représente les valeurs propres de chaque composante en ordonnée et le
numéro de la composante en abscisse. En règle générale, le point au niveau duquel la
courbe s’infléchit de manière abrupte ou le point de « cassure » est considéré comme
indiquant le nombre maximal de composantes à extraire. Plusieurs « cassures »
peuvent être identifiées dans le diagramme. Les composantes situées avant la première
« cassure » sont souvent considérées comme significatives.
Le fait que les composantes soient interprétables.
1