• Aucun résultat trouvé

6. L’analyse des données par l’outil statistique

6.2. Exemples d’analyses statistiques

6.2.1. Analyse en composantes principales

L’analyse en composantes principales, nommée ACP, est l’une des analyses factorielles les plus employée. Les données pour l’ACP sont constituées d’observations et de variables qui doivent être quantitatives, continues. Les principales variantes de l’ACP viennent des différences de transformation du tableau de données. Ainsi, le nuage de points peut être centré ou non, réduit ou non. Le cas le plus étudié est lorsque le nuage de point est centré et réduit ; dans ce cas nous parlons d’ACP normée. L’ACP cherche à représenter graphiquement les relations entre individus par l’évaluation de leurs ressemblances, ainsi que les relations entre variables par l’évaluation de leurs liaisons. Deux individus se ressemblent, ou sont proches, s’ils possèdent des valeurs proches pour l’ensemble des

VARIABLES

IN

D

IV

ID

U

S

1 …… k …… K 1 i I …… …… …… …… xik

variables. Deux variables sont liées si elles partagent un fort coefficient de corrélation linéaire. L’objectif est donc d’extraire et de synthétiser le maximum d’information illustré sous une représentation graphique selon deux nouvelles variables appelées composantes principales (CP), obtenues par combinaison linéaire des variables d’origine (Abdi & Williams, 2010) (figure i.21)

Figure i.21 : Exemple d’analyse en composantes principales effectuée par le logiciel R via le package

factominer (factominer.free.fr). A gauche le graphique des individus et à droite le graphique des variables.

A partir des relations données, quelques règles peuvent être définies pour l’interprétation :

-

un individu sera du côté des variables pour lesquelles il a de fortes valeurs, inversement il sera du côté opposé des variables pour lesquelles il a de faibles valeurs,

-

plus la valeur d’une variable est élevée pour un individu, plus cet individu sera éloigné de l’origine suivant l’axe factoriel décrivant le mieux cette variable,

-

deux individus à une même extrémité d’un axe (éloignés de l’origine) sont proches (se ressemblent),

-

deux variables très corrélées positivement sont du même côté sur un axe,

-

il n’est pas possible d’interpréter la position d’un individu par rapport à une seule variable, et réciproquement, il n’est pas possible d’interpréter la position d’une variable par rapport à un seul individu ; les interprétations doivent se faire de manière globale.

L’ACP est une méthode puissante pour synthétiser de vastes populations décrites par plusieurs variables quantitatives. Elle permet entre autre de dégager de grandes catégories d’individus et de réaliser un bilan des corrélations entre les variables. Par cette analyse, nous pouvons mettre en évidence de grandes tendances dans les données telles que des regroupements d’individus ou des

Composante principale 1 (32,71 %) C o m p o sa n te p ri n ci pa le 2 (1 7, 37 % ) Composante principale 1 (32,71 %) C o m p o sa n te p ri n ci pa le 2 (1 7, 37 % )

oppositions entre individus ou entre variables. Les représentations graphiques fournies par l’ACP sont simples et riches d’informations. L’ACP peut être une première analyse pour l’étude d’une population dont les résultats seront enrichis par exemple par une classification automatique des données.

L’analyse en coordonnée principale (PCoA) et l’ACP sont assez proches puisque la PCoA permet aussi de représenter des individus dans un espace de faible dimension avec des axes optimaux en termes de variabilité. La PCoA est une méthode dont le but est de représenter les individus pour lesquels on dispose d’une matrice de proximité. C’est pourquoi, la PCoA applique à la matrice des distances euclidiennes entre les individus. Cette distance peut se définir comme la distance en vol d’oiseau entre 2 points.

6.2.2. Corrélation et régression linéaire

Le terme de corrélation est utilisé dans le langage courant pour désigner une liaison (association / relation) entre deux variables quelconques. En statistique, les termes corrélation et régression sont réservés pour désigner la liaison entre deux variables quantitatives (le plus souvent continues) (figure i.22). A la différence d’une régression, une corrélation peut être symétrique, les deux variables peuvent permuter, elles ne dépendent pas forcément l’une de l’autre. En ce qui concerne la régression, si on prend l’exemple où X est l’âge et Y la taille, quand l’âge augmente la taille augmente et inversement. Ainsi la liaison est asymétrique puisque la taille dépend de l’âge mais pas l’inverse, on ne peut donc pas permuter X et Y.

Figure i.22 : Exemple de corrélation ou de régression linéaire.

6.2.3. Analyse de la variance

Une comparaison de moyenne sur deux échantillons est possible grâce au test de Student. En revanche, une analyse sur trois échantillons indépendants ou plus nécessite une analyse de la variance nommée ANOVA. L’hypothèse à vérifier (H0), est que tous les groupes d’échantillon ont la même

Y = α + βX

Y : variable dépendante (expliquée) X : variable indépendante

(explicative)

α : ordonnée à l’origine (valeur de Y pour X = 0)

β : pente (variation moyenne de la valeur de Y pour une augmentation d’une unité de X)

moyenne. L’hypothèse alternative est qu’au moins l’un des groupes a une moyenne différente des autres. Le but est en principe d’identifier un facteur de variabilité entre les groupes d’échantillon. L’ANOVA peut être à un facteur, par exemple l’effet du génotype sur les variables (analyse univariée), ou à deux facteurs, par exemple l’effet du génotype et de l’environnement sur les variables (analyse multivariée).

6.2.4. Classification hiérarchique ascendante

La classification hiérarchique ascendante organise les individus, définis par un certain nombre de variables, en les regroupant de façon hiérarchique. Elle commence par agréger les variables représentatives des individus qui sont les plus semblables entre elles, puis les individus ou groupes d’individus un peu moins semblables et ainsi de suite jusqu’au regroupement de l’ensemble des échantillons. Ces agrégations se font deux par deux et les liens hiérarchiques apparaissent sur un dendrogramme (figure i.23).

Figure i.23 : Exemple de dendrogramme.