• Aucun résultat trouvé

Partie I Problématique et état de l'art

2.3 La signication des variables peut intervenir à chaque étape du traitement

2.4.2 Le coecient de corrélation linéaire de Bravais-Pearson

Sa formule est rA,B=

Pn

i=1(Ai−A)(Bi−B)

Pn

i=1(Ai−A)2

Pn

i=1(Bi−B)2, autrement dit le quotient de la covariance

de A et B et des écarts-types de A et de B. La valeur absolue de ce coecient de corrélation est de 1 quand pour chaque objet i, l'écart de A entre sa valeur Ai et la valeur moyenne A

est proportionnel à l'écart correspondant de B, comme c'était le cas dans l'exemple précédent, avec le coecient de proportionnalité égal à ρ, n étant le nombre d'objets. Quand la valeur est nulle, cela signie que les variations de A au-dessus de sa moyenne sont associées à des variations de B qui peuvent être au-dessus comme au-dessous de sa moyenne et que les covariations se compensent. Quand il est positif, cela indique que les covariations de A et de B ne se compensent pas, et que leur tendance est d'aller dans le même sens, et ceci d'autant plus que le coecient de corrélation linéaire est proche de 1. Et quand il est négatif, c'est qu'elles varient de façon similaire, mais en sens contraire. Nous en donnons quelques exemples dans la gure 2.16, où les valeurs de la variable A sont données pour 10 objets par ordre décroissant, ce qui fait que les écarts à la moyenne mA=0.1 sont positifs pour les 5 premiers objets et négatifs pour les 5 autres. Dans les colonnes suivantes, sont données les valeurs de quatre autres variables B, C, D et E et de leurs écarts à leur moyenne. Les écarts qui sont dans le sens contraire à ceux de A sont passés en gras. Le nombre de ces derniers et leur importance globale croît quand on passe de B à C, D puis E, en même temps que la corrélation diminue en passant de 0.445 pour AB à 0 pour AC, -0.053 pour AD et -0.806 pour AE.

Fig. 2.16  Comparaisons entre les variations de B, C, D et E et celles de A

Le coecient de corrélation de Bravais-Pearson est très utilisé pour évaluer la présence et la force d'une relation entre les variations de deux variables, mais il n'est pas toujours approprié. Sa popularité s'explique par le fait qu'en absence d'information a priori sur le lien possible entre deux variables, la linéarité est examinée en premier car c'est la plus simple des relations de dépendance. Et ce coecient est une bonne mesure de l'adéquation du lien à la linéarité. Si on représente graphiquement chaque objet dans le plan des deux variables par un point ayant pour coordonnées les valeurs de l'objet aux variables, on obtient un nuage de points qui a une allure oblique (montante ou descendante) d'autant plus linéaire que le coecient de corrélation est proche de 1 ou de -1. Quand il atteint une de ces deux valeurs extrêmes, les points sont tous alignés sur une droite oblique passant par le point ayant pour coordonnées les valeurs moyennes des deux variables, dont l'équation produit une relation linéaire entre A et B, comme celle que nous avions précédemment entre le poids et le volume des sphères d'une même composition métallique. Dans ce cas le modèle se réduit à cette équation, sans qu'on ait besoin de lui ajouter

un terme d'erreur. Par contre, quand le coecient de corrélation a sa valeur absolue qui diminue, à l'équation de la droite s'ajoute un terme d'erreur dont l'amplitude de variation augmente en conséquence, et ce terme indique comment le nuage de points est éloigné de la droite. Mais le fort éloignement d'une droite oblique indiqué par une valeur faible (en valeur absolue) du coecient de corrélation linéaire peut exprimer une absence totale de liaison, ou alors une forte liaison non linéaire. Dans la gure 2.17 sont représentés les nuages de points respectifs de A avec B, C, D et E correspondants aux valeurs du tableau de la gure 2.16. Si les corrélations assez importantes de A avec B (r = 0.445) et avec E (r = −0.806) sont bien associées à des nuages assez linéaires, celles très proches de zéro de A avec C et de A avec D correspondent pour la première à une absence de liaison visible entre A et C, et pour la seconde à une assez forte liaison parabolique entre A et D.

Fig. 2.17  Nuages de points correspondants au tableau de la gure 2.16

C'est là la première limite de son utilisation, qui est d'autant plus délicate qu'il est proche de zéro. L'absence de lien linéaire (nous verrons plus loin que le mot linéaire peut avoir de nombreux sens) apporte en eet peu d'information sur l'existence d'un lien quelconque quand les données ne suggèrent pas spécialement la linéarité. Pour dénir l'ICA (Analyse en Composantes Indépendantes), Hérault J., Jutten C. and Ans B., [117] ont utilisé non seulement la nullité de la statistique d'ordre 2 qu'est la covariance pour établir l'absence de lien mais encore celles de toutes les statistiques d'ordre supérieur. Avec une telle dénition de l'indépendance, la liaison parabolique entre les deux variables correspondant au troisième graphique est mise en évidence alors qu'elle ne l'est pas avec la simple covariance.

Une deuxième limite est l'interprétation qu'on peut donner à sa valeur quand elle est élevée : trouver une corrélation de 1 ou de -1 entre deux variables dénies sur deux objets n'a rien de remarquable, dans la mesure où par deux points distincts passe une seule droite, c'est plutôt le contraire qui est surprenant. Par contre une corrélation de 1 ou de -1 entre deux variables dénies pour plus de deux objets est plus inattendue, car cela signie qu'on peut trouver une droite à laquelle les points représentant ces objets appartiennent tous. La signication de l'importance de la liaison linéaire doit donc s'appuyer sur d'autres éléments que la seule valeur de ce coecient, par exemple en prenant en compte l'importance du nombre d'objets. Une troisième limite de ce coecient est qu'il s'utilise pour des données numériques quantitatives, pour lesquelles la proportion des écarts a un sens (échelles de rapport). Pour les données d'autres types, il convient de le remplacer par d'autres coecients. Une quatrième limite est qu'un coecient de corrélation élevé entre deux variables prises en dehors du contexte, et notamment sans envisager les autres variables peut être articielle.

2.4. La liaison entre variables en statistiques descriptives