• Aucun résultat trouvé

Méthodes de recherche de valeurs exceptionnelles

Analyse de la qualité des données par recherche de valeurs exceptionnelles

4.2 Méthodes de recherche de valeurs exceptionnelles

Cette présentation, qui n’est pas exhaustive, vise à expliquer les principes de la recherche de valeurs exceptionnelles par l’usage de méthodes statistiques classiques. Nous classons les méthodes de recherche suivant trois dimensions à explorer : la dimension thématique, la dimension spatiale, et la dimension tem-porelle. L’adjectif « thématique » est à prendre ici dans le sens aspatial, et atemporel, lorsqu’on effectue une étude statistique sur une ou plusieurs variables sans prendre en compte leur localisation spatio-temporelle.

Par ailleurs, nous soulignons que le type de la variable à analyser joue un rôle crucial : une variable quantitative absolue correspondant à un compte d’effectifs sur des unités, (ou stock) ne peut être ma-nipulée de la même manière qu’une variable relative (un ratio). Par exemple, dans le cas d’agrégation spatiale, les taux des unités ne s’additionnent pas pour constituer le taux de l’unité englobante. En re-vanche, les taux peuvent être interpolés, et seulement certaines méthodes d’interpolation fonctionnent pour des stocks. De plus, lors de l’étude de la distribution d’une variable issue de comptes sur des uni-tés territoriales, il faut garder présent à l’esprit de toujours utiliser des variables relatives, des ratios, exprimant un rapport à la quantité observée (que ce soit la surface, ou le nombre d’habitants). Dans le cas contraire, des variables associées à des unités de vaste étendue ou très peuplées comptabiliseraient mécaniquement plus d’effectifs (comme le nombre d’usines, de lits d’hôpitaux, de bureaux de poste, de naissances ou de décès),a priori, que des variables associées à de petites unités, soit en termes de sur-face, soit en termes de population. Dès lors, la recherche de valeurs exceptionnelles se réduirait en réalité à une recherche des unités exceptionnelles en termes de nombre d’habitants ou de surface.

4.2.1 L’étude thématique

Nous présentons un certain nombre de méthodes qui visent à trouver des valeurs exceptionnelles, mais ceci sans tenir compte des dimensions spatiales ou temporelles.

4.2.1.1 La boîte à moustaches

La boîte à moustaches (Boxplot), inventé par John Tukey en 1977 est une représentation synthétique extrêmement efficace des principales caractéristiques d’une variable numériqueX. Elle permet de situer rapidement le profil d’une donnée x en la comparant à des constantes statistiques calculées pour ce même ensemble (médiane, quartiles, minimum, maximum). Elle repose sur le concept de profondeur statistique : la profondeur de demi-espace s’écrit D(x) = min{F(x),1 −F(x)}, qui est maximal pour la médiane : D(mediane) = 1/2. Pour un quantile d’ordreα,D(Qα) = min{α,1−α}. La boîte correspond à la partie centrale de la distribution : la moitié des valeurs comprises entre le premier et le troisième quartile. Les moustaches s’étendent de part et d’autre de la boîte jusqu’aux valeurs suivantes :

Q1 −1,5|Q3 −Q1|, et Q1 + 1,5|Q3 −Q1|. Les valeurs en dehors des moustaches sont considérées comme des valeurs atypiques. Son usage ne requiert pas d’émettre une hypothèse sur la distribution des données, car c’est une méthode non-paramétrique. Les espaces de part et d’autre de la boîte montrent le degré de dispersion des données et l’asymétrie de la distribution.

Le schéma 6.2 illustre son fonctionnement sur un exemple : après un premier tri des données qui dé-termine la médianeM et les écarts inter-quartilesQ1etQ3, les frontières hautes et basses de l’ensemble

sont calculées. Pour la recherche de valeurs exceptionnelle, toute valeur en dehors de ces frontières est alors considérée comme anormale : dans l’exemple, c’est la valeur 200 associée à l’unité P11 qui est anormalement haute. Unités territoriales Valeurs d'indicateur P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 19 54 62 13 27 46 18 77 39 23 200 P4 P7 P1 P10 P5 P9 P6 P2 P3 P8 P11 13 18 19 23 27 39 46 54 62 77 200 Unités territoriales Valeurs d'indicateur Q1 M Q3 21 39 58 Frontière haute = Q1 - 1.5 (Q3-Q1) = -34.5 Frontière basse = Q3 + 1.5 (Q3-Q1) = 113.5 Unités territoriales Évaluation P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 0 0 0 0 0 0 0 0 0 0 1

Frontière basse Frontière haute

Données initiales

Données triées

Boîte à moustaches

Calcul des frontières

Résultat

* 200

‐34,5 113,5

FIGURE4.1 – Fonctionnement de la boîte à moustaches.

Un autre intérêt de ces diagrammes est de pouvoir faire facilement des comparaisons entre sous-groupes de données car il est plus simple de comparer des diagrammes en boîte que des histogrammes. La figure 4.14 permet de comparer la distribution du Produit Intérieur Brut (PIB) par habitant selon un classement des régions dans une typologie à 6 classes distinguant les régions à forte ou faible urbanisa-tion.

4.2.1.2 Les matrices de diagrammes de dispersion

Comme le décrit le chapitre de rappels 8.2 en annexe, page 309, les diagrammes de dispersion sont un moyen efficace de repérer une corrélation éventuelle entre deux variablesXetY. En analyse multivariée, il est courant d’utiliser les matrices de diagrammes de dispersion, voir figure 4.3. Leur représentation n’a qu’un coût nul, et permet de repérer au premier coup d’oeil des formes de corrélation dans les données.

FIGURE4.3 – Matrices de diagrammes de dispersion.

Par ailleurs, les deux méthodes qui suivent enrichissent ces diagrammes de dispersion avec la construc-tion de frontières permettant de visualiser au premier coup d’oeil des valeurs excepconstruc-tionnelles.

4.2.1.3 Le bagplot

La méthode bagplot généralise le boxplot pour un jeu de données multivarié [Rousseeuw 99]. Il s’agit d’abord de déterminer la profondeur de demi-espace, l’équivalent de la médiane en dimension 1. Par exemple, pour déterminer la « médiane » en dimension 2, on va recherche un ensemble (appelé

bag) contenant 50% des observations. Dans ce cas, la boîte délimitant les observations à l’intérieur des quartiles devient un polygone convexe, et la zone délimitée en clair autour de ce polygone convexe correspond à l’intérieur de la barrière (nommée "boucle"). Les points en dehors de la barrière sont des valeurs exceptionnelles2, le plus souvent représentée dans une couleur rouge (voir figure 4.4).

Par cette méthode, la distribution des variablesX etY peut être étudiée sans émettre d’hypothèse, car la représentation montre :

– leur situation (le point de profondeur maximale) – la dispersion des valeurs (figurée par l’aire du bag). – la correlation (figurée par l’orientation du bag)

– l’asymétrie de la distribution (figurée par situation du point de profondeur maximal par rapport à la boucle)

2. Il a été démontré qu’en dessous de 15 individus, la position de la barrière n’est pas suffisamment stable et la méthode ne permet pas alors de détecter les valeurs exceptionnelles de façon fiable.

FIGURE4.4 – Bagplot du PIB et du chômage

– l’importance des queues de distribution (figurée par importance de l’aire située entre la boucle et la limite du bag, et la quantité de points extérieurs à cette frontière).

Dans le cas multivarié, on peut représenter des matrices debagploten calculant lesbagplotde chacune des variables deux à deux. Les matrices debagplotsont symétriques, et la diagonale représente les boîtes à moustaches de chacune des variables.

4.2.1.4 La distance de Mahalanobis

La distance de Mahalanobis, introduite par Prasanta Chandra Mahalanobis en 1936 [Mahalanobis 36], est une métrique qui permet de s’affranchir des effets d’échelle (présents lorsque les variables sont mesu-rées dans des unités différentes, avec des étendues hétérogènes) et de corrélation entre variables. Contrai-rement à la distance euclidienne, où l’ensemble des points équidistants dans un nuage de dispersion est une sphère, la distance de Mahalanobis étire cette sphère pour respecter les échelles respectives des va-riables, et prendre en compte la corrélation entre les variables. En pratique, la distance de Mahalanobis d’une série de valeurs de moyennex¯= ( ¯x1,x¯2,x¯3, . . . ,x¯p)T et possédant une matrice de covarianceV

pour un vecteur à plusieurs variablesx= (x1, x2, x3, . . . , xp)T est définie comme suit :

DM(x) =

q

(x−x¯)TV1(x−x¯). (4.1)

Elle s’utilise pour la recherche de valeurs exceptionnelles dans un ensemble multivarié. En effet, pour des données multivariées avec distribution normale (de type Laplace-Gauss), la distribution des valeurs de la distance suit une loi du khi-deux àpdegrés de libertéχ2p. Ainsi, en définissant un quantile de cette distribution, à1−α, soit 95% siα vaut 0.05 par exemple, un seuil de test peut-être défini, et l’ellipse définissant la frontière de la distribution a pour équation :

={x: (xi−x¯)TV1(xi−x¯)≤χ2p,1α} (4.2) Une valeur supérieure à ce seuil montre que l’observation considérée est en périphérie de nuage, et doit donc être considérée comme une valeur exceptionnelle (voir figure 4.5).

FIGURE4.5 – Utilisation de la distance de Mahalanobis pour la détection de valeurs exceptionnelles dans une distribution bi-variée.

Cependant, cette mesure est elle-même peu robuste car le calcul de la matrice de variance-covariance est sensible à la présence de sous-ensemble de valeurs extrêmes. Une variante de cette méthode, plus robuste, est présentée dans [Filzmoser 04] avec l’usage d’un seuil adaptatif calculé à partir de la matrice MCD (pourMinimum Covariance Determinant). Les estimateurs MCD de localisation et de dispersion sont la moyenne et la matrice de covariance calculées sur l’échantillon dehpoints parminqui minimise le déterminant de la matrice de covariance correspondante.

4.2.1.5 L’Analyse en Composantes Principales

Une autre méthode thématique très classique est l’Analyse en Composantes Principales (ACP) qui propose de déterminer les principaux axes d’une distribution multivariée. L’ACP revient à remplacer les variablesX1, X2, . . . , Xp par de nouvelles variables, les composantes principales, C1, C2, . . . , Ck des

Xi, non corrélées entre elles, de variance maximale et les plus liées en un certain sens auxXi: l’ACP est une méthode factorielle linéaire. En pratiquant l’ACP sur des données centrées-réduites3, les vecteursCi

sont donnés par la formule 4.3, où lesUisont les vecteurs propres de la matriceRde variance-covariance des données centrées et réduites (ils sont solutions de l’équationRUi=λUi).

Ci =XUi (4.3)

Le calcul produit ainsi p composantesCi, chacune associée à sa valeur propre λi, mais dont on ne retient que k composantes considérées comme principales (ceci relève d’un choix). En général, la réduction du nombre de variables utilisées pour décrire un ensemble de données provoque une perte d’information. L’ACP procède de façon à ce que cette perte d’information soit la plus faible possible, selon un sens précis et naturel que l’on donne au mot « information ». En fait, on cherche à maximiser le pourcentage d’inertie totale expliquée par ce sous-espace de dimensionk, k p. L’inertie totaleIg

étant la somme des valeurs propres,Ig =Pp

i=1λi, et le rapport λiIg correspondant à la part de variance expliquée par la composanteCi, on cherche à maximiser le rapport 4.4, avec unkle plus petit possible. On retient donc en général les vecteurs associés aux plus fortes valeurs propres.

Pk i=1λi

Ig

(4.4)

3. Utiliser les données centrées et réduites a pour conséquence de rendre les distances entre individus invariantes par trans-formation linéaire séparée de chaque variable, et de s’affranchir des unités de mesure, ce qui est particulièrement intéressant lorsque les variables sont hétérogènes.

L’ACP construit ainsi de nouvelles variablesCk, (aveckque l’on espère très petit devantp), artifi-cielles, et fournit des représentations graphiques permettant de visualiser les relations entre les variables, ainsi que l’existence éventuelle de groupes d’individus et de groupes de variables. Par exemple, dans la représentation dite du «cercle des corrélations», les variablesXi sont représentées par des vecteurs dans un repère orthonormé composé des deux composantes principales et les coordonnées des extrémités des vecteurs sont le coefficient de corrélation des variables avec chacune des composantes principales :

(r(Xi, C1);r(Xi, C2)). Cette figure permet de visualiser rapidement quelles sont les variables contri-buant principalement à chaque composante, et comment ces variables se comportent en elles (un angle qui tend vers l’angle droit monte une indépendance des variables). Par exemple, sur la figure 4.7, où une ACP a été pratiquée sur des variables décomposant les dépenses des ménages sur différents postes, il apparait que le poste alimentaire est le plus significatif et les achats de viandes sont très corrélés aux achats de légumes, alors que ces dépenses n’ont pas de lien avec les dépenses dans les cantines.

FIGURE4.6 – Usage du « cercle des corrélations » dans une ACP.

L’ACP est la « mère » de la plupart des méthodes descriptives multi-dimensionnelles qui permettent de détecter des corrélations entre variables dans l’espace thématique.

Mais également, l’ACP s’utilise pour repérer des valeurs exceptionnelles. De l’examen de ces projec-tions, on peut déterminer l’existence et la localisation d’observations exceptionnelles. Une observation est exceptionnelle si elle prend des valeurs extrêmes sur plusieurs variables. Un tel individuj de valeur (X1j, X2j, . . . , Xpj) est loin du centre de gravité d’un nuage, et l’on peut évaluer son caractère remar-quable par sa distance au centre du nuage dans l’espace completRp.

À cette fin, le dessin del’ellipse de dispersion d’ordrekpermet de déterminer les individus loin du centre de gravité du nuage. On sélectionne en effet les deux premières composantesC1,C2qui sont deux

variables indépendantes, que l’on renommeXetY. Pour ces deux composantes, on mesure la moyenne

¯

x,y¯, et la variance σxy des individus projetés dans cet espace réduit. L’ellipse de dispersion a pour équation 4.5 : {x, y: (xx¯) 2 σx +(yy¯) 2 σy =k2} (4.5)

FIGURE 4.7 – L’ellipse de dispersion unitaire (k=1) pour deux variables indépendantes. En rouge, les valeurs exceptionnelles.

Les individus à l’extérieur de cette ellipse sont exceptionnels.

4.2.2 L’étude spatiale

Les méthodes développées en analyse aspatiale ne sont pas adaptées à l’analyse de données spatiales «because spatial is special» comme le formule Anselin [Anselin 89].

L’un des premiers supports à l’analyse spatiale est la matrice d’information géographique, introduite par le géographe américain Berry [Berry 68], qui décrit un tableau à trois dimensions (cube) dans lequel les lignesicorrespondent aux unités géographiques, les colonnesjcorrespondent aux caractères permet-tant de décrire ces unités géographiques, les plans étagéstcorrespondent aux dates ou périodes pour les-quelles ces attributs ont été mesurés. Un élément quelconque d’une matrice d’information géographique se noteXijtet désigne la « situation du lieui, pour le caractèrejau tempst». Cette matrice correspond à un tableau d’information géographique, présentée en préambule dans la section A.3.1 page 16, mais intégrant un paramètre temporel. L’analyse des relations entre colonnes permet de découvrir des associa-tions spatiales, l’analyse des relaassocia-tions entre lignes permet d’établir des typologies spatiales, et l’analyse des relations entre plans permet de saisir des dynamiques spatiales. Mais en réalité, en l’état, ce schéma pourrait être réutilisé dans n’importe quelle discipline en remplaçant les lieux par d’autres types d’unités (individus ou groupes en sociologie, firmes ou ménages en économie, etc.).

Dans cette première approche, les variables de localisation des données statistiques sont intégrées comme des variables n’ayant pas d’effet statistique sur les données, et les données sont supposées être indépendantes dans la dimension spatiale. Cette hypothèse de non auto-corrélation spatiale des données

implique que les résidus d’un modèle de distribution d’une variable devrait présenter une forte homogé-néité spatiale. Or, les hypothèses portant sur l’indépendance des variables et la non auto-corrélation des données sont fausses, car suivant la première loi de la géographie de Tobler, «chaque phénomène est relié à tous les autres, mais des phénomènes proches dans l’espace auront tendance à être d’avantage liés que des phénomènes éloignés», et il est donc fréquent d’observer une auto-corrélation spatiale entre les caractères observés, dont la force dépend de la distance de localisation entre ces caractères.

Pour passer d’une analyse statistique spatialisée à une véritable analyse géographique, il faut donc introduire dans le schéma de Berry une quatrième dimension qui a trait à la position géographique des lieux les uns par rapport aux autres, c’est-à-dire à leurs attributs de localisation et aux relations de proxi-mité que l’on peut en déduire. Cette quatrième dimension peut, dans le cas le plus simple, prendre la forme d’une matrice de pondération (ou matrice de voisinage), notéeW, pourWeighten anglais, dont les éléments prennent la valeur 1 pour les i, j voisins, et 0 autrement. La notion de voisinage peut être définie soit en termes de relation, soit en termes de distance entre unités spatiales ou en termes de co-appartenance. Le premier cas retient l’aspect topologique du voisinage, le deuxième utilise ses caractéristiques métriques, le dernier cas s’intéresse aux relations de hiérarchie entre les unités.

L’association spatiale oul’autocorrélation spatialemesure l’intensité de la relation entre la proximité des lieux et leur degré de ressemblance [Pumain 97]. Si la présence d’une valeur forte pour une variable

Xrend sa présence dans les lieux voisins plus au moins probable, on dira que la variable manifeste une autocorrélation spatiale. L’autocorrélation est positive si les lieux proches ont tendance à se ressembler davantage que les lieux éloignés, elle est négative si les lieux proches ont tendance à être plus différents que les lieux éloignés. Elle est nulle quand aucune relation n’existe entre la proximité des lieux et leur degré de ressemblance, voir figure 4.8.

FIGURE4.8 – Illustration de l’autocorrélation spatiale.

Avec l’analyse spatiale, c’est précisément desassociations spatialeslocales ou globales, des phéno-mènes de concentration spatiale (clustering) ou bien de dispersion qui sont à rechercher. Les statistiques doivent donc être adaptées pour prendre en compte l’espace et lesrelations spatialescomme des com-posantes à part entières de l’analyse. Depuis plus de cinquante ans, la recherche dans le domaine de l’analyse statistique spatiale a construit des méthodes adaptées, [Cressie 91], dont nous proposons un aperçu. Il s’agit pour nous d’introduire progressivement pour le lecteur la notion d’autocorrélation, ses méthodes de mesure, et de montrer comment elles peuvent s’utiliser enfin pour la recherche de valeurs exceptionnelles.

4.2.2.1 Les indices globaux d’autocorrélation spatiale

Les coefficients de corrélation spatiale sont construits de telle manière qu’il soit possible de répondre à la question : la variation deX entre unités géographiques proches est-elle plus ou moins grande que la moyenne des variations observée entre l’ensemble des unités de la zone étudiée prises deux à deux ? Ces coefficients sont exprimés sous la forme de rapports. Le dénominateur est, à une constante près, une mesure générale de la dispersion statistique de la distribution deX, le plus souvent sa varianceσX2 . Le numérateur est, en général, soit une mesure de la dispersion statistique des valeurs prises par le caractère dans les unités voisinesietj, soit une mesure de la covariation des valeurs prises par le caractère dans les unités contiguës. Dans un contexte multivarié, ces écarts sont des mesures de distance entre profils, mesurant la distance entre les profils de deux unités voisines dans le premier cas, ou la distance de chaque profil au profil moyen dans le second.

Parmi toutes ces statistiques, l’indice de Moran(connu sous le raccourci deIde Moran) ne constitue donc qu’une possibilité, mais jusqu’à présent la plus robuste [Cliff 81]. Il s’agit du rapport de la covaria-tion des valeurs deXdans les unités voisines et de la variance deX, et le voisinage choisi correspond à la contiguïté d’ordre 1. Par conséquent, sa forme est proche de celle du coefficient de corrélation, et en notantmle nombre de liaisons entre les unités (ou nombre total de paires de voisins), on a :

I = 1 m n X i=1 n X j=1 wij(xi−x¯)(xj−x¯) 1 n n X i=1 (xi−x¯)2 (4.6)

Le I de Moran mesure donc la covariation d’un point et de ses voisins, en ramenant le résultat à la variance de l’ensemble des points. Le résultat du calcul du I de Moran est d’interprétation facile puisqu’il s’interprète approximativement comme un coefficient de corrélation classique. Il varie entre -1 (autocorrélation spatiale négative) et +1 (autocorrélation spatiale positive). On notera cependant que la valeur duIde Moran peut parfois être supérieure à 1 ou inférieure à -1. La valeur zéro marque l’absence d’autocorrélation spatiale négative ou positive, à une échelle globale.

Toutefois, le calcul de Moran est déséquilibré, car certaines observations sont plus représentées que d’autres : certaines localités centrales ont en effet plus de voisins que d’autres, situées par exemple sur les limites du territoire ou dans des zones éparses. On choisit alors de corriger ce biais en calculant un indice Moran corrigé du nombre variable de localités prises en compte, imposant donc un poids identique à chaque observation. La définition classique de l’indice de Moran considère en effet que plus le nombre de voisins est important, plus l’individu aura de poids dans la matrice de pondération. Le nombre de paires de voisins (m) est alors égal àPn

i=1

Pn

j=1wij. Cela ne se justifie que rarement. Au contraire, on préfère que chaque individu ait le même poids, c’est-à-dire que sa contribution à l’indice d’autocorrélation spatiale soit la même, qu’il ait un ou plusieurs voisins. Pour cela, il faut standardiser la matrice W en ligne. Cette opération consiste à pondérer le nombre de voisins j de chaque localité

i pour que chaque ligne de la matrice (qui décrit les voisins de chaque individui) soit égale à 1. En d’autres termes, si un point a 5 voisins, chaque voisin comptera pour un cinquième du total. Dans ce