• Aucun résultat trouvé

Chapitre 2 Méthodes des études pour le suivi microclimatique et géophysique du site

2.2. Méthodes appliquées pour l’étude de l’évolution des résistivités au cours du temps

2.2.2. Approche statistique

La méthode proposée par Loke et al. (2014) est, dans la plupart des études, appliquée à des mesures répétées au cours de périodes plus courtes que la nôtre et, de plus, avec des pas de temps plus réguliers (Clément et al., 2009; Loke et al., 2014; Xu et al., 2014). On se propose donc d’utiliser une autre solution consistant à réaliser une classification hiérarchique sur l’ensemble des résistivités inversées et une analyse en composantes principales (Xu et al., 2014), en considérant chaque date de mesure comme « variable » et les résistivités dans chaque bloc du modèle comme « individu ». Cette méthode avait déjà été mise en œuvre pour les études de couverture de déchets (Genelle et al., 2012; Genelle, 2012).

2.2.2.1. Analyse en composantes principales (ACP)

C’est une méthode statistique multi-variable qui consiste à transformer une série de variables corrélées entre elles, en nouvelles variables indépendantes les unes des autres. Ces nouvelles variables sont des « composantes principales ». Cette méthode sert à diminuer le nombre de variables, pour trouver de nouveaux axes indépendants qui expliquent au mieux la variabilité des données. Dans notre cas, elle permet d’abord de réduire le nombre de variables à analyser.

On présente, par souci de simplicité, le principe à partir des résistivités normalisées (2.1.1.3) (ρDCR) bien que dans la partie 3.3, les analyses statistiques seront conduites sur les log10 des résistivités normalisées.

On considère que les données sont sous forme d’une matrice N×p, dans notre cas, c'est 2080×21 correspondant aux 21 mesures de TRE, chaque mesure comportant 2080 individus (ρDCR).

𝑀 = [

𝜌𝐷𝐶𝑅1,1 … 𝜌𝐷𝐶𝑅1,𝑝

⋮ ⋱ ⋮

𝜌𝐷𝐶𝑅𝑁,1 ⋯ 𝜌𝐷𝐶𝑅𝑁,𝑝]

a) Inertie d’un échantillon

Puisque les données sont centrées, le centre de gravité est donc le point de coordonnées (0) dans un espace à p dimensions (p variables). On peut donc calculer l’inertie de chaque individu (Mi) GMi² (Figure 33):

𝐺𝑀𝑖2 = ∑ 𝜌𝐷𝐶𝑅𝑖,𝑗2

𝑝 𝑗=1

Cette valeur nous permet, une fois rapportée à l’inertie totale, de réduire p colonnes en une colonne afin de faire un premier filtre sur ρDCR. Les fortes valeurs de ρDCR sont facilement identifiées grâce à ce calcul. Ces valeurs fortes ont des poids importants pour les analyses suivantes. Ils influencent fortement les résultats s’ils sont conservés tels quels.

l’inertie totale est supérieure à 2% (190 points sur 2080 dans le cas présenté sur la figure 33 correspondant à l’étude des résistivités vraies normalisées). Une cartographie peut être réalisée afin de voir leur position (Figure 34).

Figure 34. Cartographie de l’inertie de ρDCR, avec l’échelle de couleur de 0% à 4%

En comparant avec les modèles de résistivités (cf. 3.1), on se rend compte que deux types de blocs sont présents : ceux qui correspondent à des résistivités très fortes (vers l’extrémité du profil, en surface entre 32 et 35 m au sud-est) et ceux qui sont situés de façon discontinue aux environs de 1 m de profondeur.

Quand les données qui ont une forte inertie sont filtrées, la moyenneρus et l’écart-type σ de l’ensemble des données sont modifiés. On doit donc calculer à nouveau ρDCR (cf. 2.1.1.3).

b) Résultats d’ACP sur les données centrées réduites filtrées

Une fois que l’on a filtré les données centrées réduites ρDCR selon le critère de l’inertie inférieure à 2% (GMi² rapporté à l’inertie totale <2%), on peut donc réaliser l’ACP sur les valeurs de ρDCR filtrées. Pour cela on calcule successivement la matrice des corrélations des variables, on la diagonalise et obtient les valeurs propres. On calcule ensuite les coordonnées des variables initiales sur les axes factoriels (Annexe II.A) permettant de tracer les cercles des corrélations (Figure 36) et les coordonnées des individus sur les axes des composantes principales (Figure 37).

L’objectif initial est de réduire le nombre de variables si les valeurs propres obtenues par la diagonalisation de la matrice des corrélations le permettent. Pour cela, on a besoin de fixer le nombre d’axes à retenir dans le nouveau système de projection en se fondant sur la décroissance des valeurs propres issues de la diagonalisation (Figure 35). D’après le critère du coude, on choisit, dans l’exemple présenté ici, de ne retenir dans cette présentation que deux axes, car au-delà de ces deux premières valeurs propres (Figure 35) absorbant 91+3% de la variance totale égale à 21, on n’observe que de très faibles valeurs des valeurs propres. On va donc projeter les anciennes variables (les dates) sur les nouveaux axes F1 et F2.

Figure 36. Cercle des corrélations (axes factoriels F1-91% et F2-3%)

Les variables sont toutes positivement corrélées à l’axe F1 mais avec des coefficients de corrélation relativement faibles (environ 0,2). Différemment, les variables sont dispersées sur l’axe F2. L’axe F2 oppose donc les variables négativement corrélées aux variables positivement corrélées à cet axe. Ce cercle des corrélations sert à interpréter le graphe représentant les individus présentés après l’introduction de la classification hiérarchique ascendante (CHA) (Figure 37). Ces deux dernières figures sont présentées à titre d’exemple sans être interprétées, elles le seront après avoir été obtenues avec les logarithmes de base 10 des résistivités normalisées dans la partie 3.3.

Dans un système euclidien, on calcule d’abord les distances entre deux points afin d’obtenir une matrice de distance (D), puis on rassemble les points dont la distance est proche entre eux. En pratique, on utilise la méthode de Ward pour calculer cette distance :

𝑑𝑊𝑎𝑟𝑑(𝐺𝑖, 𝐺𝑗) = 𝑝𝑖𝑝𝑗 𝑝𝑖+ 𝑝𝑗𝑑

2(𝑔𝑖, 𝑔𝑗) soient d (Gi, Gj), la distance de Ward de deux groupes

La méthode de Ward consiste à regrouper les classes de façon à ce que l'augmentation de l'inertie interclasse soit maximum, ou ce qui revient au même d'après le théorème de Huygens (Gleason, 1957), de façon à ce que l'augmentation de l'inertie intra-classe soit minimum.

On peut d’abord effectuer la CHA sur les variables (dates). L’objectif est de regrouper les variables liées entre elles afin de construire des classes de variables aussi homogènes que possible.

La classification CHA est le plus souvent proposée pour réunir les individus (blocs des modèles de résistivité). La CHA des individus nous permet de rassembler les blocs de résistivités qui ont les mêmes tendances de variation temporelle et de former les différentes classes des individus. À l’aide de cette classification, on peut réduire le nombre de données à analyser, par exemple, on peut faire une analyse tenant compte de 10 au lieu de 2080 points. Dans notre cas d’étude, la CHA par individu autorise l’identification des zones de résistivités considérées comme homogènes. Un exemple est donné pour présenter les individus sur le plan F1/F2 en fonction de leur appartenance aux différentes classes issues de la CHA (Figure 37), et l’interprétation sera donnée dans le chapitre suivant (cf. 3.3).