Partie I – La reconnaissance du sous-sol, contexte
5. Reconnaissance du sous-sol, l’étude globale par l’échantillon
5.4. Zonage des propriétés en parcelles homogènes
Un des objectifs de la reconnaissance des sols est de pouvoir représenter au mieux la variabilité du
sous-sol en identifiant les hétérogénéités et les gammes des variations des principales propriétés
étudiées. Pour aider à la représentation d’une parcelle, une sectorisation des propriétés mesurées en
zones homogènes permet de différencier les parties pertinentes, telles les anomalies ou les
hétérogénéités majeures. Ce type d’analyse prend en compte la répartition des données et la variabilité
des propriétés mesurées.
5.4.1. Classification Hiérarchique Ascendante (CHA).
Le principe d’une analyse hiérarchique ascendante est de rassembler les observations d’une ou
plusieurs variables au sein d’un groupe (cluster) selon un critère de ressemblance défini au préalable.
Les observations les plus semblables seront ainsi regroupées dans des clusters homogènes. La taille de
ces clusters dépendra de la finesse des paramètres de distinction entre les différentes variables (Wilks
2001, Zirnea et al 2013, Genelle 2012).
a) Choix d’un indice de similarité.
De nombreuses mesures de la distance/différence entre deux valeurs d’une variable existent ; le choix
d’une d’entre elles dépend des données étudiées et des contrastes que l’on souhaite favoriser ou
réduire. Par exemple, le calcul par distance Euclidienne prend en compte uniquement la distance
géométrique, tandis que la distance Euclidienne au carré permet de surpondérer les objets atypiques.
Soulignons également la méthode de calcul par pourcentage de variation qui est particulièrement
p. 27
adaptée si les données des dimensions utilisées dans l’analyse sont de nature catégorielle (Carpentier
2007). Dans le cadre de cette thèse, la distance Euclidienne est choisie pour la classification des
données recueillies, les principales méthodes de calcul étant récapitulées dans le Tableau 1.6. L’indice
de similarité (distance entre individus/clusters) permet de faire les choix successifs d’agrégation
(Figure 1.11a).
Indice de similarité Formule de calcul de la distance (d)
Distance Euclidienne !"#
$, #
&' ( ")
$*− )
&*'
+*
Distance Euclidienne au carré !"#
$, #
&' ")
$*− )
&*'
+*
Distance de City-block !"#
$, #
&' ,)
$*− )
&*,
*
Distance de Tchebychev !"#
$, #
&' -.) ,)
$*− )
&*,
Distance à la puissance !"#
$, #
&' / ,)
$*− )
&*,
0*
1
2 34Tableau 1.6 : Indices de similarité et méthodes de calcul des distances pour une CHA (Carpentier 2012).
avec : #$ : individu i k : dimension des vecteurs de l’individu i (ou nombre de paramètres
sur lesquels repose la CHA).
x
ik: vecteur k de l’individu i (coordonnée ou paramètre à comparer).
p : pondération progressive affectée aux différences entre les dimensions individuelles.
r : pondération progressive affectée aux grandes différences entre les objets.
si p = r = 2 : formule de la distance Euclidienne.
si p = 1 : formule de la distance de City-Block.
si p = ∞ : formule de la distance de Tchebychev.
si p = r : formule de la distance de Minkowsky.
La variation sur les paramètres p et r permet de trouver l’équilibre voulu entre l’importance du nombre
d’éléments différents et l’importance de la différence elle-même (Carpentier 2012).
b) Choix d’un indice d’agrégation.
L’application de la méthode suppose également de faire le choix des paramètres d’agrégation entre
clusters. Dans cette étape de nombreux choix existent, permettant chacun de calculer la distance entre
deux clusters quelconques sans avoir à recalculer celles qui existent entre les individus composant
chaque cluster. La méthode la plus performante, donc retenue dans le cadre de cette thèse, d’après
Griffith et al (1984), est la méthode de Ward. Cette méthode consiste à choisir le regroupement de
clusters qui induit la plus faible augmentation d’inertie (ou de la variance) intracluster. La distance
entre le cluster Ck et le cluster Ck’ est la différence entre l’inertie intracluster Iw actuelle et l’inertie
intracluster après une agrégation de Ck et Ck’. Le choix d’un indice d’agrégation permet de
représenter les distances entre les différents clusters grâce à un dendrogramme (Figure 1.11b).
p. 28
Figure 1.11 : Etapes d'une CHA, a) choix des couples d'individus, b) visualisation des distances entre clusters avec un
dendrogramme.
A titre indicatif, on peut indiquer trois méthodes complémentaires :
• complete linkage : les distances entre clusters sont déterminées par la plus grande distance
existant entre deux objets de clusters différents.
• moyenne non pondérée : la distance entre deux clusters est calculée comme la moyenne des
distances entre tous les objets pris dans l’un et l’autre des deux clusters différents.
• centroïde pondéré des groupes associés (médiane) : la distance entre deux clusters est
déterminée par la distance entre les centroïdes respectifs ; une pondération est introduite dans
le calcul afin de tenir compte des tailles des classes (nombre d’objets contenus dans chaque
cluster).
L’exécution d’une CHA demande également de faire un choix sur les critères d’agrégation pour
former n clusters. Le critère d’agrégation permet de comparer les clusters deux à deux pour
sélectionner les plus similaires. Les critères majoritairement utilisés sont le plus proche voisin, le
diamètre maximum, la distance moyenne et la distance entre les centres de gravité. La représentation
de l’ensemble de ces distances entre cluster se fait avec un dendrogramme, donnant la composition des
différents clusters (nombre et valeurs des variables), ainsi que l’ordre dans lequel ils ont été formés.
L’analyse par CHA ne permet pas de déterminer le nombre optimal de clusters à prendre en compte
pour avoir une représentation pertinente de la variabilité des propriétés mesurées. Par exemple, dans le
cas d’une CHA sur une cartographie de résistivité apparente, le choix du nombre de clusters va
seulement limiter l’homogénéité des groupes créés et non la taille (dimension spatiale) de ces derniers,
p. 29
ce qui peut amener à la détermination d’un groupe de quelques dm² au sein d’une reconnaissance de
plusieurs dizaines de m². La pertinence du nombre de clusters dans CHA doit donc à la fois répondre à
une bonne représentativité de la variabilité de la base de données (σ), mais également la dimension des
clusters créés (nombre de données et dimension spatiale à laquelle le cluster se rattache).
5.4.2. Analyse par Transformée de Fourier.
L’analyse de Fourier est parmi les outils les plus pertinents pour étudier les variations temporelles ou
spatiales d’une base de données. En soulignant que les variations étudiées doivent présenter plusieurs
cycles pour être convenablement décrites par ses fréquences propres. Ainsi, du fait que cette étude soit
basée sur le concept physique d’une analyse de fréquences (spatiales ou temporelles), elle se révèle
mal adaptée à la description de fonctions ou signaux couramment rencontrés dans les domaines de la
reconnaissance des sols, et plus particulièrement en géophysique (Rosat 2004). L’analyse de Fourier
est bien adaptée dans un contexte stationnaire, quand le signal analysé présente certaines propriétés
d’invariance par translation. Toutefois, les signaux géophysiques et géotechniques, par nature ne
peuvent être intégrés dans ce contexte, car le pas de mesure est souvent non constant et qu’il y a une
absence de période au sein du signal.
Soulignons que le traitement théorique de l’analyse en ondelette des données géophysiques, initié par
Grossmann et al (1984) a été développé dans les domaines de la reconnaissance géophysique. A noter
que l’étude menée par Kumar et al (1997) présente les propriétés élémentaires faisant de l’analyse en
ondelette un outil attrayant et puissant pour des applications géophysiques. L’analyse en ondelette
complète bien les limites liées à l’étude de signaux quasi-stationnaires, de l’analyse des données par la
méthode de transformée de Fourier. Cette dernière n’apporte aucune information quant à l’évolution
du spectre au cours du temps (Mabille et al 2012). On notera également les applications dans la
réduction du bruit des mesures géophysiques (Li et al 2013b) et la mise en avant de la notion d’échelle
de variation des propriétés en géophysique (Lark et al 2003) où l’analyse par ondelette prend en
compte le fait que les propriétés du sous-sol ne sont pas stationnaires dans leur variance. L’analyse en
ondelette permet également d’identifier des corrélations entre le coefficient des ondelettes et les
successions de faciès lithologiques mesurés par diagraphie de forage, mettant alors en avant les
différentes échelles des structures lithologiques du sous-sol (Perez-Muñoz et al 2013).
a) Principe.
La transformation de Fourier F est une opération qui transforme une fonction f intégrable sur en une
autre fonction décrivant le spectre fréquentiel 56. La transformée de Fourier est la fonction F(f) = 56,
donnée par l’Équation 1.4 dont les résultats sont illustrés par la Figure 1.12 pour le cas de signaux
périodiques simples.
p. 30
Équation 1.4
7 5 ∶ 9 → 56 9 ; 5 <
?@ = 9<><
=@