• Aucun résultat trouvé

Chapitre III : Résultats globaux

III.2. Typologie des comportements de mobilité basée sur les profils

III.2.1. Classification ascendante hiérarchique

Nous choisissons la classification ascendante hiérarchique (CAH) parce que c’est une technique d’analyse statistique qui est largement utilisée. Elle permet de distinguer des hiérarchies de partitions (taxonomies) et d’estimer la proximité entre des groupes pour aider à choisir des sous-populations relativement homogènes. a. Algorithme

Le principe de la méthode de classification ascendante hiérarchique est simple :

• Calculer la dissimilarité entre les individus ou des groupes d’individus. • Les agglomérer progressivement en fusionnant en priorité les groupes

les plus proches, avec un indice de proximité en rapport avec la stratégie d’agrégation utilisée.

Dans notre cas, nous avons utilisé la méthode Ward, la plus courante, et la stratégie de choisir toujours les deux éléments plus proches qu’il s’agisse d’un groupe déjà constitué ou d’une observation isolée (la distance de Ward entre deux classes est celle de leurs barycentres au carré, pondérée par leurs effectifs ; mesurant les proximités, la technique tend à regrouper les petites classes entre elles, en réunissant celles dont le regroupement fera le moins baisser l’inertie inter-classes). Au total, la CAH doit fournir des classes homogènes, minimisant la distance intra-classe et maximisant la distance inter-classes.

Nous avons utilisé une macro SAS développée par l’INSEE. [Isnard M., Sautory O., 1994]. L’algorithme mis en œuvre en pratique est relativement simple : Etape 1 : Calculer la matrice des distances de Ward entre les éléments (les individus ou les groupes les regroupant progressivement) selon l’équation suivante :

64

pi, pj sont les poids respectifs des éléments (les individus ou les groupes) i, j. d(Mi, Mj) est la distance entre 2 barycentres Mi et Mj (des groupes i, j)

Etape 2 : Regrouper et remplacer les deux individus (ou classes) de distance minimale par une classe qui sera représentée par le centre de gravité des individus et affectée de la somme des poids des individus.

Etape 3 : Calculer la perte d’inertie inter-classes (ou gain d’inertie intra- classe) dû au regroupement précédent: il s’agit exactement de l’écart de Ward entre les deux individus (ou classes) regroupés.

Puis, recommencer à l’étape 1. Après n − 1 cycles, tous les individus sont regroupés en une classe unique.

Le résultat peut être représenté sur un dendrogramme, arbre binaire qui montre les agrégations successives. La hauteur d'une branche est proportionnelle à la distance entre les éléments regroupés, qui est simplement la perte de variance inter-classes. Ce dendrogramme peut être aussi utile comme aide pour visualiser le nombre de classes où l’on souhaite arrêter le résultat.

b. Variables actives

Le choix des variables actives est une étape importante pour la classification. Non seulement différents choix donnent des distances différentes entre les éléments, mais aussi ils sont les déterminants des classes (dans notre cas, des profil-types) et aboutissent à des résultats différents.

Nous avons essayé plusieurs combinaisons des variables actives, afin de tenir compte de la répartition entre les trois segments temporels de la mobilité individuelle (dans la semaine, samedi, dimanche et à longue distance). Les variables a priori éligibles pour caractériser ces mobilités sont : le nombre de déplacements, le budget distance, le budget temps et le budget de CO2.

Mais au final, nous avons choisi de ne considérer que les variables constituant quantitativement le budget individuel d’émission de CO2 de la mobilité sur 28 jours. Il s’agit donc des émissions :

- des déplacements dans la semaine (5 jours ouvrables x 4), - des samedi (4),

- des dimanches (4),

- de la mobilité à longue distance. Les raisons de ce choix sont multiples.

65

Premièrement, notre objectif est l’étude des niveaux d’émissions individuelles de CO2 et de leur articulation temporelle ; il faut donc insérer ces budgets de CO2 des quatre segments de déplacements parmi les variables actives.

Deuxièmement, il faut éviter les multi-colinéarités qui pourraient résulter de la forte corrélation des émissions de CO2 avec les autres variables (la distance parcourue par exemple). Certaines méthodes statistiques, comme l’analyse en composantes principales (ACP) pourraient alors être utilisées dans de tels cas pour considérer ensemble des types de variables très différents (la CAH intervenant à la suite pour réaliser les classes à partir des coordonnées factorielles centrées réduites fournies par cette méthode factorielle). Mais cela présenterait alors deux inconvénients notables (et de nature très différente) à nos yeux :

• sur le principe, n’utiliser que les émissions pour élaborer des profils- types nous semble la façon la plus « pure » et « démonstrative » de procéder ;

• en pratique, et c’est essentiel, nous ne souhaitons aucunement centrer- réduire, pour ne pas perdre l’articulation temporelle et quantitative des émissions entre les segments de mobilité27.

Voilà pourquoi nous ne considérons en fin de compte que la combinaison des quatre variables des budgets de CO2 sur les quatre segments. Comme nous allons le voir, ces quatre variables d’émissions de CO2 nous permettent de décrire les comportements de mobilité individuelle. Nécessaires, elles sont également suffisantes pour les travaux d’analyse que nous allons mener, et il n’est pas besoin de retenir des combinaisons plus complexes.

Nous avons donc choisi une combinaison simple, adaptée à notre objectif, même si elle ne constitue bien évidemment pas une description exhaustive, ni une modélisation optimale, des comportements de mobilité.

27 Précisément, si nous normalisons chaque variable des émissions de CO2 dans la

semaine, le samedi, le dimanche et à longue distance, leurs sommes ne correspondent plus avec les valeurs annuelles d’émissions individuelles. Nous souhaitons conserver l’échelle quantitative qui relie leurs poids respectifs.

c. Choix du nombre de

Fig avec le

A partir du dendr en 4 ou en 7 classes séparant en deux les 3

Mais, la partition (voir Tableau III.6, le c effet respectivement u sont de trop faibles eff en 4 classes, tandis analyses complémenta

66 de classes

So igure III.3 : Dendrogramme de la classification les quatre variables actives des émissions de

drogramme, nous pouvons choisir de rasse es. Les 7 classes se construisent à parti s 3 classes 2, 3 et 4.

ion détaillée en 7 classes fournit certains e cas 7 classes). Les classes 2.2, 3.2 et 4

une proportion de 1,3%, 1,8% et 0,3% de effectifs. Donc, nous travaillons principalem is que celle de 7 classes ne nous sera

ntaires.

Source : ENTD 2007-2008 ion

e CO2

ssembler les individus rtir des 4 classes en

ns très petits effectifs t 4.2 représentent en de la population. Elles ement sur la typologie a utile que pour des

67

III.2.2. Profil-types des comportements d’émission et de mobilité individuelle