Création de sous-indices : une double approche logique et statistique

BESOINS DE PRISE EN CHARGE DES POPULATIONS

3.2 U NE METHODOLOGIE EN QUATRE TEMPS

3.2.3 La création d'un Indice Social de Susceptibilité à l’Auto-Hébergement (ISSAH)

3.2.3.3 Création de sous-indices : une double approche logique et statistique

La lecture des résultats d’un indice constitué de nombreuses variables, à l’instar de l’ISSAH, est rarement aisée : pour comprendre pourquoi tel ou tel individu (commune) présente un indice élevé ou faible, il faut pouvoir analyser la structure sous-jacente de l’indice. En d’autres termes, il faut pouvoir diviser l’indice en sous-indices, ou dimensions (OECD, 2008) : les valeurs prises par un individu pour chaque sous-indice permettent de comprendre la signification de la valeur de l’indice synthétique.

Au sein de la littérature, il est possible de distinguer deux approches pour créer un indice synthétique : (1) une approche logique et déductive, comme le font par exemple Cutter et al. (2010) pour leur indice de résilience ; (2) une approche statistique et inductive, comme le font encore Cutter et al. (2003), pour la construction dans ce cas-ci d’un indice de vulnérabilité sociale. Ces deux approches ont d’ailleurs été comparées par la même équipe de recherche (Cutter et al., 2014) ; elles ont aussi été confrontées dans le cadre d’une analyse d’incertitude et de sensibilité (Tate, 2012).

3.2.3.3.1 Création de sous-indices selon l’approche déductive

L’approche logique et déductive consiste à créer des sous-indices a priori, sans analyse de la structure de la donnée, mais en s’appuyant inversement et strictement sur un raisonnement logique et déductif à partir de l’état de l’art. Cette approche présente le grand avantage d’être lisible et aisée à reproduire. Elle a le désavantage de reposer sur une appréciation personnelle de l’indice et de sa structure interne.

Dans notre cas, il est possible d’adapter le tableau récapitulatif des variables potentielles constitutives de l’ISSAH, en équilibrant les différents facteurs afin qu’ils comprennent un nombre relativement comparable de variables. Les trois sous-indices (notés ISSAH_CC1, ISSAH_CC2, ISSAH_CC3) créés de la sorte sont calculés par une moyenne non pondérée des différentes variables qui les constituent. L’indice synthétique (noté ISSAH_CC) est égal à la moyenne non pondérée des trois sous-indices.

134

Sous-indice (code sous-indice) Code variable

Conditions démographiques – 4 var. (ISSAH_CC1)

FEMMES HOMMES LOG10

LOG2

Revenus et capital immobilier – 5 var. (ISSAH_CC2) PROP LOGSOC MEDREV MENIMP DECREV

Capacité d’insertion – 3 var. (ISSAH_CC3) _DIPLLGSSDIPL

IMMI

Tableau 11. Sous-indices d'après l'approche déductive (ISSAH_CC).

Il est envisageable de tester la cohérence interne de l’indice synthétique et de chaque sous- indice créé de cette façon, par le biais du calcul d’un alpha de Cronbach allant de 0 à 1. Ce dernier est à l’origine une mesure psychométrique, mais utilisée également dans la construction d’indices synthétiques d’origine statistique (Cutter et al., 2010 ; Havard et al., 2006 ; OECD, 2008). La cohérence interne représente l’homogénéité d’une échelle de mesure : le calcul de l’alpha de Cronbach, associé à l’analyse des corrélations entre variables, permet de vérifier si l’ensemble des variables constitutives du sous-indice tendent à représenter un même phénomène. Il faut cependant prendre ce calcul avec précaution, dans la mesure (entre autres) où il tend à sous-estimer la cohérence interne quand le nombre de variables est faible, et à l’inverse à augmenter quand le nombre de variables est élevé (Tavakol et Dennick, 2011). Le calcul de l’alpha de Cronbach pour l’ensemble des 14 variables initiales (après suppression des variables redondantes) donne un résultat médiocre, de 0,63 et sous le seuil de 0,7, recommandé par exemple chez Cutter et al. (2010) : la suppression des variables relatives à l’âge (AGE75 et AGE15) permet de faire remonter l’alpha de Cronbach au-dessus du seuil, à 0,73. Les différents sous-indices créés apparaissent aussi relativement cohérents, d’autant plus en prenant en considération que l’alpha de Cronbach est sous-évalué pour un faible nombre de variables : 0,61 pour l’ISSAH_CC1 ; 0,74 pour l’ISSAH_CC2 ; 0,74 pour l’ISSAH_CC3. 3.2.3.3.2 Création de sous-indices selon l’approche inductive

L’approche statistique et inductive consiste à s’appuyer sur l’analyse statistique des données pour déterminer des sous-indices. L’Analyse en Composantes Principales (ACP) est ici une méthode d’analyse adaptée pour regrouper les variables les plus corrélées entre elles et créer à partir de ces regroupements de nouvelles variables dé-corrélées les unes des autres (appelées « composantes principales »). Cette méthode présente toutefois certaines limites présentées dans le manuel de l’OCDE (OECD, 2008 : 26). Ce sont ces composantes principales qui servent à construire des sous-indices.

L’application d’une ACP demande a priori de vérifier que les variables peuvent être regroupées (clustérisées), par le biais de deux tests, notamment utilisés chez Wolf et McGregor (2013) dans la création d’un indice de vulnérabilité appliqué aux vagues de chaleur.

(1) Le test de sphéricité de Bartlett permet de réfuter l’hypothèse nulle selon laquelle il n’y a pas de relations observées entre les variables de la matrice de données, en comparant la matrice de corrélation à une matrice d’identité. Ce test, réussi dans le cas de notre matrice, est cependant

135

peu utile quand le nombre d’observations est relativement important (avec plus de 5100 IRIS et communes, c’est notre cas).

(2) Le test de mesure de précision de l’échantillonnage Kaiser-Meyer-Olkin (KMO) permet de comparer, sous la forme d’un indice allant de 0 à 1, la magnitude des corrélations observées avec celles des corrélations partielles ; de façon opérationnelle, il permet de vérifier que les variables peuvent être clustérisées, et qu’en conséquence des composantes principales peuvent émerger de l’ACP. Par ce test, il est possible d’éliminer les variables isolées du reste de la matrice, non corrélées à d’autres variables de cette dernière. Le test KMO peut en effet être calculé pour chaque variable, et pour l’ensemble de la matrice. L’OCDE recommande de supprimer les variables avec le KMO le plus faible, jusqu’à atteindre un KMO global de 0,6 au minimum, de 0,8 de préférence (OECD, 2008). Avec notre matrice de données, il apparaît difficile de dépasser un KMO de 0,7 : nous retenons in fine une matrice de 13 variables (KMO global = 0,68), comprenant l’ensemble des variables potentielles auquel il faut soustraire les variables redondantes et une variable avec le KMO le plus faible (MENIMP).

L’ACP est ensuite menée à terme, à partir de cette nouvelle matrice réduite à 13 variables. La première composante principale explique 31,0% de la variance totale de la matrice ; la seconde composante 21,7%. Chaque composante principale constitue un nouveau sous-indice de l’ISSAH, en ne retenant que les composantes avec une valeur propre (eigen value) supérieure à 1, comme le recommandent Cutter et al. (2003). Dans notre cas, 4 composantes principales sont retenues, expliquant 74% de la variance totale. Une procédure de rotation varimax de ces 4 composantes est alors mis en œuvre : cette rotation varimax (Cutter et al., 2003 ; Su et al., 2015) permet d’accroître l’indépendance des composantes principales, en maximisant la corrélation des variables avec une composante et en minimisant la corrélation avec les autres composantes (Figure 11).

136

Figure 11. Analyse en Composantes Principales : corrélations des variables avec les facteurs principaux après rotation varimax.

Ci-dessous, dans le Tableau 12, sont décrits les quatre composantes principales et les variables les plus corrélées positivement à ces composantes. Les coordonnées des composantes principales (soit les sous-indices, notés ISSAH_ACP1, ISSAH_ACP2, etc.) sont calculées pour chaque individu. La moyenne des composantes principales, pondérée selon la part de variance qu’elles expliquent comme le font certains auteurs (Myers et al., 2008), permet in fine d’obtenir l’indice synthétique selon l’approche inductive (noté ISSAH_ACP). D’autres méthodes de pondération existent toutefois, applicables aux méthodes inductives ou déductives. Certaines études préfèrent accorder une pondération égale aux différents facteurs ou composantes identifiés (Cutter et al., 2010 ; Lee, 2014). D’autres s’appuient sur une analyse multicritères, en interrogeant un groupe d’experts afin de prioriser les éléments les plus importants, et prioriser de la sorte les facteurs entre eux : la méthode d’analyse hiérarchique selon la méthode de Saaty (1994, 1980) est ainsi assez populaire chez les auteurs (Barbat, 2003 ; Barczak et Grivault, 2007 ; Cardona et Carreno, 2011). D’autres encore évitent le problème posé par les choix de pondération par l’application de la méthode de rang de Pareto (Rygel et al., 2006).

137

Sous-indice (code sous-indice) Code variable

Revenus et éducation (ISSAH_ACP1)

MEDREV DECREV FEMMES SSDIPL DIPLLG

Conditions de logement (ISSAH_ACP2) HOMMES _LOG10

LOG2

Age du ménage (ISSAH_ACP3) AGE75

AGE15

Capital économique et capacité d’insertion (ISSAH_ACP4)

PROP LOGSOC

IMMI

Tableau 12. Sous-indices d’après l’approche inductive (ISSAH_ACP).

In fine, malgré l’intérêt de la démarche déductive, c’est l’approche inductive qui sert à déterminer le taux d’hébergement collectif applicable, du fait de sa robustesse statistique.

3.2.3.4 Détermination de l’impact de l’ISSAH sur les taux d’hébergement en collectivité et

Dans le document Etude prospective des impacts sociaux d’une inondation majeure en région Ile-de-France. Disparités socio-spatiales dans la prise en charge des populations franciliennes en situation de crise et post-crise : une analyse cartographiée et quantifiée des bes (Page 134-138)