Déterminer la qualité de la classification à partir des critères de validation Les premiers critères de validation fait référence aux indices statistiques (la validation

CONFIGURATIONS FAMILIALES

LA VALIDATION D’UN CLUSTER DE CONFIGURATIONS 3.4

3.4.1 Déterminer la qualité de la classification à partir des critères de validation Les premiers critères de validation fait référence aux indices statistiques (la validation

interne). Le Tableau 4 montre les critères retenus et leur interprétation. Nous nous intéressons à deux critères en particulier : la silhouette (ASW) et l’indice de Calinski et Harabasz (CH). La silhouette présente l’avantage d’évaluer simultanément l’éloignement entre les groupes (variance inter-classe) et l’homogénéité des groupes

(variance intra-classe). L’indice de Calinski et Harabasz est reconnu par Milligan et Cooper (1985) comme étant le plus performant. Pour la suite, nous allons considérer le CHsq qui est le même indice mais adapté au carré de la distance. Nous avons justifié plus haut l’utilisation du carré de la distance pour diminuer l’effet des valeurs extrêmes.

Tableau 4 : Mesure de la qualité d’une classification (source : Studer, 2012).

La Tableau 5 répertorie les indices produits avec le package « WeightedCluster » (voir Annexe 2). Ces indices sont calculés et produits en bloc et il n’est pas possible pour l’utilisateur de les sélectionner en amont. Comme indiqué, nous retenons principalement les indices ASW et CHsq qui présentent de bonnes performances dans l’évaluation de la classification hiérarchique. Les indices ASWw, CH, R2 et R2sq ne sont pas pris en compte car impertinents par rapport aux paramètres de notre procédure algorithmique et classificatoire¹⁸. Les indices restants peuvent effectivement être considérés par rapport à notre procédure mais leurs performances restent limitées. Le critère de choix est indiqué

18 L’indice ASWw est un indice conçu pour les objets. Les indices R2 et R2sq n’utilisent pas la distance euclidienne mais les rapports de corrélation comme indice de dissimilarité.

dans le Tableau 5, c’est-à-dire si la classe à retenir doit correspondre au maximum ou au minimum des valeurs.

Une comparaison entre des classifications portant sur un nombre d’objets différents (nombre de termes) peut être faite. Le tableau présente les indices pour la première classification (avec les 16 premiers termes), pour la deuxième classification (avec les 20 premiers termes), pour la troisième classification (avec les 24 premiers termes). Pour ces trois cas, sont regroupés dans « Autres » l’ensemble des termes restants.

Pour opérer un choix optimal de cluster, les clusters extrêmes ne sont pas à favoriser : un cluster avec deux configurations familiales ne nous permettrait pas d’avoir les informations recherchées. On se trouve dans ce cas trop proche du regroupement à une classe qui est la totalité de l’échantillon. Un nombre de classes trop élevé aura tendance à trop détailler l’information car on se rapprocherait du niveau individuel. En général, lorsque le nombre de classes est élevé cela entraine une faiblesse des effectifs pour certaines classes, ce qui limite les possibilités d’analyse.

Tableau 5 : Les indices de validation d’un cluster de configurations

Indices PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC Choix

Critère du choix max max max max exclu exclu exclu max exclu min Classification 1 : Clusters avec 16 termes + Autres

Cluster 2 0.18 0.41 0.41 0.36 0.36 39.76 0.09 45.89 0.10 0.49 Classification 2 : Clusters avec 20 termes + Autres

Cluster 2 0.23 0.64 0.64 0.51 0.51 34.61 0.08 52.78 0.12 0.52

Classification 3 : Clusters avec 24 termes + Autres

Cluster 2 0.25 0.61 0.61 0.53 0.53 28.27 0.07 38.72 0.09 0.52

Pour chaque classification, les valeurs sur lesquelles se base la décision sont mises en gras. Les meilleurs choix de clusters correspondent aux meilleurs scores pour l’ASW et le CHsq. Le choix peut être affiné en accordant une attention particulière au saut qualitatif des indices. Les valeurs des indices sont croissantes ou décroissantes selon le cas. Par contre, certaines valeurs ne suivent pas cet ordonnancement et deviennent plus élevées que les suivantes. Ce saut opéré par certaines valeurs est un indicateur de la qualité d’un cluster. Cela témoigne d’une performante assignation des objets par rapport à une homogénéisation graduelle des classes. C’est le cas ici avec le cluster 7 de la classification 2 (avec les 20 premiers termes). On voit que l’indice CHsq (87.25) fait un saut qualitatif. Ce cluster enregistre également la valeur la plus élevée pour l’ASW (0.30). Sur la base de ces deux valeurs maximales, nous pouvons nettement porter notre choix sur la classification avec 20 termes et avec 7 configurations familiales.

Contrairement aux première et troisième classifications, la deuxième classification enregistre une convergence de ces deux indices qui désignent les clusters avec 7 et 9 classes. De même, ces deux clusters comportaient des classes interprétables par rapport à leur composition (leurs sens sociologiques). Dans ce cas précis, nous avons mis en avant le saut qualitatif plus net avec le cluster avec 7 classes. Un second argument est que si on devait choisir celui avec 9 classes, la subdivision des classes s’opère dans les classes avec de faibles effectifs. On tendrait ainsi à accentuer le déséquilibre entre les classes par rapport à leurs tailles. Ce déséquilibre est plus faible avec le cluster à 7 classes mais il est structurel car est très vite apparu (dès le cluster à 3 classes). Donc à qualité égale sur la base de la validation interne, on fait appel aux critères relatifs pour procéder à un choix de cluster. Cela ne signifie pas que les critères relatifs ne viennent qu’en appoint aux autres. Le sociologue peut se suffire du sens sociologique des classes ou configurations obtenues sans se référer aux indicateurs statistiques.

À ce propos, nous ne nous inscrivons pas dans une logique exclusivement statistique.

Certains statisticiens ont émis des ordres de grandeur pour interpréter des indices statistiques. Pour la silhouette (ASW) dont la valeur se situe entre 0 et 1 en valeurs absolues, il n’y a aucune structure « naturelle » si l’indice est inférieur ou égal à 0.25, mais que cette structure est faible jusqu’à 0,50 (Kaufman and Rousseeuw (1990) repris par Studer (2012)). En suivant la ligne tracée par ces auteurs, le cluster avec 7 classes retenues pourrait être un « artifice » statistique. Pour notre part, ces ordres de grandeur

sont trop généralistes et tiennent nullement compte de la spécificité des données. Celles utilisées pour cette présente étude comportent 124 objets (total des termes cités) dont la concomitance de leurs citations devait permettre de regrouper en classes ou configurations les réseaux familiaux des 400 répondantes. En réalité, plus ces 124 termes sont répartis entre les 400 réseaux et moins les classes obtenues sont homogènes, ce qui péjore les indicateurs qui en sont sensibles tels que l’indice silhouette. Même si l’impact du nombre élevé d’objets est atténué avec le regroupement de ceux qui ont un moindre poids (termes peu cités ou rares) en un seul dans « Autres termes », ceux-là n’en sont pas exclus pour autant de l’analyse. Une faible homogénéité statistique est indirectement reliée au sens sociologique des classes : plus les réseaux familiaux sont larges (réseaux de grande taille), plus élevé est le nombre de termes présents dans un groupe de réseaux et plus il est difficile qu’ils convergent vers un groupe social ou parental facilement identifiable. Cela veut aussi dire que plus les réseaux sont larges et ouverts, plus les classes obtenues se frôlent et se touchent parce que des individus sont proches mais diversement répartis dans des classes.

La question est alors de savoir si ces remarques rendent impertinentes et l’approche configurationnelle et les procédures de classifications utilisées. La réponse est certainement négative. D’abord pour l’approche configurationnelle, elle reste parfaitement adaptée dès lors qu’on reconnait et constate que les individus tissent différemment leurs réseaux de relations et que ceux-ci n’ont certainement pas la même composition. C’est d’ailleurs ce que nous montrent les données de cette enquête avec la floraison de termes rares ou peu cités diversement répartis dans les réseaux individuels.

Le fait que ces termes soient cités est en soi à contextualiser : les enquêtes similaires en Europe n’en donnent ni les mêmes ni le nombre parce que les réseaux familiaux ont en moyenne des tailles plus réduites. Par ailleurs, lorsqu’on compare les classes obtenues avec les types de famille selon l’approche classique (voir chapitre suivant), il n’y a pas une correspondance parfaite entre eux, ce qui confirme la thèse du non-universalisme de la définition, délimitation et caractérisation de l’entité familiale. Ensuite pour la démarche utilisée, il est clair qu’il subsiste du « bruit statistique» malgré les techniques utilisées pour le réduire (voir plus haut) du fait du nombre important des termes rares ou peu cités. Ce fait est lié aux données et au contexte social communautariste de l’étude où le réseau familial est plus élargi et ouvert à l’entourage social. Pour autant,

les classes obtenues sont des groupes pertinents et sociologiquement interprétables selon leur composition comme en atteste leur description.

DESCRIPTION DES CONFIGURATIONS FAMILIALES

Dans le document Capital social, configurations familiales et statut d'activité en Afrique subsaharienne: quels liens et quelles implications économiques et sociales pour les femmes sénégalaises? (Page 87-93)