• Aucun résultat trouvé

Les méthodes d’analyse factorielle et les classifications

CHAPITRE 1 : METHODOLOGIE D’ENQUETE SUR LES

A. Les méthodes d’analyse factorielle et les classifications

Les analyses factorielles se situent dans le cadre plus vaste de l’analyse des données. Celle-ci comporte un grand nombre de méthodes dont l’objectif est de décrire, synthétiser, expliquer l’information contenue dans de vastes tableaux de données. Parmi les méthodes d’analyse utilisées en sciences sociales on pourrait citer les techniques d’analyse factorielle (Analyse en Composantes Principales normées – ACP ; Analyse des Correspondances simple ou multiple – AFC ; Analyse discriminante ; Analyse canonique ; Analyse en facteurs communs) ; les méthodes de segmentation, les méthodes de classification, l’analyse des proximités…

Les techniques d’analyse factorielle ont un objectif commun, celui de représenter de manière synthétique à l’aide de graphiques l’information contenue dans un tableau de données. L’objectif majeur de l’analyse de données est celui de réduire de manière considérable le volume de données disponibles de façon à le rapporter à un format assimilable pour l’interprétation. Il ne s’agit pas d’extraire des données au hasard mais de mettre en relief les faits et les relations les plus importants. Chaque technique tient compte de la nature des données et de la problématique traitée. Toutefois, le résultat graphique sera fonction du choix des variables et de leur pertinence

« aussi, en préalable, une réflexion approfondie sur la finalité de la recherche, sur les hypothèses à vérifier est impérative avant de faire le choix de la méthode, de variables qualitatives ou non, des unités territoriales, du codage éventuel à réaliser. La qualité des résultats, leurs pertinences dépend de cette phase préliminaire qui permet, et c’est aussi son rôle, de préciser les hypothèses de départ, d’affiner le projet, de réfléchir au cadre conceptuel de l’étude » (CIATTONI, VEYRET, 2003, p. 151).

Les analyses statistiques que l’on peut faire se distinguent selon trois critères notamment l’échelle de mesure de la variable, la nature de la variable et le type de données (ANDREFF, 1993).

Les analyses factorielles couramment utilisées par les géographes sont l’ACP et l’AFC. Celles-ci diffèrent l’une de l’autre et ne sont pas interchangeables, elles dépendent fondamentalement de la structure du tableau des données ou plutôt des données du tableau. Toutefois, le résultat géographique sera fonction du choix des variables et de leur pertinence. L’échelle de mesure, en l’occurrence, nominale, est déterminante dans le choix des méthodes statistiques appropriées pour le traitement des données. Les seules opérations que l’on puisse effectuer sur des variables nominales sont fondées sur la relation d’équivalence : comptage des éléments par classe, mode, établissement de tableaux de contingence (EVRARD et al., 1993).

L’analyse des données fait appel à des instruments de statistique descriptive ; instruments dont on attend qu’ils aient une efficacité pratique. En outre, « l’analyse des données s’applique à des résultats statistiques bruts, dont elle vise à faciliter le maniement ; elle se situe immédiatement en aval de la production de ces résultats, et immédiatement en amont de leur présentation littéraire qu’elle prépare, des raisonnements probabilistes (notamment économétriques) que l’on peut effectuer sur eux et des études proprement économiques, sociologiques ou autres qu’ils peuvent nourrir (VOLLE, 1985). L’analyse des données est divisée en deux parties : les méthodes d’analyse factorielle et les méthodes de classification automatique. L’analyse des données implique que l’on consente à perdre des informations afin d’obtenir un gain en signification. L’information brute est difficile à interpréter comme telle, parce qu’elle contient une masse d’information dense.

1. Les méthodes d’analyse factorielle

Elles sont diverses et variées. Toutefois, chacune d’elles a une fonction bien spécifique. Le choix d’une méthode dépend entièrement de ce que l’on veut mettre en valeur. Dans le cadre de ce travail, nous emploierons les analyses bivariée, multivariée (méthodes descriptives) et les analyses de variance (méthodes explicatives). L’objectif est de réduire la dimensionnalité de l’espace à p dimensions des variables et d’étudier les relations entre les individus.

1.1Statistique descriptive à deux dimensions ou analyse bivariée

Les tris à plat ne nous permettent pas d’obtenir des relations entre variables, aussi allons-nous aller plus loin dans l’analyse de ces variables et de ce fait procéder à la statistique descriptive à deux dimensions encore appelée tri croisé, c’est-à-dire à l’analyse par paires de variables statistiques afin de repérer les relations éventuelles que ces variables peuvent entretenir entre elles. Le résumé de l’information contenue dans une paire de variables statistiques est le tableau de contingence. Rappelons que les tableaux à double entrée qui

représentent les séries statistiques à deux variables, prennent le nom de tableaux de contingence ou tableaux de corrélations. La première appellation n’est retenue que dans le cas de deux variables qualitatives et la deuxième pour ce qui est des variables quantitatives. On en distingue deux : le tableau de contingence en effectif et le tableau de contingence en fréquence.

La statistique descriptive a ceci de particulier d’être facilement compréhensible par un utilisateur même béotien dans l’analyse statistique, le désavantage se situe dans le fait que chaque analyse ne représente qu’une faible partie de l’information disponible, par ailleurs le nombre de combinaisons possibles, c’est-à-dire les analyses à effectuer, est très élevé d’autant plus que le nombre de variables est important. Même s’il n’est pas possible d’étudier toutes les combinaisons, il est une évidence, c’est que cette analyse « parcellise » l’information.

Il s’agit de mettre en évidence l’existence d’une association entre deux variables. Toutefois, il faut garder à l’esprit qu’il existe des limites à l’interprétation de l’existence d’une liaison statistique entre deux variables. Le fait que deux variables soient associées ne signifie pas nécessairement qu’elles aient une relation de causalité.

La signification de cette analyse peut être certifiée par le test du Chi-deux. Il s’agit de comparer la distribution que l’on a observée sur un échantillon à distribution théorique correspondant à l’hypothèse que l’on veut soumettre au test. Le test du Chi-deux permet de tester l’indépendance des variables dans un tableau de contingence. Toutefois, il ne constitue pas un indicateur commode de la force de l’association entre deux variables, car il n’est pas normé, de ce fait il ne permet pas de comparer un cas à un autre.

Dès lors que l’on veut mener une étude complexe, il s’avère insuffisant de ne prendre en compte qu’un seul caractère ; de ce fait, il faut recourir simultanément à deux voire plusieurs variables.

Les tableaux de contingence peuvent croiser deux variables qualitatives, deux variables quantitatives ou une variable qualitative et une variable quantitative. Seuls les tableaux de contingence de variables qualitatives seront traités dans le cadre de notre analyse.

1.2Statistique descriptive multidimensionnelle ou multivariée

Nous avons présenté les méthodes les plus usuelles du traitement de données à savoir les analyses univariée et bivariée. Celles-ci présentent des limites liées au caractère combinatoire des analyses éventuelles dès lors que le nombre de variables augmente. C’est la raison pour laquelle l’on a recours à l’analyse multivariée qui permet de traiter simultanément un ensemble de variables.

Il existe trois types d’analyse multivariées : les méthodes descriptives qui servent à résumer un groupe de variables (analyse factorielle, typologie, analyse des correspondances, analyse multidimensionnelle des similarités), les méthodes explicatives qui étudient les relations entre groupes de variables (régression, analyse de variance, analyse discriminante, analyse conjointe) et les méthodes avancées (analyse canonique, modèles probabilistes : logit et probit, modèles log-linéaires, modèles de causalité : analyse des structures de covariance).

L’objectif général commun de ces techniques d’analyse factorielle est de synthétiser à l’aide de graphiques l’information contenue dans un tableau de données. Ces méthodes d’analyse de données, descriptives et explicatives, peuvent être classées selon un certain nombre de critères notamment leurs propriétés ou caractéristiques mathématiques et, leurs domaines d’application. Trois critères fondamentaux vont jouer un rôle dans la classification de ces méthodes à savoir : la partition ou non de la matrice des données, les types et le nombre de variables traitées.

Seules les méthodes descriptives et explicatives seront employées dans le cadre de ce travail.

Les critères fondamentaux qui sont au nombre de trois vont peser dans la classification de ces méthodes : - La partition ou non de la matrice des données. C’est un des critères les plus importants. C’est à partir

de lui que s’établit la différence entre les méthodes descriptives et les méthodes explicatives. Les premières tiennent compte de l’ensemble des variables et tentent de décrire de manière synthétique la structure des données disponibles. Les secondes s’effectuent sur une partition de la matrice des données. En outre, elles étudient les liaisons qui peuvent exister entre deux sous-ensembles de variables « les variables à expliquer dont on cherche à expliquer les variations ; les variables explicatives (appelées parfois aussi prédictives, en raison des applications fréquentes de certaines méthodes de ce type, comme la régression, à la prévision) qui contribuent à cette explication » (EVRARD et al., 2003) ;

Ce critère offre la possibilité à l’utilisateur confronté à un problème de traitement de poursuivre deux objectifs. D’une part, il s’agit de structurer un phénomène pour mieux l’appréhender et, d’autre part, étudier les liaisons qui peuvent exister entre deux phénomènes.

- Le type de variables traitées. Dans le cadre de notre analyse, il s’agit majoritairement de variables

nominales ;

- Le nombre de variables traitées. Pour ce qui est des méthodes descriptives, le nombre de variables

traitées a partie liée avec le logiciel de traitement de données. 1.3L’analyse factorielle de correspondance (AFC)

À l’origine, l’AFC a été conçue pour étudier des tableaux appelés couramment tableaux de contingence. Il s’agit de tableaux d’effectifs que l’on obtient en croisant les modalités de deux variables qualitatives définies sur une même population de n individus. À présent, on l’applique également sur des tableaux autres que de contingence. Le tableau de contingence se présente toujours sous la forme de pourcentages par rapport aux lignes ou aux colonnes, et le commentaire est fonction des aspects que l’on cherche à mettre en évidence. Ce n’est pas le tableau d’effectifs bruts qui nous intéresse mais les tableaux des profils lignes et les tableaux des profils colonnes, c’est-à-dire les répartitions en pourcentage à l’intérieur d’une ligne ou d’une colonne. En AFC, la ressemblance entre deux lignes ou entre deux colonnes se définit par une distance entre leurs profils connue sous le nom de distance du Chi-deux.

Il faut rappeler que l’AFC, comme toute analyse factorielle, a pour but de réduire la dimension des données en conservant le plus d’information possible, en vue d’un traitement statistique ultérieur (classification, régression, analyse discriminante…)

Le reproche qui est très souvent fait aux méthodes d’analyse factorielle et en particulier à l’AFC, c’est de ne donner comme résultats que des indications triviales, qui auraient été évidentes même sans procéder à l’analyse.

Lorsque l’analyse factorielle des correspondances (AFC) porte sur plus de deux variables, on parle d’analyse des correspondances multiples (ACM).

L’analyse factorielle des correspondances est particulièrement adaptée à l’étude des tableaux de contingence à laquelle elle fournit un outil puissant. Cependant « il ne suffit pas d’avoir introduit un tableau de données dans l’ordinateur, puis d’avoir fait traiter ce tableau par le programme de calcul de l’AFC, et enfin d’avoir recueilli sur des listings les graphes et les tableaux résultant de ces calculs pour pouvoir dire – comme cela s’entend parfois – que l’on a « fait une analyse des correspondances » (VOLLE, 1985). Le plus dur qui reste à faire est l’interprétation des résultats, étape bien plus délicate que les calculs en eux-mêmes qui sont effectués par des logiciels de plus en plus performants.

La question qui se pose à l’analyste est celle du nombre d’axes à retenir pour l’interprétation des résultats. Il n’y a pas de méthode type, pour la plupart, il s’agit de règles empiriques. On pourrait citer :

- Les règles fondées sur la restitution minimale. L’on se fixe à l’avance un seuil correspondant au

pourcentage minimum de variance que l’on peut restituer et l’on retiendra le nombre d’axes nécessaires pour atteindre ce seuil. Il est très souvent proche de 1. Signalons que le pourcentage de variance dans le cas spécifique de l’AFC qui sert de base à la sélection des axes factoriels est le pourcentage de la relation entre les deux ensembles I et J (ensemble de données) « si les deux ensembles sont fortement liés, ce pourcentage est significatif ; si les deux ensembles sont faiblement liés, on peut aboutir à un axe qui, à la limite, explique une forte proportion d’une faible liaison » (EVRARD et al., 2003). Il est recommandé de vérifier cette liaison au préalable.

- Les règles fondées sur l’information restituée par chaque facteur. L’on peut procéder de deux

façons soit en examinant les valeurs propres, soit en examinant la courbe desdites valeurs.

L’AFC analyse les écarts des profils à leur moyenne et, pour ce faire, il est indispensable avant toute interprétation de l’AFC, de commenter les deux profils marginaux. Dès lors, il est possible d’interpréter les axes, qui sont les directions principales d’écart au profil moyen (BRY, 1995). Il est très important de pouvoir interpréter les axes factoriels « en effet, ces variables composites peuvent être considérées comme des « dimensions latentes » du problème ; les décrire revient à pouvoir comprendre les dimensions fondamentales du phénomène étudié. Pour interpréter les facteurs, il est nécessaire de revenir aux variables initiales. Pour déterminer l’importance des variables initiales dans la formation des facteurs nous disposons d’indicateurs qui sont les coefficients de corrélation entre les variables initiales et les facteurs retenus » (EVRARD et al., 2003).

L’interprétation des résultats peut se faire à l’aide de tableaux de chiffres ou à partir de projections graphiques si le nombre d’axes est faible, 2 ou 3 en général.

Il existe trois types de représentations :

- Projection du nuage N (I) par rapport à ses axes factoriels,

- Projection du nuage N (J) par rapport à ses axes factoriels,

Ces deux projections permettent de visualiser les proximités des éléments de I ou de J et, par conséquent, d’obtenir parmi ces éléments ceux dont les profils sont voisins.

- Projection simultanée des ensembles I et J. Ce type de projection permettrait de déterminer les

relations privilégiées quand celles-ci existeraient entre certains éléments de I et de J. Soulignons que « ce qui est interprétable dans la projection conjointe est la structure comparée des deux nuages (leurs positions par rapport aux axes) et non les proximités directes de deux points appartenant à deux ensembles différents (qui dépendent du mode de projection adopté » (Idem).

L’AFC constitue un des outils les plus puissants pour le dépouillement des enquêtes. Les représentations graphiques constituent les résultats les plus significatifs mais leur dépouillement ne peut se faire sans précaution.

1.4L’analyse des correspondances multiples (ACM)

Elle est sans doute la méthode la plus féconde de l’analyse des données. Elle s’adapte bien à l’exploitation des données notamment lorsque toutes les variables sont qualitatives : « l’analyse des correspondances multiples permet l’analyse d’un tableau individus x variables lorsque les variables sont nominales » (TENENHAUS, 1996), ou que l’on a transformé les variables quantitatives en variables qualitatives ordinales.

La démarche préalable consiste à séparer en deux parties les caractères actifs et les caractères passifs : « dans un questionnaire, les caractères actifs sont en général ceux qui décrivent plus ou moins objectivement un individu (profession, âge, sexe…), les caractères passifs correspondent aux questions constituant le sujet même de l’enquête (« Avez-vous regardé un film ? ») que l’on veut relier aux questions du premier groupe mais pas nécessairement entre elles » (BOUROCHE, SAPORTA, 2002).

Les avantages de cette analyse sont indéniables. L’analyse porte sur une partie du tableau des réponses et non sur la totalité ; dans le cas d’une grande enquête, on observe un gain de temps en termes de calcul. En outre, il est possible de ne prendre en compte que quelques variables relatives à un aspect particulier, l’on fait apparaître des liaisons satisfaisantes entre caractères étudiés et caractères descriptifs bien plus rapidement qu’en feuilletant attentivement les tableaux croisés.

1.5L’analyse en composantes principales (ACP)

L’ACP est une technique de description statistique qui permet de révéler les similitudes et les différences entre individus d’une part et, d’autre part, les liaisons entre les variables. C’est un outil exploratoire qui permet de visualiser et de découvrir les phénomènes tels qu’ils sont décrits par les données. C’est également un outil de

réduction de la dimensionnalité d’un ensemble de variables continues en vue d’analyses ultérieures à l’instar de la classification, de la discrimination ou de la régression.

2. Les méthodes de classification automatique : les analyses typologiques

La typologie est une méthode descriptive, elle consiste à former des groupes homogènes ou différenciés à partir d’un ensemble d’éléments. Cette préoccupation des chercheurs visant à classifier les éléments s’identifie par un terme générique, la taxinomie. La typologie est une catégorie de la taxinomie.

La typologie n’est pas unique, on ne parle pas d’une typologie mais des typologies qui peuvent être établies à partir du même ensemble d’objets, en utilisant des techniques voire des paramètres différents au sein du même algorithme.

La classification peut être intuitive ou subjective, sans faire appel au calcul statistique ou algébrique. C’est une classification non formalisée résultant d’une analyse visuelle des graphiques d’une analyse factorielle. Il se peut qu’à la lecture de ceux-ci l’on fasse ressortir des groupes de points relativement distincts.

Notre typologie s’appuiera sur un certain nombre de variables pertinentes, eu égard au problème posé, qui serviront à caractériser les groupes issus de l’analyse. Il est possible de constituer des groupes en fonction de la similarité ou de la dissemblance. La visualisation des données sous forme d’un nuage de n points dans un espace à p dimensions va probablement nous permettre d’observer une homogénéité ou une hétérogénéité de points. Dans l’hypothèse d’une homogénéité, il va de soi qu’entreprendre une analyse typologique sera peine perdue. Seule l’hypothèse de l’hétérogénéité poussera le chercheur à entreprendre ce type d’analyse.

Le choix de la méthode nécessite une certaine rigueur. Il s’agit de la proximité en termes de distance euclidienne (variables quantitatives) et en termes de similarité (variables qualitatives) entre des éléments. Il importe de définir un indice de similarité « et / ou de dissimilarité » (BIALÈS, 1988) histoire de déterminer la distance entre deux individus en fonction des variables que l’on aura choisies.

On distingue une grande variété de méthodes de typologie parmi lesquelles les méthodes hiérarchiques ou non hiérarchiques :

- Les méthodes hiérarchiques. Il s’agit de construire un arbre de classification encore appelée

dendrogramme qui illustre le passage des n individus à l’ensemble du groupe selon une succession de regroupements ou de division ;

- Les méthodes non hiérarchiques : elles « visent à construire k groupes (k étant un nombre spécifié par

l’analyste au début du calcul) à partir des n individus de départ, sur la base d’une procédure, généralement itérative, d’allocation utilisant un indice mesurant la « qualité » globale de la classification ; ces méthodes sont parfois appelées nodales » (EVRARD et al., 2003). Ces méthodes sont pour la plupart heuristiques, « c’est-à-dire qu’elles permettent de trouver une « bonne » solution sans que l’on puisse démontrer qu’il s’agit de la meilleure solution possible » (Idem). En d’autres

termes « ces méthodes permettent d’atteindre un optimum partiel – et partial si l’on peut dire – et non pas l’optimum global : elles aboutissent en effet à la meilleure partition que l’on peut réaliser mais en fonction de la partition initiale, qui est le plus souvent totalement arbitraire » (BIALÈS, op. cit., 1988).

Les méthodes hiérarchiques sont utilisées sur un faible nombre d’individus statistiques à classer et les méthodes non hiérarchiques quant à elles s’appliquent sur un nombre élevé d’individus statistiques à classer. Cette dernière méthode est celle que l’on emploie pour classer les personnes enquêtées notamment lors des études d’attitudes et de comportements.

B.

Les tests d’hypothèses non paramétriques et analyse de

Documents relatifs