• Aucun résultat trouvé

Partie I Problématique et état de l'art

3.1 Les nouvelles approches descriptives

3.1.2 Les modèles de proximité : clustering, graphes . . . 75 3.1.3 Conclusion . . . 75 3.2 Les nouveaux tests de validation : Monte-Carlo, bootstrap, ja-

ckknife, permutation, randomisation. . . 76 3.2.1 Un modèle proche des données, versus des données proches d'un

modèle . . . 76 3.2.2 Les principes des diérents types de tests de simulation . . . 76 3.2.3 Les simulations de Monte-Carlo . . . 77 3.2.4 Bootstrap et jackknife . . . 79 3.2.5 Les tests de permutation et de randomisation . . . 80 3.2.6 Conclusion . . . 83 3.3 Les nouvelles méthodes de discrimination . . . 84 3.4 Les nouvelles méthodes d'investigation des données . . . 85 3.4.1 Les réseaux bayésiens . . . 85 3.4.2 L'extraction de motifs et de règles d'association . . . 90

3.1 Les nouvelles approches descriptives

3.1.1 La nombreuse descendance de l'analyse factorielle.

L'analyse factorielle (Spearman 1904 [219], Pearson 1901 [193]) et l'analyse en composantes principales (ACP Hotelling 1933 [125]) ont été conçues dans le premier tiers du 20ème siècle, mais sont restées connées à des applications de taille très limitée, principalement en psychologie, avant l'arrivée de l'informatique dans les années 1950 et 1960. Leur principe est simple :

 chaque vecteur-donnée x (individu, ou observation), à I dimensions, autant que de variables, est exprimé comme une somme pondérée de K (où K 6 I) "composantes" wk, appelées

aussi facteurs communs ; chaque composante traduit une variable "latente", cachée dans les données :

 x = Wy + e (analyse factorielle)  x = Wy (cas de l'ACP avec K=I)

où y est le vecteur des coordonnées factorielles (factor score) de l'individu x, W, la matrice formée par l'ensemble des vecteurs wk et e un vecteur bruit spécique de cet individu.

La conséquence qui nous intéresse ici est que l'eet de 2 (ou n) variables dont la forte va- leur simultanée aurait un eet diérent de la somme de leurs eets individuels c'est à dire de 2 (ou n) variables en interaction, n'est pas pris en compte, structurellement, dans ce modèle fondamentalement additif.

Il est à noter que l'interaction peut cependant être prise en compte en créant une grande quantité de nouvelles variables, à savoir toutes les combinaisons 2 à 2, 3 à 3, ... de toutes les variables d'origine, mais ceci poserait des problèmes de multiplication exponentielle de la taille des données, ou obligerait à utiliser, pour remplacer les produits scalaires, des fonctions noyaux polynomiales, comme le font les Support Vector Machines pour l'apprentissage supervisé [56], au prix de la perte de l'explicitation53 des combinaisons de variables intervenant dans telle ou

telle valeur factorielle d'individu. Cette perte est acceptable dans le domaine de l'apprentissage supervisé, dans le cadre d'une démarche d'ingénierie où seul le résultat compte, mais pas dans celui des sciences humaines où il est important d'expliciter au maximum le " pourquoi " des résultats trouvés.

Ce modèle est décliné sous de nombreuses formes, a eu et continue d'avoir une riche descen- dance au fur et à mesure que la puissance informatique disponible augmente.

- L'analyse en composantes principales est une méthode devenue standard dans de nom- breux domaines scientiques, où elle porte parfois des noms diérents (transformée de Karhunen- Loeve...). Le tableau de données X comporte I variables centrées et N observations, et la décom- position X = WD12Y, où D est la matrice diagonale des I valeurs propres obtenue à partir de la

décomposition spectrale de la matrice de variance-covariance des données 1

NXX0en composantes

orthonormales non-corrélées :

 XX' = WDW' (formule de reconstitution de la variance-covariance)  W = XYD1

2 (formule de transition)

On s'intéresse généralement aux éléments propres des k premiers rangs, qui donnent souvent lieu à des cartes représentant soit les individus, soit les variables, soit les deux, les autres éléments propres étant considérés représenter le "bruit" dans les données :

X = WkDkYk

53Eet diabolique du "kernel trick" qui permet à la fois la prise en compte de l'interaction dans les données à

3.1. Les nouvelles approches descriptives Une variante importante en est l'analyse factorielle des correspondances, qui utilise la métrique du Chi2 et permet d'analyser les tableaux de contingence.

- L'analyse sémantique latente (LSA, Latent Semantic Analysis) est utilisée dans le do- maine de la recherche d'information textuelle. Elle procède par décomposition aux valeurs singu- lières de la matrice (mots × textes) brute, en conservant le plus souvent les quelques centaines de composantes les plus importantes, qu'on ne cherche pas à interpréter, le but étant une réduction " technique " du nombre de dimensions et du bruit pour des calculs de distances entre textes et entre mots. Cette décomposition s'exprime de la même façon que l'ACP ci-dessus, sans la contrainte de centrage-réduction des variables.

- Les analyses factorielles sont utilisées principalement en psychologie et géologie. Après centrage et réduction des variables, le modèle général de décomposition est X = W Y + E où E est une matrice modélisant le bruit, W et Y les matrices formées d'éléments orthogonaux, à savoir les facteurs-variables (factor loadings) et les facteurs-individus (factor scores). De multiples variantes existent, selon le modèle de bruit utilisé et la méthode de détermination des facteurs [115, 124] - les facteurs étant indéterminés en règle générale, on a conçu diverses méthodes de rotation d'axes sur des critères variés (visuels, ou optimisant un critère tel que Varimax, Promax, ...[115] pour y parvenir. La contrainte d'orthogonalité des facteurs peut également être levée (rotations Oblimax), an de pointer librement vers les zones de densité élevée des données, et tendre au maximum vers l'idéal de la " structure simple " où les composantes des facteurs sont les plus " contrastées " possible - seules quelques valeurs ressortant par rapport à une grande majorité de valeurs négligeables.

- Les réseaux neuronaux non supervisés : ce formalisme recouvre une vaste famille d'algorithmes qui régissent l'évolution et l'interaction de " cellules " élémentaires dites neurones. Chaque neurone est caractérisé par un vecteur " poids synaptiques ", à raison d'un poids attribué à chaque " entrée " (= variable) ; la présentation à ce neurone d'un vecteur-individu entraîne une valeur de sortie, fonction croissante de l' " activité " du neurone (produit scalaire du vecteur- individu et du vecteur-poids) [g. 1], et une modication des poids, dite " apprentissage ".

Fig. 3.1  Fonctions de transfert de modèles neuronaux - diérentes formes de courbes, η'=f(η) (sortie η' en fonction de l'activité η)

Cet apprentissage est généralement de type Hebbien, c'est-à-dire qu'il consiste, pour un neu- rone isolé, sans contrainte, en une montée en gradient sur une fonction objectif, par exemple ici la somme, pour tous les vecteurs-individus, des carrés des sorties :

m(t + 1) = m(t) + αη' x,

où α est une constante petite, avec une normalisation périodique de m.

Les fonctions de transfert " sortie en fonction de l'activité " peuvent prendre diverses formes [gure 3.1] :

 fonction identité : on démontre [188] que le vecteur-poids converge alors vers le premier vecteur singulier de la matrice des données (fonction objectif : inertie = somme des η2).

 fonction à seuil, par exemple η0 =

½

η − η0 si η > η0

0 sinon , oùη0 est une valeur de seuil.

Cette fonction est présente dans le modèle Analyse en Composantes Locales [158, 159] (à fonction objectif : inertie locale = somme des η0

2). ; cf. aussi [189].

 fonction logistique (saturation) (cf. [136] pour la séparation aveugle de signaux]  etc.

De ce point de vue, la décomposition aux valeurs singulières peut être formalisée [203] comme un ensemble de neurones simples (sortie = activité) en interaction unidirectionnelle deux à deux (" inhibition " = empêcher l'apprentissage) selon une structure hiérarchisée de type :

 N1 inhibe tous les K-1 autres neurones,  N2 inhibe tous les autres neurones sauf N1,  N3 inhibe tous les autres neurones sauf N1 et N2  etc.

Des structures d'inhibition/excitation particulières (en grilles 2D à mailles carrées, triangu- laires,...) caractérisent le modèle très utilisé et étudié de Kohonen [144, 128], qui réalise ainsi simultanément l'apprentissage des données et la cartographie d'ensemble positionnant les neu- rones entre eux.

- La poursuite par projection (" projection-pursuit ") On recherche ici une ou plusieurs directions " intéressantes " sur lesquelles projeter le nuage de points, après centrage, réduction et " sphérage " des données par ACP (même variance unité dans toutes les directions). Une direction étant d'autant plus intéressante que la répartition des projections s'éloigne de la loi normale, on maximise un indice de non-gaussianité, par exemple la kurtosis (aplatissement) :

κ = E(η4) − 3, de valeur nulle pour une répartition de Gauss.

- L'analyse en composantes indépendantes (ICA, Independant Component Analysis) Il s'agit ici de reconstituer un modèle explicatif d'un ensemble d'observations d'individus (ou de mesures temporelles) par le mélange de K composantes latentes indépendantes. Dans le cas non-bruité, si X est la matrice des données centrées-réduites et sphérées comme ci-dessus, et si K=I (problème " cocktail-party " : autant de micros que de conversations à démêler) :

F = W X , où W est la matrice (K,I) de mélange des composantes indépendantes.

On estime alors A tel que X = A F par un algorithme itératif maximisant, pour l'ensemble des composantes, un indice de non-gaussianité, la kurtosis par exemple ; W est alors l'inverse de A, ou sa pseudo-inverse si A n'est pas de rang plein.

- D'autres approches, comme NNMF (Non-Negative Matrix Factorization, [155]) ou PLSA (Probabilistic Latent Semantic Analysis [122]) relâchent les contraintes de centrage-réduction des données, ou d'orthogonalité des composantes. Cette famille de méthodes débouche sur des modèles plus complexes explicitant par exemple un processus de choix de mots dans un ensemble de textes appartenant de façon oue à plusieurs thémes [35], où l'estimation des composantes se fait au moyen d'algorithmes de type EM (Expectation Maximization).

Les analyses factorielles étant fondées sur l'analyse des matrices de variance-covariance, elles reposent sur les seuls liens deux à deux entre variables. C'est la raison pour laquelle l'interaction, qui met en jeu par dénition des liaisons complexes entre plusieurs variables, ne peut pas être prise en compte directement pas ces méthodes, et de façon plus générale les relations complexes entre variables.

3.1. Les nouvelles approches descriptives

3.1.2 Les modèles de proximité : clustering, graphes

Les nombreuses méthodes de classication non-supervisées (ascendantes/descendantes hiérarchiques, à centres mobiles, oues...) sont toutes basées sur le calcul d'un indice de similarité entre individus pris deux à deux, ou entre individus et " individus idéal-types " dénissant chaque classe. Cet indice relève, dans la quasi-totalité des cas, du modèle additif (distance, ou produit scalaire entre vecteurs), et ne prend pas en compte l'interaction entre variables. L'utilisation de noyaux polynomiaux à la place de produits scalaires le permettrait, mais interdirait du même coup toute explicitation du contenu des classes en termes de variables, ce qui est précisément un des résultats préférés des utilisateurs de ces méthodes, pour lesquels il est souvent aussi important de connaître le pourquoi d'un groupement d'individus que le groupement lui-même.

D'autre part, une matrice de similarité (individus × individus) peut être construite à partir de toute dénition de la similarité, et traduite sous forme de graphe dont les noeuds sont les individus et les arêtes des fonctions des valeurs de similarité. De nombreuses méthodes permettent de calculer les propriétés globales d'un graphe, ou de le partitionner [30]. Mais dans le cas général ces techniques sont intrinsèquement incapables de prendre en compte les phénomènes d'interaction, sauf bien sûr à utiliser des fonctions noyaux, sans possibilité alors d'expliciter le contenu des liens.

3.1.3 Conclusion

Pour conclure cette section, on observera que malgré la prolifération de nombreuses formes du modèle factoriel additif, et l'existence de modèles de proximité variés, et même de formes non linéaires comme le "MDS" (Multidimensional Scaling [146], en français "échelonnement multidimensionnel" [229]) ces nouvelles approches descriptives, restent toutes limitées par leur non-prise en compte des phénomènes d'interaction entre les variables - ou du moins par leur non-explicitation quand elles sont l'objet d'extensions au moyen de méthodes à noyaux, tous inconvénients rédhibitoires pour les applications aux sciences humaines.

Les liaisons complexes sont étudiées à travers des modèles qui contiennent quelques variables, rarement plus de cinq, car les modèles statistiques permettant de le faire ne permettent pas mieux. En eet avec 5 variables à 2 modalités, on a déjà 25, soit 32 cas, et dans un modèle d'Anova, on

doit avoir pour chaque cas des variances égales, un nombre d'individus proche, des lois normales an de pouvoir conclure si les moyennes sont susamment diérentes pour que le test soit signicatif. Le problème est que si les eectifs sont importants, les diérences même petites ont tendance à devenir signicatives, comme le constate S. James Press54, alors que c'est l'inverse

si les eectifs sont petits. En d'autres termes ces tests ne sont pas utilisables autrement que sur des eectifs "raisonnables". On peut sélectionner ces variables par des procédures automatiques de choix mais on se heurte à un autre problème qui est celui des hypothèses multiples [131] en statistiques. Ce problème se rencontre aussi au niveau de l'interprétation quand il s'agit de comparer deux des 32 cas, ou plusieurs, ce qui s'appelle rechercher des contrastes. Ces modèles ne peuvent pas s'étendre aisément à une recherche exploratoire dans de grandes bases de données.

54dans [196] :  As a result, in Data Mining, likelihood ratio methods of hypothesis testing (for large samples),

and p-value signicance level testing (for large samples) will tend to make the tiniest eects appear to be signicant. Bayesian methods are preferable because they are more conservative in rejecting null hypothesis (Berger & Selke, 1987) 

3.2 Les nouveaux tests de validation : Monte-Carlo, bootstrap,