• Aucun résultat trouvé

Les recodages courants des données : transformation des variables

Partie I Problématique et état de l'art

1.4 Les recodages courants des données : transformation des variables

1.4.1 Recoder pour mieux coller à un modèle :

Selon les traitements de données envisagés, on peut avoir besoin de recoder les variables de base en de nouvelles variables plus adaptées. Cela arrive quand la distribution dière de celle souhaitée pour le traitement ultérieur, ou quand l'examen de leurs distributions de valeurs fait apparaître des anomalies par rapport à la distribution attendue. Nous développons les anomalies les plus importantes, qui sont l'existence de valeurs manquantes ou d'outliers (valeurs extrêmes). La présence de valeurs manquantes est souvent gênante dans certains traitements, et sa prise en compte dans les logiciels peut s'avérer désastreuse (ainsi des problèmes de lecture de chier entraînent des décalages de toutes les valeurs suivantes, ou la suppression de tous les objets ayant une valeur manquante pour une variable). Par exemple, dans le tableau 1.1 des réponses des 3 étudiants, la question Q3.b n'a fait l'objet de réponse que de la part de l'étudiant 3, car c'est le

seul à avoir répondu "oui" à la question Q3.a. Pour éviter toute mauvaise interprétation de cette

14f ∼ (r − ρ)−α, où f est la fréquence du mot de rang r, α est une "température informationnelle" généralement

supérieure à 1, ρ est une constante de "correction d'aplatissement" de la courbe f=fonction de r dans la zone des fortes fréquences, K une constante = somme de toutes les fréquences / somme de tous les termes (r − ρ)−α.

1.4. Les recodages courants des données : transformation des variables non-réponse, qui n'est pas un refus de réponse, mais un eet de la structure de la question, on peut décider d'un code de non-réponse, qui dière de celui du refus de réponse. Mais on peut aussi décider de recoder la question Q3.a et Q3.b en une seule variable contenant le nom du langage en

cas de réponse "oui", et la valeur "aucun" en cas de réponse "non". Une autre façon de corriger, plus automatique, consiste à aecter à l'objet n'ayant pas de valeur pour une variable une valeur "neutre" (par exemple la valeur la plus courante en cas de variable catégorielle, ou la médiane en cas de variable ordinale, ou la moyenne en cas de variable quantitative), ou même la valeur la plus "probable", c'est-à-dire "proche" de celles des objets ayant une valeur proche pour les autres variables15. Bien sûr cette correction des données (on parle même d'enrichissement des données)

peut avoir des conséquences gênantes sur les résultats ultérieurs du traitement si elle dière trop de la réalité. Par exemple, selon que les non-réponses sont l'indicateur de valeurs extrêmes que les personnes interrogées n'ont pas souhaité divulguer, ou au contraire de valeurs beaucoup plus courantes que celles attendues pour ces personnes au vu de leurs réponses aux autres questions, l'utilisation de tests statistiques basés sur des distributions normales, des calculs de moyennes, et de variance risquent de donner une conclusion "fausse" quand les valeurs manquantes ont été corrigées automatiquement.

En présence d'outliers, un retour au données brutes, s'il est possible, s'impose. Car il convient de s'assurer que ces données extrêmes ne sont pas dues à des erreurs de cotation, de mesure, ou tout simplement, de saisie. Dans ce cas, la donnée est corrigée par sa vraie valeur si on peut la retrouver, ou sinon transformée en donnée manquante, avec le problème que pose sa prise en compte. Dans le cas contraire, si la valeur est jugée correcte et qu'elle gène le traitement initialement prévu, c'est que la distribution de valeurs n'est pas celle attendue, auquel cas on peut essayer de changer la distribution de valeurs par recodage.

1.4.2 Recoder pour mieux coller à la sémantique des données :

A côté de ces problèmes courants pouvant nécessiter un recodage des données, d'autres plus spéciques aux données peuvent se poser. Par exemple, les questions Q2.aà Q2.eposent un autre

type de problème : on se doute bien que la proportion de temps n'est pas très réelle. Elle indique surtout une préférence pour certaines occupations. Si la personne traitant les données est plutôt intéressée par une ou deux occupations parmi les quatre proposées, on peut se contenter de re- coder seulement celles-ci en variables, en mettant une valeur d'intérêt, qualitative ou ordinale, pour l'occupation (par exemple 3 si elle est choisie en premier, 2 en second, 1 en troisième ou au-delà et 0 si elle n'a pas été choisie).

1.4.3 Diagramme des recodages possibles d'une variable

Ces recodages font partie du "nettoyage des données" qui représente plus de la moitié du travail en fouille de données [113] et qui ne peut se faire sans une connaissance approfondie du processus de collecte des données. De sa qualité dépend l'ecacité de la fouille. Une fois la variable choisie, on peut encore changer son type comme indiqué dans le schéma de la gure 1.3. Dans ce schéma les èches en traits pleins indiquent le changement d'un type à un autre et se justient aisément qu'elles soient à un même niveau ou dans le sens descendant.

1. numérique vers :

15Par exemple s'il manque le poids d'une personne dont on connaît le sexe, l'âge, la catégorie socioprofes-

sionnelle, on lui attribuera la moyenne des poids des personnes de même sexe, et d'âge comme de catégorie socio-professionnelle proche

Fig. 1.3  Les changements possibles entre types élémentaires de données

 numérique : standardisation 16, normalisation 17 pour obtenir une loi normale an de

simplier par exemple les calculs d'intervalles de conance.

 ordinale : l'étendue des valeurs est découpée selon des seuils donnés en plusieurs inter- valles consécutifs, puis on numérote les intervalles dans le sens des valeurs croissantes18

 catégorielle, dichotomique : on procède comme précédemment, mais au lieu de numéroter les intervalles, on leur donne un nom de catégorie.

2. ordinale vers :

 ordinale : on regroupe des échelons successifs an de garder l'ordre initial des valeurs  catégorielle : on oublie l'ordre

 dichotomique : par exemple on renomme les échelons intermédiaires d'une échelle médi- cale en "normaux" et on regroupe les autres (hypertendus, hypotendus) en "anormaux" 3. catégorielle vers catégorielle ou dichotomique

 regroupement de catégories (par exemple pour obtenir des eectifs plus importants res- pectant les conditions d'utilisation du test du Chi2)

Les èches sont plus problématiques pour le sens ascendant. Il y en a deux indiquées par des traits en pointillés :

1. du catégoriel vers l'ordinal : possible dans le cas des échelles de Guttman[55, 229], ce qui consiste à faire apparaître un ordre "par vote" (par exemple, si tous ceux qui préfèrent A à C et C à B préfèrent également A à B 19, l'ordre qui s'impose est A Â C Â B ),

16Se fait surtout pour les variables supposées suivre une loi normale. On centre en remplaçant chaque valeur

par son écart à la moyenne, puis on réduit en divisant par l'écart-type, la variable obtenue a pour moyenne 0 et pour écart-type 1.

17Se fait surtout quand on a une distribution étirée. Par exemple, si la proportion d'objets ayant leurs valeurs

comprises entre 0 et 5 est satisfaisante, et qu'elle est trop petite pour les intervalles à partir de 5, il sut de remplacer toutes les valeurs x au dessus de 5 par des valeurs plus petites, comme 5 + (x − 5)/2.

18Les seuils peuvent être choisis de diverses façons, notamment en fonction des habitudes des praticiens, comme

les stens ou les stanines [208] utilisés lors de la constuction des tests de psychologie, ou comme les échelles en trois points hypo/normal/hyper obtenus à l'issue d'analyses biologiques (tension par exemple).

19Il est rare que cela se passe vraiment ainsi, non seulement parce que la personne interrogée peut répondre

"n'importe comment", mais aussi parce que les comparaisons de A avec C, de C avec B et de A avec B peuvent se faire sur trois critères diérents, par exemple, on peut préférer une Vespa à une bicyclette parce que cela rend le déplacement moins fatiguant, la bicyclette à la voiture pour préserver l'environnement, et la voiture à la Vespa car elle permet d'emmener plus de passagers. Ces phénomènes sont au coeur de plusieurs paradoxes : paradoxe du tournoi, paradoxe de Condorcet ...

1.4. Les recodages courants des données : transformation des variables 2. de l'ordinal vers le numérique (on considère que les valeurs sont à peu près équidistantes, les écarts à cette norme étant considérés comme une des nombreuses causes de la variabilité courante)

Signalons la possibilité de transformer des données dichotomiques en données numériques selon un modèle plus complexe, qui est celui de la théorie de la réponse à l'item (IRT : Item Res- ponse Theory [112]), à condition qu'elles vérient les contraintes imposées par ce modèle de type probabiliste. Ce type de modèle connaît un engouement croissant depuis une dizaine d'années dans les domaines de sciences humaines utilisant des tests d'évaluation, comme l'édumétrie, la didactique. D'après D. Laveault et J. Grégoire [151], sa forme la plus courante est basée sur la le modèle de Rasch (1966) qui est, d'après Marc Demeuse [63], une version probabiliste du modèle de Guttman que nous venons d'exposer. L'utilisation de ce modèle très gourmande en ressources (nombre important de données, et capacité de traitement importante) est maintenant possible grâce à des logiciels disponibles sur Internet (comme QUEST de R.J. Adams et S.T. KHOO, 1993).

1.4.4 Recodage courant d'une variable en plusieurs

Dans la gure 1.4, on peut voir les codages les plus courants de la réponse à une question du genre "donnez votre opinion sur la déclaration suivante : il faut interdire toute circulation automobile dans les villes".

Fig. 1.4  Les codages d'une échelle de Likert en 5 points

En première colonne gure la réponse a proposée (case à cocher dans le questionnaire), puis deux codages quantitatifs équivalents de la réponse, par les variables a0 et a”, le premier étant

une traduction plus dèle du texte des réponses proposées que le second. Les suivants sont des codages binaires. Le codage en 5 variables notées de a1 à a5, appelé codage par dichotomi-

sation, transforme toute variable catégorielle en autant de variables dichotomiques qu'elle a de modalités. Si on se réfère à la variable a”, ai prend la valeur 1 si a” = i et la valeur 0 sinon.

C'est le codage le plus utilisé en fouille de données pour traduire de façon numérique une va- riable dichotomique, sans la transformer en véritable variable numérique toutefois. Les codages suivants sont plus rares et viennent parfois compléter ou remplacer le premier codage binaire. Les variables bi, pour i variant de 1 à 3 sont égales à 1 quand a” > i et à 0 sinon, elles per-

mettent de cumuler les opinions de personnes dans le sens de l'accord, les variables ci faisant

la même opération dans le sens contraire. La variable d permet de regrouper les opinions selon leur extrémalité, les valeurs "tout à fait contre" et "tout à fait pour" exprimant une conviction plus forte que les valeurs "plutôt contre" et "plutôt pour". Un codage prenant tous ces eets en compte revient à remplacer la variable ordinale de départ par 13 variables, et même par plus si on veut traduire aussi les négations des variables a2, a3 et a4 (celles des variables a1 et a5

sont déjà représentées par b1 et c5). L'avantage d'un tel codage est essentiellement de permettre

l'utilisation d'algorithmes simples sur ces variables pour exprimer des liaisons nes, mais il y a un inconvénient qui est celui de l'explosion combinatoire. Précisons que ce type de codage des

données préalable au traitement fait partie des traditions en analyse des données, le plus connu étant celui qui permet de transformer des données catégorielles an de les soumettre à une ana- lyse prévue pour des variables quantitatives (il s'agit de "l'analyse en composantes principales" qui devient, formellement,"l'analyse factorielle des correspondances" par un simple changement de métrique [19]) alors qu'en statistique inférentielle, la recherche de relations plus nes se fait plutôt au niveau du traitement, comme par exemple dans les calculs des contrastes du modèle linéaire [1, 236]).

Ce type de codage dichotomique d'une variable en plusieurs peut être étendu en partie à une variable quantitative, ou à une variable catégorielle. Pour la première, on la transforme d'abord en variable ordinale en choisissant plusieurs points de coupure qui pourront être des quantiles ou obtenus à partir des paramètres d'une loi de probabilité théorique (comme les stanines [208]), par connaissance experte (seuils d'hypertension, d'hypotension), ou empiriquement par observation des changements de pente de la courbe des fréquences cumulées des valeurs [50], puis on procède de la même façon qu'indiqué dans la gure. Les résultats s'expriment avec des intervalles (a1,

a5, les bi et ci), ou des réunions d'intervalles de valeurs (a2, a3, a4, d1 et d2).

Pour ce qui est des variables catégorielles, a priori seule la dichotomisation en variables ai

se pratique, les éventuels regroupements de modalités ayant lieu par connaissance experte du domaine des données, les modalités ne vériant a priori aucune relation d'ordre.