La structure des variables secondaires - Examiner la perception d’un changement des stratégies

5 Examiner la perception d’un changement des stratégies d’évaluation de la qualité de l’in

5.1.2 La structure des variables secondaires

A partir du "corpus" de données, centralisé dans le tableau de synthèse, une série de variables secondaires ont pu être calculées. Elles sont "secondaires” en ce sens qu’elles n’ont pas été collec tées directement à l’aide du questionnaire mais construites a posteriori à des fins d’analyse. Les variables de type ordinal comme celles-ci peuvent être exploitées par l’analyses des distributions de fréquences de leurs modalités. Goncrètement, cela consiste à mettre en évidence le "nombre

2. Pour faciliter la compréhension de cette explication, rillusiralion du tableau de synthèse présente les réponses sous forme de signes et non de codes.

3. Les répondants sont identifiés par "REP” suivi d’une numérotation de 1 à 53. L’objectif est ici d'assurer l’anonymat des participants. Néanmoins, cette Identification est identique tout au long de l’exploitation des données de la phase 1.

CHAPITRE 5. Examiner la perœption d'un changement des stratégies d’évaluation de la qualité de l'information

de fois" qu’une modalité apparaît pour une unité statistique — un individu de l’échantillon — ou pour une catégorie plus large de données. Albarallo et al. expliquent que pour une variable consi dérée, une distribution de fréquences présente les nombres d’individus — les effectifs — comptés pour chaque modalité de cette variable [4, p.62).

Dans le cas qui nous occupe, l’enjeu est de pouvoir réduire le nombre de variables à considérer pour une analyse plus précise. Sur base du principe de la distribution de fréquences, les variables secondaires sont calculées en comptant les occurrences des modEdités. Ce premier ensemble de variables secondaires a donc consisté, pour chaque observation, en le dénombrement des occur rences de chaque modalité, pour l’ensemble des 360 variables. Les variables secondaires qui en ont découlé ont été nommées FREQ_=, FREQ_< et FREQ_>. Ces variables enrichissent le corpus de données de la manière suivante :

- FREQ_= indique pour, chaque répondant, le nombre d’occurrences de la modalité "tout aussi important" dans les 360 variables.

- FREQ_< indique pour, chaque répondant, le nombre d’occurrences de la modalité "moins important" dans les 360 variables.

- FREQ_> indique pour, chaque répondant, le nombre d’occurrences de la modalité "plus important" dans les 360 variables.

Sur base du même procédé, des variables secondaires supplémentaires ont été calculées en agrégeant le dénombrement de chaque modalité par genre et par attribut. Pour calculer les va riables à partir de la distribution de fréquences dans les genres — BLOG, WIKI, POD, FS, SN — seules les variables liées à un genre sont incluses dans l’opération de dénombrement. Ainsi, par exemple, les variables secondaires telles que FREQ_=_BLOG, FREQ_<_BLOG and FREQ_>_BLOG sont calculées à partir de l’effectif de chaque modalité pour les variables du questionnaire qui croisent les critères de la liste de Cooke avec le genre blog. '* Dans cet exemple, le calcul est fait à partir de toutes les variables ordinales qui contiennent "BLOG_".Cette méthode de calcul a été appliquée systématiquement aux cinq genres du questionnaire, fournissant ainsi un total de 15 variables métriques supplémentaires au corpus ( 5 genres x 3 modalités). Ce qui est d’autant plus intéressant c’est que les valeurs sont directement comparables. En effet, elles se réfèrent au même ensemble de variables primaires et le dispositif a été conçu de manière à permettre la comparaison entre elles.

Pour calculer les variables de la distribution de fréquences dans les attributs —OBJ, COV, AUX, ACC, CUR, ACCESS, PRES, EASE, COMP — le calcul n’a pris en compte que les variables issues de ces catégories de critères. Les variables secondaires FREQ_=_OBJ, FREQ_<_OBJ et FREQ_>_OBJ sont calculées à partir du nombre de chaque modalité pour les trois critères qui constituent cet attribut dans la liste de Cooke. Dans la mesure où l’attribut est représenté par un numéro de 1 à '9Xlans'l’étiquette-des'données primaires,-dans-rexemple de l’attribut-objectif,-le dénombrement-

se fait sur toutes les variables qui contiennent — BLOG_1_01, BLOG_1_02, BLOG_1_03 mais aussi, W1K1_1_01, W1K1_1_02, et ainsi de suite. Cette méthode de calcul a été appliquée systémati quement aux neuf attributs du questionnaire, fournissant ainsi un total de 27 variables métriques supplémentaires. A la différence des distributions de fréquences par genres, qui sont calculées à partir d’un nombre identique de variables primaires, les distributions de fréquences des attri buts ne sont pas comparables sans une transformation supplémentaire. Cette spécificité devra être prise en considération dans l’exploitation de ces variables. L’ensemble des variables secon daires calculées est repris dans le tableau 5.1.

Ces variables secondaires sont des variables métriques, en ce sens qu’elles ont "une nature quantitative, dont les modalités correspondent à des nombres réels" [4, p.37] : le nombre d’oc currence d’une modalité dans un ensemble de variables considéré. Cette caractéristique est très utile pour compléter le corpus de données car elles peuvent dès lors faire l’objet d’un traitement

4. Puisque la liste de Cooke comporte 72 critères qui ont reçu une des trois modalités, ce n’est plus une distribution

5.1 Explorer les données de la phase 1

Table 5.1 - Récapitulatif des variables secondaires ALL FREQ_= FREQ_< FREQ_>

Genre FREQ_=_BLOG FREQ_=_WIKI FREQ_=_POD FREQ_=_FS FREQ_=_SN FREQ_<_BLOG FREQ_<_WIK1 FREQ_<_POD FREQ_<_FS FREQ_<_SN FREQ_>_BLOG FREQ_>_WIKI FREQ_>_POD FREQ_>_FS FREQ_>_SN Attributs FREQ_=_OBJ FREQ_=_COV FREQ_=_AUT FREQ_=_ACC FREQ_=_CUR FREQ_=_ACCESS FREQ_=_PRES FREQ_=_EASE FREQ_=_COMP FREQ_<_OBJ FREQ_<_COV FREQ_<_AUT FREQ_<_ACC FREQ_<_CUR FREQ_<_ACCESS FREQ_<_PRES FREQ_<_EASE FREQ_<_COMP FREQ_>_OBJ FREQ_>_COV FREQ_>_AUT FREQ_>_ACC FREQ_>_CUR FREQ_>_ACCESS FREQ_>_PRES FREQ_>_EASE FREQ_>_COMP

mathématique comme le calcul de leur somme, de leur moyenne ou encore de leurs proportions (pourcentage) par exemple. Cette exploitation des données primaires est nécessaire pour pouvoir mobiliser des méthodes telles que les mesures de la tendance centrcüe et de dispersion. La struc ture des variables permet une série d'analyses sur les distributions de fréquence mais la déclinai son de ces distributions en trois variables distinctes rend la tâche d'analyse relativement limitée. 11 semble donc judicieux de mettre au point une méthode pour calculer des variables secondaires supplémentaires qui permettent pour chaque niveau d'analyse — l'ensemble, les gemes, les attri buts — de disposer d'une valeur unique. Pour ce faire, des "scores" peuvent être calculés.

Chaque modalité a été codée à l'aide de la suite arbitraire "1,2 et 4", pour représenter respec tivement les étiquettes de variables "=, < et >". Rappelons que "1" correspond à la réponse "tout aussi important", 2 à la réponse "moins important" et 4 à la réponse "plus important", où l'im portance en question est jugée en comparaison entre le répertoire des genres typiques du Web 2.0 et celui des genres classiques de sources en ligne. Ce codage qui, a priori, n'a pas de valeur chif frée, peut être utilisé pour calculer des scores. Les scores en question sont obtenus par la simple addition des valeurs, momentanément détournées de leur caractère ordinal. Cette proposition de calcul de scores nécessite une mise au point détaillée afin qu'elle soit bien comprise et que ces limites soient clairement indiquées. Le risque est d'autant plus important qu'il s'agit ici d'une ap plication détournée des méthodes classiques d'analyse statistique.

Le codage doit aider à mettre en évidence les variables qui ont pris une importance crois sante. Cette nécessité a conduit au choix d'utiliser les valeurs 1, 2 et 4 (plutôt que, par exemple, 1, 2 et 3) pour coder les modalités. Ce choix répond à deux contraintes pratiques. Le fait d'utiliser "4” plutôt que "3" permet d'éviter que des combinaisons différentes de réponses aboutissent à un score identique. En effet, dès lors que se multiplient les variables primaires à partir desquelles sont calculés les scores, le nombre de combinaisons différentes qui permettent d'atteindre un même score augmente. Or, si un répondant donne une combinaison de réponses comme "<", "<", ">" pour trois variables primaires qui seraient alors codées 2,2, 3, le score serait "7". Le problème, c'est que ce même score serait atteint avec la combinaison "<", qui serait codée 3, 3, 1. Entre ces deux répondants, on comprend bien que l'interprétation du score ne peut être considé rée comme identique. Le premier indiquerait de forts changements d'importance alors que l'autre signale une stabilité plutôt marquée d'importance. Ainsi, l'interprétation pourrait être faussée. A

CHAPITRE 5. Examiner la perception d’un changement des stratégies d'évaluation de la qualité de l'information

l’aide du codage 1, 2 et 4, les scores seraient respectivement "6" et ”10", ce qui évite le recouvre ment. En outre, dans la mesure où la question de recherche nécessite principalement de vérifier l’existence ou non d’un changement perçu, la modalité ”=" est codée 1. Ainsi, il sera plus facile, en constatant des scores élevés, de les interpréter comme des indicateurs d’une forte proportion de modalités de changement (">" ou

Pour illustrer le procédé, on peut prendre l’exemple du calcul du score que prendrait le genre BLOG, sur l’attribut des objectifs — OBJ. Cet attribut est décliné dans la liste de Cooke à l’aide de trois critères. Les variables sur base desquelles peut être calculé le score sont BLOG_1_01, BLOG_1_02 et BLOG_1_03. En répondant aux questions, un participant indique le niveau d’im portance relative qu’il accorde à ces trois critères pour le format blog en comparaison du niveau qu’il leur accorderait pour des genres classiques de sources en ligne, disons par exemple =, = et Ces trois réponses seront codées 2, 2 et 4. L’addition de ces modalités (2 -i- 2 -i- 4) momentané ment considérées comme métriques, permet d’obtenir un score de 8. Pour le répondant de notre exemple, cette astuce permet de savoir qu’un score de 8 représente, pour lui, une vue synthétique de l’attribut OBJ appliqué sur le genre BLOG. Ce score est étiqueté dans le tableau de variables secondaires selon la structure GENRE_N°ATTR1BUT, dans ce cas-ci, BLOG_l.

A ce stade de l’explication il est important de préciser que cette valeur n’a de sens qu’en com paraison avec les scores qui sont calculés à partir des mêmes variables primaires, par exemple BLOG_l entre les 53 cas étudiés. Du reste, la valeur relative de "8" est envisagée en fonction d’une échelle spécifique au score. Dès lors, le score de 8 doit être entendu comme situé sur une échelle fermée dont les valeurs possibles se situent entre 3 et 12. Le score minimal possible dans le cas de cet exemple est 3, et serait obtenu avec trois réponses indiquant que les critères de l’attribut OBJ sont "tout aussi importants” quand ils sont appliqués au genre BLOG. Le maximum est 12 et serait obtenu avec trois indications de la modalité "plus important". Et un répondant qui indi querait que les trois critères ne changent pas en importance attribuerait indirectement un score de 6, ce qui est en adéquation avec l’interprétation selon laquelle l’attribut objectif ne changerait pas en importance pour ces réponses. De même, un score inférieur indiquerait une perte d’im portance d’au moins un des trois critères, et un score supérieur à 6 une prise d’importance d’au moins un critère. Les niveaux sur cette échelle sont déterminés par les combinaisons possibles de modalités dans les réponses. Ceci est illustré par la figure 5.1. En outre, cette interprétation pour un cas d’étude peut être appliquée pour comparer les répondants à l’aide de scores uniques plutôt qu’avec trois variables de fréquences de modalités.

BLOG_1_03 BLOG_1_03 BLOG^t 03 SCORE

. 1 1 1 C om bi na is on s po s si bi es 3 comb 2 1 2 1 4 corn b 3 1 1 2 4 comb 4 1 2 2 5 comb 5 2 2 2 6 comb 6 2 4 2 8 comb 7 2 2 4 ₈ comb 8 2 4 4 10 comb 9 4 4 4 12

Figure 5.1 - Exemples de combinaisons de scores pour la variable BLOG_l

5.1 Explorer les données de la phase 1

Deux remarques capitales doivent être faites au sujet des scores à la lumière de cette illustra tion. D’une part, un tel calcul implique que l’échelle varie en fonction du nombre de variables impliquées. Puisque l’attribut OBJ compte trois critères, l'échelle est comprise entre 3 et 12. Mais l’attribut ACCESS, par exemple, en compte treize. Dans ce cas-là, l’échelle des scores sera com prise entre 13, si tous les critères reçoivent la réponse "tout aussi important" (codée 1), et 52. si tous les critères reçoivent la réponse "plus important", (codée 4). Seuls les scores des genres se ront directement comparables puisqu’ils sont calculés avec le même nombre de variables. Ainsi, le score BLOG_l peut être comparé directement avec le score W1K1_1. A l’inverse, le score BLOG_l ne peut être directement mis en perspective avec le score BLOG_2. Et les scores d’agrégation plus larges des attributs ne sont pas comparables entre eux pour les mêmes raisons. 11 faudra les indicer pour les comparer.

D’autre part, parmi les combinaisons possibles présentées dans le tableau de la figure 5.1, il y a des combinaisons différentes qui, une fois additionnées, atteignent le même score. Dans le cas de l’exemple donné, l’impact sur l’interprétation des scores est mineur mais quand les variables impliquées dans le calcul se multiplieront, le nombre de scores égaux obtenus par des combi naisons identiques sera plus grand, et avec lui le risque de mauvaise interprétation. Dans le cas présent, le recouvrement des scores est dû à la commutativité de l’addition. Le choix qui est fait consiste à dire qu’un répondant qui répondrait 1, 2, 1 juge un attribut de la même façon qu’un autre qui répondrait 1,1,2. En effet, les scores sont des agrégations de variables primaires et, dès lors, la commutation des combinaisons s’opère dans une même catégorie d’attribut; les critères étcmt une déclinaison de ce dernier. C’est pour cette raison que le calcul des scores fait l’objet d’une vérification ciblée, en calculant une série de scores avec deux modalités plutôt que trois (voir section 5.3.2, p. 181). Comme expliqué dans la conception du dispositif, l’introduction d’une échelle à trois modalités est prévue pour nuancer les réponses. Mais l’objectif initial commande de se concentrer sur les réponses ">" et "<" comme des indicateurs d’un changement et "=" comme un indicateur de "statu quo". L’échelle est alors ramenée à deux modalités, changement d’impor tance ou pas ; "=’’ et

Ainsi, une nouvelle série de variables secondaires a été créée. En plus du calcul de scores initiaux, un niveau plus large d’agrégation est permis par le calcul cumulatif de scores pour les genres, les attributs et le total des variables. En clair : dans un premier temps, un score a été calculé pour synthétiser les réponses des 9 attributs croisés avec chacun des genres Web 2.0. Les variables

ainsi calculées ont été étiquetées à la manière des exemples déjà évoqués : GENRE_N°ATTRIBL)T,

comme le montre cette illustration.

W1K1_1_01 -I-W1K1_1_02 + WIK1_1_03 = WIKI_1

Pour chacun de ces scores, les échelles respectives ont été identifiées en fonction du nombre de variables que chacun mobilise pour être calculé. Une nouvelle série de variables a été calculée pour attribuer un score aux cinq genres. Le calcul a consisté à faire la somme des neuf variables calculées pour chacun des genres :

BLOG_l + BLOG_2 -h... + BLOG_9 = BLOG_

Ici, la structure de l'étiquette de ces variables prend simplement la forme de GENRE_. De la même manière, un score a été calculé pour chaque attribut, à partir des scores. Encore une fois, l’identifiant du score des attributs est simplement ATTRIBUT_.

BLOG_l -I- WIKI_1 -I- POD_l + ES_1 -i- SN_1 = OBJ_

Enfin, à partir de la somme des scores des genres, une dernière variable a été calculée pour l’ensemble des variables primaires et est identifiée par ALL_.

CHAPITRE 5. Examiner la perception d'un changement des stratégies d’évaiuation de ia qualité de l'information

BLOG_ + WIKI_ + POD_ + FS_ + SN_ = ALL_

Au total, 15 nouvelles variables enrichissent le corpus de données de scores uniques. Parmi celles-ci, les plus utiles sont celles qui agrègent les données à un niveau général (ALLJ ou intermé diaire (genres et attributs). Sans négliger les problèmes de comparaison et le fait que ce procédé de calcul ne soit pas, à proprement parler, une manière habituelle d’utiliser les variables ordinales, la structure complète des variables secondaires qui complète les variables primaires permet désor mais de procéder à une lecture des résultats. Qu’il s’agisse des distributions de fréquences ou des scores, les données sont calculées pour chacune des 53 observations, qui correspondent aux 53 cas d’étude. Comme déjà évoqué à propos des fréquences, ces variables qui sont désormais métriques peuvent être mobilisées dans des méthodes simples de somme, de moyenne et de pourcentage. Il pourra également être utile d’indicer certains scores pour les rendre comparables.

Dans le document Disponible à / Available at permalink : (Page 178-183)