• Aucun résultat trouvé

Dans cette partie, certaines limites de ce travail sont mises en évidence. Il est nécessaire de les garder en tête lors de la lecture des résultats et de les prendre en compte pour des recherches ultérieures.

6.2.1 Nombre de participants

Les résultats de cette étude reposent sur un nombre restreint de participants (n=39) ce qui pose deux problèmes principaux. Le premier est lié à la puissance des tests et le second à la représentativité des réponses obtenues. Howell (2006/2008) dénit la puissance de la manière suivante :

La puissance est un "concept qui se dénit comme la probabilité de rejeter à juste titre

une hypothèse nulle erronée lorsqu'une hypothèse alternative particulière est vraie [...].

Une expérience plus puissante est une expérience qui a de meilleures chances de rejeter une hypothèse nulle erronée qu'une expérience moins puissante [...]. Comme on pourrait s'y attendre, la puissance est fonction de plusieurs variables. Elle est fonction de (1)α, la probabilité de commettre une erreur de type I, (2) l'hypothèse alternative réelle (H1), (3) la taille de l'échantillon et (4) le test spécique à utiliser [...]" (pp.218-219).

Lorsque l'échantillon est plus petit, il y a plus de risque de ne pas trouver un eet qui existe en réalité dans la population. Néanmoins, Howell précise qu'il "est toutefois impor-tant de garder à l'esprit que lorsque les postulats qui sous-tendent un test sont violés, les tests non-paramétriques [...], et en particulier les tests de ré-échantillonnage, sont parfois plus puissants" (p.219). Pour avoir une puissance de .807, la taille de l'échantillon devrait être au minimum d'environ 20 pour les corrélations bisérielles de point et d'environ 40 pour des comparaisons de moyennes pour autant que les eets étudiés soient forts8. S'ils sont faibles, il faudrait plutôt un échantillon de l'ordre de 600 à 800 personnes. Pratique-ment, cela implique qu'il y a un certain nombre d'eets existants qui n'ont probablement pas été mis en évidence par cette recherche.

Le deuxième point problématique est la représentativité des échantillons. Que ce soit pour les enseignants ou les étudiants, ils ne sont clairement pas représentatifs des popu-lations desquelles ils sont extraits (ex. surreprésentation de femmes et de personnes qui disent avoir été victime de harcèlement durant leur scolarité). Le problème n'est pas dans la procédure de recrutement, puisque la totalité de la population concernée a pu avoir accès aux questionnaires de recherche. Mais, d'une part, seules les personnes intéressées par le sujet ont commencé à répondre aux questionnaires (enseignants : n=56 ; étudiants : n=69) et, d'autre part, seule une minorité d'entre elles sont allées jusqu'au bout (ensei-gnants : n=13 ; étudiants : n=26). Certains auteurs relèvent la participation volontaire à une étude comme un biais de sélection potentiel (Alsaker, 2004 ; Kochenderfer-Ladd &

Pelletier, 2008). Cela implique qu'il n'est pas évident de savoir dans quelle mesure les résultats mis en évidence peuvent être généralisés.

Pour conrmer les résultats obtenus et aller plus loin sur certains des points abordés, une nouvelle étude avec beaucoup plus de participants est nécessaire. Pour obtenir plus de réponses, il faut absolument faire un questionnaire plus court, quitte à faire plusieurs

"petites" recherches qui ciblent des thématiques précises.

6.2.2 Validité et délité des mesures

Pour être utile, une mesure doit à la fois être dèle et valide (Akhurst, 1973). Pour Gerrig et Zimbardo (2008), "un instrument de mesure dèle donne des résultats

compa-7. Cela correspond à une probabilité de 20% de commettre une erreur de type II (ne pas rejeter H0, alors qu'elle est fausse). C'est le seuil choisi dans Howell (2006/2008) par pragmatisme.

8. Ces chires ont été calculés à l'aide du logiciel G*Power (V.3.1.9.2).

rables lorsqu'il est employé de façon répétée (et lorsque l'objet mesuré ne change pas)"

(p.30) et Messick (1987) dénit la validité comme "un jugement évaluatif intégré du de-gré auquel les preuves empiriques et les justications théoriques supportent l'adéquation et la justesse des inférences et des actions basées sur les scores aux tests" (p.1, trad.).

Une mesure valide mesure ce qu'elle est censée mesurer (Akhurst, 1973). La qualité de l'interprétation des résultats obtenus dépend donc des qualités psychométriques des ou-tils utilisés. Or, les questionnaires élaborés dans le cadre de cette recherche ne sont pas validés. Malgré tout, les items choisis ne sont pas le fruit du hasard. Ceux qui concernent la victimation des élèves sont basés sur les recherches de diérents auteurs (par exemple : Lucia, 2015 ; Piguet & Moody, 2013 ; Rivers & Smith, 1994 ; Smith, 2014). De plus, la mesure du climat scolaire, des stéréotypes de sexe et de la justice du monde est basé sur des échelles existantes (Chatard et al., 2005 ; Janosz & Bouthilier, 2007 ; Loo, 2002), même si elles ont parfois été adaptées.

Mesure et dénition du harcèlement Dans le cadre théorique, il est mis en évidence que le harcèlement est un comportement agressif se caractérisant par trois critères qui font plus ou moins consensus dans la recherche occidentale : une intention de nuire, une répétition et une relation asymétrique en termes de pouvoir (Farrington, 1993 ; Fontaine

& Réveillère, 2004 ; Smith, 2014). Les items utilisés dans le cadre de cette recherche ne mesurent pas le harcèlement entre élèves, tel qu'il est déni ci-dessus. Certes, l'intention de nuire peut être déduite du comportement (Boivin et al., 2006) et la relation asymétrique est présente quand les agressions sont le fait de groupe (Smith & Brain, 2000), mais les items mesurent plutôt des épisodes d'agression répétée que des situations de harcèlement, même si certains auteurs les nommeraient ainsi (Finkelhor et al., 2012). Bien qu'il s'agisse d'une limite de ce travail, elle est plus généralement liée à la recherche sur le harcèlement, puisque même les critères les plus utilisés ne sont pas acceptés par tous (Monks & Smith, 2006 ; Piguet & Moody, 2013 ; Smith & Brain, 2000) et ne sont pas inclus dans toutes les mesures (Hamburger et al., 2011). Cela peut être problématique dans le sens où il est nécessaire de faire un état des lieux avant de mettre en place une intervention quelconque pour réduire le harcèlement scolaire (Fontaine & Réveillère, 2004), ce qui implique qu'il faut le mesurer. Même si une pluralité de dénitions peut être considérée comme une richesse plutôt que comme un handicap (Debarbieux, 2004), ce manque de consensus sur la dénition du harcèlement également de la part des participants à ce travail entraine des complications sur le plan pratique. Ainsi, au nombre de dénitions du harcèlement s'ajoutent une large palette d'instruments (Hamburger et al., 2011) et de procédures de mesure (Smith, 2014). Dès lors, comme le souligne Lucia (2011), les résultats sont souvent très dicilement comparables d'une étude à l'autre. Ce travail ne fait pas exception d'autant plus que les pourcentages obtenus font référence aux répondants et pas aux victimes ou aux agresseurs, ce qui les rend encore moins comparables avec les

enquêtes de harcèlement auto-reporté.

Variables douteuses Lors de la création des nouvelles variables, la cohérence interne des mesures a été vériée et les items les plus problématiques ont été écartés. Malgré tout, la valeur minimale qui était visée (α=.70) pour respecter les seuils dénis dans la littérature (Janosz & Bouthillier, 2007 ; Peterson, 1995) n'est pas atteinte pour toutes les échelles. Elle est notamment inférieure pour les violences physiques faites aux lles (enseignants : α=.631 et étudiants : α=.580), les violences physiques faites aux garçons (enseignants : α=.602), l'exclusion d'élèves (enseignants : α=.416), les violences relation-nelles indirectes faites aux élèves (enseignants :α=.542), le climat de justice (enseignants : α=.577), le climat d'appartenance (enseignants :α=.562 et étudiants : α=.624) et le rôle de l'école dans la construction des violences entre élèves (enseignants : α=.538). Dans cette recherche, le choix du regroupement des items s'est fait sur la base de l'alpha, mais également de manière à rendre les comparaisons possibles. Ainsi, de manière générale, quand il y a une valeur très basse, elle l'est seulement pour les enseignants. Lorsque cette faiblesse concerne à la fois les enseignants et les étudiants, les valeurs restent relativement acceptables au moins pour l'un des deux (Bauman et al., 2008). Finalement, plusieurs résultats reposent sur les réponses de tous les répondants. Dans ce cas, les alphas pour les mêmes échelles que précédemment sont les suivants : violences physiques faites aux lles (répondants : α=.599), violences physiques faites aux garçons (répondants :α=.684), ex-clusion d'élèves (répondants :α=.728), violences relationnelles indirectes faites aux élèves (répondants : α=.756), climat de justice (répondants : α=.808), climat d'appartenance (répondants : α=.611) et rôle de l'école dans la construction des violences entre élèves (répondants : α=.718).

6.2.3 Analyses statistiques

Cette recherche étant principalement de nature corrélationnelle, certains résultats peuvent être lus dans les deux sens (voir par exemple : Kochenderfer-Ladd & Pelletier, 2008). Par exemple, pour l'association entre le climat scolaire (évalué par les enseignants) et la fréquence de violences entre élèves. Il est possible que les enseignants évaluent plus positivement le climat scolaire, parce qu'il y a moins de violences. Il est tout autant pos-sible qu'il y ait moins de violences, parce qu'il y a un meilleur climat scolaire. L'avantage est que plusieurs associations ne peuvent pas être lues dans les deux sens (ex. statut du répondant, REP, milieu rural vs milieu urbain, avoir été victime de harcèlement, etc.).

Dans tous les cas, cependant, la nature transversale de l'étude empêche toute conclusion de causalité (voir par exemple : Gini, 2008). Une autre limite est qu'il n'y a jamais plus de deux variables à la fois dans les analyses. Cela implique que certains eets peuvent être dus à d'autres variables que celles qui y sont introduites. Finalement, certains au-teurs notent qu'ils ont appliqué la correction de Bonferroni pour se prémunir contre la

possibilité d'une erreur de type I (rejeter l'hypothèse nulle, alors qu'elle est vraie), parce qu'ils ont réalisé un grand nombre de tests (Yoon, Sulkowski & Bauman, 2016), ce qui est également le cas dans cette étude sans que cette précaution n'ait été prise, parce que ce risque est seulement apparu au cours de la réexion sur le travail. A posteriori, l'ab-sence d'ajustement pour la multiplication des tests peut être défendue (voir par exemple : Tutzauer, 2003). Moran (2003) suggère de conserver un alpha à 0.05 et de faire des inter-prétations raisonnables pour éviter que des résultats potentiellement importants ne soient pas mis en évidence. Il soutient qu'il y a des critères qui orent des moyens d'interpréta-tion beaucoup plus ecaces que les correcd'interpréta-tions statistiques, par exemple, la possibilité de reproduire les résultats (Westfall & Young , 1993, cité par Moran, 2003) et le bon sens (Cabin & Mitchell, 2000 ; Moran, 2003). Dès lors, la littérature existante peut aider à interpréter correctement les résultats obtenus. D'autres études de préférence de nature longitudinale sont encore nécessaires pour conrmer les résultats obtenus.