Sommaire 1 Introduction 2 Modèle statistique 3 Un cas concret l’ANO V A à 1 facteur contrôlé FrédéricBertrandetMyriamBertrandModèlesstatistiques

(1)

Introduction Modèlestatistique Uncasconcretl’ANOVAà1facteurcontrôlé

Modèles statistiques F rédér ic Ber tr and et Myr iam Ber tr and 1

1

IRMA, Univ ersité Louis P asteur Str asbourg, F rance École Doctor ale 10-01-2007

FrédéricBertrandetMyriamBertrandModèlesstatistiques

Sommaire 1 Introduction 2 Modèle statistique 3 Un cas concret l’ANO V A à 1 facteur contrôlé

FrédéricBertrandetMyriamBertrandModèlesstatistiques Introduction Modèlestatistique Uncasconcretl’ANOVAà1facteurcontrôlé

Ce premier cours a pour b ut de faire un rapide e xposé de ce que l’on appelle un modèle statistique tout en v ous per mettant de re v oir , ou de découvr ir , cer taines des notions que v ous a v ez appr ises dans le passé. Nous allons re v oir ensemb le : L’analyse de la v ar iance à 1 facteur Le test non-par amétr ique de Kr ukal-W allis La rég ression linéaire simple

Relations Lecasdel’erreur Quellefonctionutiliser? Synthèse

Sommaire 1 Introduction 2 Modèle statistique 3 Un cas concret l’ANO V A à 1 facteur contrôlé

(2)

Relations P ourquoi a-t-on besoin des statistiques pour analyser des résultats e xpér imentaux ? Il e xiste plusieurs types de relations en des g randeurs ph ysiques comme la masse , la taille , la tempér ature ... On en distingue pr incipalement deux : les relations déterministes comme celle qui lie l’e xpression d’une tempér ature en dég ré Celsius et l’e xpression de cette même tempér ature en K elvin. Ici rien de plus m ystér ieux qu’une addition à faire et étant donné une même tempér ature de dépar t le résultat ser a toujours le même .

les relations stoc hastiques comme celle qui lie la masse d’un idividu à sa taille . On ne peut pour tant pas nier qu’il y a une association entre la taille et la masse d’une personne mais celle-ci n’est pas aussi simple que celle ci-dessus . En eff et si v ous comparez la masse de deux personnes qui ont la même taille il est for t probab le que celles-ci diffèrent. P our tant une telle relation e xiste . Comment peut-on alors la mettre en évidence ?

P our mettre en équation la relation du tr ansparent précédent entre le poids et la masse on écr it : Masse ( Individu ) = F onction ( T aille Individu ) + Erreur ( Individu ) Ce que l’on appelle Erreur représente la v ar iabilité inter-individu, c’est-à-dire ce qui per met d’e xpliquer pourquoi deux personnes de même taille n’auront pas la même masse .

Prob lème Comment trouv er F onction et Erreur ? On ne connaîtr ait vr aiment F onction et Erreur que si l’on réalisait une infinité d’e xpér ience ! C’est pourquoi en statistique on adopte la démarche opposée : Réponse On v a pr oposer des canditats pour F onction et Erreur puis év aluer l’ adéquation du modèle proposé a v ec la réalité.

(3)

Le cas de l’erreur J usqu’à présent on v ous a sans doute dit d’utiliser des erreurs qui suiv ent des lois nor males , mais sa v ez-v ous pourquoi ? Dans beaucoup de prob lèmes e xpér imentaux l’erreur qui vient per turber le résultat d’une e xpér ience est la somme de plus petites erreurs du même ordre et indépendantes .

Un théorème de probabilité, le théorème central limite , nous dit qu’alors une bonne appro ximation de la loi de la v ar iab le aléatoire d’ erreur peut être réalisée en utilisant une loi normale . Bien entendu ceci ne fonctionne pas à tous les coups et il e xiste alors des alter nativ es : changer la loi de l’erreur utiliser des tests comme celui de Kr uskal-W allis qui ne fait quasiment pas d’h ypothèse sur la loi des erreurs .

Quelle fonction utiliser ? Quelles fonctions peut-on utiliser ? Appelons Y la réponse obser vée , ou facteur e xpliqué, et X le facteur e xplicatif . Y = f ( X ) + La réponse à cette question dépend a v ant tout de la nature de la v ar iab le X . Si X est une v ar iab le contin ue comme le poids ou la taille on pourr a utiliser f ( X ) = a ∗ X + b . Si X est une v ar iab le discrète on utiliser a plutôt, en notant X i les différentes v aleurs possib les pour X , f ( X i ) = µ + α i .

Synthèse On résume ce que l’on vient de v oir à propos des modèles statistiques . Si X est contin ue on s’intéresser a à une relation du type Y = a ∗ X + b + où les v ar iab les d’erreurs suiv ent toute une loi nor male . Cette situation est celle de l’analyse de rég ression simple . Si X est discrète on s’intéresser a à une relation du type Y = µ + X i + où les v ar iab les d’erreurs suiv ent toute une loi nor male . Cette situation est celle de l’ANO V A à un facteur contrôlé.

(4)

Introduction Modèlestatistique Leshypothèses

Sommaire 1 Introduction 2 Modèle statistique 3 Un cas concret l’ANO V A à 1 facteur contrôlé

Intr oduction Supposons que l’on mesure plusieurs fois une même g randeur on trouv e en génér al des résultats différents . De très nombreux facteurs peuv ent influencer les résultats et il n’est pas possib le de tous les étudier . On en sélectionne un cer tain nombre : on retiendr a ainsi ceux qui a pr ior i peuv ent justifier une g rande par t de la dispersion des mesures . Ces facteurs sur lesquels nous fixons notre attention seront dits facteurs contrôlés . Ceci implique qu’a v ant d’eff ectuer les mesures on aur a pr is des dispositions pour qu’ils soient mainten us constants et mesurés .

P our l’instant nous ne nous intéressons qu’au cas où il y a un seul facteur contrôlé. L’e xpér imentateur peut se poser alors différentes questions : Le phénomène étudié est-il ou non inluencé par le facteur contrôlé ? Si la réponse est affir mativ e , quelle est alors la modalité la plus intéressante ?

Modèle statistique Le modèle s’écr it, en notant y i , j la j ème mesure obten ue au i ème niv eau du facteur X : Y i , j = µ + α i + i , j , i = 1 , . .. I , j = 1 , . . . , J . a v ec les h ypothèses suiv antes pour les résidus : ∀ ( i , j ) ( i , j ) = N ( 0 ,σ 2 ) et Co v ( i , j , r , s ) = 0 si ( i , j ) 6= ( r , s ) Notez qu’ici le plan de l’ANO V A est dit équilibré car il y a le même nombre de répétitions pour tous les niv eux du facteur . V ous v errez en e x ercice , un cas de plan déséquilibré.

(5)

Dans le slide précédent, il est à noter que y i , j n’est pas égal à Y i , j . Dans le premier cas y i , j est une v aleur mesurée dans le second cas Y i , j est la v ar iab le aléatoire . Cette remarque a déjà été faite dans les années passées mais il v aut mieux le mentionner ici.

On v oit ainsi que l’on fait plusieurs h ypothèses très impor tantes . Dans chaque cas où v ous essa y erez d’utiliser cette outil statistique v ous DEVREZ vér ifier que les h ypothèses que l’on fait sont compatib les a v ec les données e xpér imentales dont v ous disposez. Si v ous utilisez un outil statistique alors qu’il n’est pas adapté v ous obtiendrez des résultats qui peuv ent être trompeurs v oire complètement faux . V otre logiciel de calcul statistique ne s’occuper a pas de cette par tie du tr a v ail. Elle v ous incombe e xclusiv ement et est pr imordiale .

Les h ypothèses : Le détail des h ypothèses est le suiv ant : Nor malité des erreurs Homoscédasticité (égalité des v ar iances des erreurs) Indépendance des erreurs

L ’indépendance des erreur s Il n’e xiste pas de test per mettant de déter miner si les erreurs sont indépendantes ou non. Un test que v ous pourrez rencontrer est le test de Durbin-W atson qui déter mine s’il y a une corrélation temporelle entre les résidus . Une telle corrélation peut découler , par e x emple , de l’utilisation d’un appareil de mesure qui se dérègler ait prog ressiv ement. Génér alement une représentation g raphique des résidus per met de « v oir »si l’h ypothèse est réaliste . Attention aux données appar iées !

(6)

L ’égalité des v ariances Cette h ypothèse est primor diale . En eff et à la fois le test de Kr uskall-W allis (équiv alent non-par amétr ique de l’ANO V A) et l’ANO V A requièrent qu’elle soit vér ifiée . Il con vient ainsi de la tester a v ant l’h ypothèse de nor malité de l’erreur . Puisque l’on ne connaît alors pas encore la loi des erreurs il faut utiliser un test non-paramétrique . Il s’agit du test de Le v enne qui est utilisab le dès que le nombre de répétitions pour chaque niv eau du facteur est supér ieur ou égal à trois .

Si l’h ypothèse d’homoscédasticité est vér ifiée on peut passer à la vér ification de l’h ypothèse de nor malité des erreurs . Dans le cas contr aire , Minitab ne propose pas de test prenant en compte ce déf aut. Si par contre v ous a v ez accès à d’autres logiciels comme R, qui est g ratuit et disponib le sur inter net mais assez difficile d’accès , SPSS , pa y ant mais intuitif , ou SAS , pour les utilisateurs e xpér imentés uniquement, v ous aurez à v otre disposition des tests pouv ant prendre en compte l’inégalité des v ar iances .

La normalité des erreur s Afin de tester la nomalité des erreurs on doit calculer ce que l’on appelle les résidus du modèle . En ter mes statistiques , il s’agit des réalisations des v ar iab les d’erreur i , j . On doit donc commencer par calculer une estimation des coefficients µ, α 1 , . .. , α I du modèle . On noter a toujours une estimation d’un coefficient c du modèle statistique par b c .

Estimation Il s’agit d’une v aleur que l’on calcule à par tir des obser v ations de telle sor te que l’on juge qu’elle est une représentation de la v aleur du par amètre c . P ar e x emple v ous connaissez une estimation de la mo y enne µ d’une population par un échantillon d’eff ectif K : b µ = 1 | K | X k x k

(7)

On est capab le de caculer les estimations b µ, c α 1 , . . . , bα I . Les résidus e i , j = y i , j − µ − α i Un résidu e i , j n’est rien d’autre que le déf aut d’ajustement du modèle statistiqiue pour la j ème répétition du i ème niv eau du facteur .

On doit alors tester la nor malités des v ar iab les d’erreur . Or les eff ectifs ne per mettent génér alement pas de séparer les différents niv eaux du facteur e xplicatif et de tester la nor malité des résidus pour chacun des niv eaux. P our obtenir une puissance con v enab le cela e xiger ait plus d’une cinquantaine de répétitions par niv eaux ! On décide alors de reg rouper tous les résidus ensemb le et de procéder à un test de nor malité sur tous les résidus . Le nombre de tests de nor malité e xistants est très impor tant, il y a même des livres entiers sur le sujet... Lequel doit-on utiliser ?

Les logiciels de calcul statistique mettent à la disposition de l’utilisateur plusieurs tests de nor malité. Bien entendu ils ont tous leurs qualités mais dans le conte xte qui est le notre , c’est-à-dire celui de petits échantillons , eff ectif entre 10 et 100, c’est le test de Shapiro-Wilk qui est recommandé. T ous les logiciels mentionnés plus haut per mettent de réaliser ce test et en par ticulier Minitab , attention il a été renommé en test de Ry an-Joiner .

Si le test de nor malité des résidus est significatif , v ous n’a v ez pas le droit d’utiliser les résultats de l’ANO V A. Il v ous faut alors opter pour une alter nativ e non par amétr ique , le test de Kr uskal-W allis . Ce test est disponib le dans le logiciel Minitab .

(8)

Si la nor malité n’est pas rejetée , on reteste l’h ypothèse d’égalité des v ar iances en utilisant cette fois le test de Bar tlett. Ce test est plus puissant que le test de Le v enne car il repose sur une h ypothèse de nor malité des v ar iab les . C’est donc un test par amétr ique . Si l’h ypothèse d’homoscédasticité n’est toujours pas rejetée , le modèle statistique est alors vér ifé et l’on peut utiliser les résulats de l’ANO V A.