• Aucun résultat trouvé

On effectue une inférence statistique lorsqu’on attribue à la valeur d’une statistique sa probabilité d’occurrence sous l’hypothèse nulle. Cette probabilité permet d’évaluer quantitativement dans quelle mesure l’hypothèse nulle est mise en défaut. Dans le cadre de la détection d’activation cérébrale, plus la probabilité d’observer cette statistique sous l’hypothèse nulle est faible, et donc plus on a de chance que le voxel ait effectivement répondu

au protocole. Le test statistique consiste à rejeter ou accepter l’hypothèse nulle avec un certain risque d’erreur en comparant la valeur de la statistique calculée à celle prise sous l’hypothèse de bruit seulement (hypothèse nulle).

3.6.1 Utilisation du Z-score

La distribution du test T étant connue, on peut associer à chaque valeur T, une probabilité d'occurrence. Réciproquement, il est possible d'associer à une probabilité donnée la valeur de n'importe quel test de distribution connue. C'est par cet intermédiaire que la valeur de T peut être convertie en « Z-score ». Contrairement au test T, la relation entre le Z-score et la probabilité ne dépend pas du nombre de degrés de liberté. On obtient ainsi une valeur de test plus facilement interprétable et comparable entre différentes analyses.

Couramment, on dira que la probabilité associée à un test est la probabilité de la statistique observée sous l’hypothèse nulle, et dépend donc d’abord de la distribution des valeurs de cette statistique sous l’hypothèse de bruit. Cependant, il existe différentes situations susceptibles de modifier cette probabilité que allons décrire ci-après.

3.6.2 Probabilité corrigée

Lors de l’analyse d’un protocole on peut envisager deux types d’approches. La première consiste à tester la réponse d’une région donnée. C’est par exemple le cas lorsqu’on souhaite étudier le comportement d’une aire prédéfinie dans différents types de conditions expérimentales.

Plus fréquemment en imagerie, l’approche est exploratoire. Il s’agit alors de tester le modèle de réponse sur le signal de chaque voxel dans le but de détecter toutes les régions répondant au protocole de stimulation.

D’un point de vue statistique, ces deux approches sont très différentes. Dans le premier cas, les hypothèses sont très restrictives en ce qui concerne la localisation du phénomène recherché et on effectue le test d’hypothèse en un nombre limité de points — i.e. un nombre limité de fois. Prenons pour exemple le cas le plus contraint où l’on teste le comportement d’un seul voxel : le test d’hypothèse est effectué une seule fois. La probabilité d’obtenir une valeur donnée au test ne dépend que de la distribution du test en question.

Dans le cas où l’on teste le modèle en plusieurs points, la probabilité d’obtenir une valeur donnée au cours de l’analyse est multipliée par le nombre de fois où le test a été réalisé de façon indépendante — ou, en première approximation, par le nombre de voxels sur lequel le modèle est testé. Pour un risque d’erreur donné, le nombre de voxels sélectionnés dépend

donc directement du nombre de tests effectués. Par exemple, au seuil de 5%, le test de 104

voxels va donner lieu en moyenne à 500 voxels pour lesquels le test serait déclaré significatif. La probabilité sera dite « corrigée » lorsque celle-ci prendra en compte le nombre de tests effectués, ici le nombre de voxels analysés. La procédure de correction consiste donc à modifier le seuil statistique pour chaque test de manière à contrôler le risque d’erreur pour l’ensemble des tests réalisés. La procédure dite de Bonferroni réalise cette correction en divisant le seuil statistique choisit par le nombre de tests réalisés (par exemple, si l’on souhaite travailler au risque d’erreur de 5% et que l’on réalise 100 tests, on choisira un seuil de 5/10000 pour chaque test). Cette procédure est valide dans tous les cas mais se révèle trop sévère lorsque les tests multiples réalisés ne sont pas indépendants. Les méthodes les plus souvent employées en imagerie fonctionnelle cérébrale calculent donc cette correction tenant compte de

la corrélation qui existe entre les tests ou, en d’autres termes, en s’appuyant sur le nombre de test « effectifs ».

3.6.3 Question de la sensibilité statistique

Compromis entre pouvoir de localisation et sensibilité

Une conséquence directe de ce qui est décrit ci-dessus est que, dans le cas d’une démarche inférentielle, où l’on souhaite pouvoir rejeter une hypothèse nulle en contrôlant le risque d’erreur sur l’ensemble des tests réalisés, il existe un compromis entre le nombre de régions que l’on souhaite tester et la sensibilité globale de l’analyse. Plus les hypothèses a priori sur les localisations possibles de l’activité cérébrale seront précises, plus le nombre de tests sera limité, et donc la correction pour les tests multiples faible.

Il est donc souvent intéressant d’utiliser des informations a priori afin de rendre les procédures de tests statistique plus sensibles. Nous avons par exemple employé ce type de stratégie en définissant fonctionnellement les zones cérébrales d’intérêts pour ne tester que celles-ci dans un second temps. Ceci nécessite cependant l’acquisition de données supplémentaires.

Choix du modèle

Si l’on souhaite se donner une souplesse importante dans la forme de la réponse temporelle modélisée ou si on dispose de peu d’hypothèses a priori sur la forme de la réponse attendue, on pourra choisir un modèle constitué d’un nombre important de fonctions. L’hypothèse a priori est relativement faible et le test est également peu sélectif puisque de multiples formes de réponse peuvent potentiellement être détectées.

En contrepartie, le test sur l’ensemble de ces fonctions sera en général moins sensible que si la forme de la réponse était parfaitement connue et modélisée par une seule fonction (ou covariable). C’est pourquoi il est intéressant de posséder un maximum de connaissances a priori qui se présenteront dans les tests sous forme de contraintes.

De la même façon que précédemment, pour le choix des régions à tester, il peut parfois être intéressant de procéder à des expériences préliminaires afin de déterminer une forme de réponse. Pour les expériences préliminaires, on choisira alors un modèle très souple, permettant d’estimer cette réponse avec un minimum d’a priori sur sa forme. Dans un deuxième temps, on testera l’ajustement des données de l’expérience principale à la forme de réponse précise ainsi estimée. On peut de cette façon utiliser une unique fonction pour modéliser la réponse sans risquer d’être trop éloigné de son allure réelle.

De manière générale, notons que plus le nombre de fonctions utilisées dans le modèle est grand, plus certains tests peuvent perdre en sensibilité.

Choix du test

De façon complémentaire, les tests eux-mêmes présentent des sensibilités différentes. Pour un même nombre de fonctions dans le modèle, la sensibilité d’un test F (test de Fischer sur le rapport de variance) — qui teste un espace de dimension n — est moindre que celle d’un contraste T — qui teste une seule direction de l’espace. Dans le cas du test F, on perd une grande quantité d’information a priori, car les valeurs des β ne sont pas contraintes. Elles sont laissées libres dans toutes les directions de l’espace testé.

Dans le choix du test comme dans celui du modèle, un compromis doit donc être fait entre la sensibilité du test et le nombre de directions à explorer.

Degrés de liberté

D’une manière générale, la sensibilité des tests est modulée par ce qu’on appelle le nombre de degrés de liberté. Il dépend du nombre d’échantillons temporels qui composent les données, du nombre de fonctions explicatives définies par l’utilisateur dans le modèle, et du nombre de ces fonctions effectivement testées par le test.

Par définition, un test F est ainsi pondéré au dénominateur et au numérateur par deux nombres de degrés de liberté (voir p 73). Celui du dénominateur est le rang du projecteur sur l’espace des résidus (espace orthogonal à celui de la matrice de dessin) ; ce qui correspond au nombre d’échantillons temporels indépendants des données moins le nombre de covariables indépendantes du modèle. Celui du numérateur correspond au nombre de directions indépendantes testées.

Pour un test T la pondération du dénominateur est la même que celle d’un test F. En revanche, le nombre de directions testées, qui correspondrait à la pondération du numérateur, est toujours égal à 1.

Nous allons voir dans la section suivante que le nombre de degrés de liberté effectif peut aussi être diminué lorsque les données ne sont pas indépendantes dans le temps.