• Aucun résultat trouvé

Classification, validation et interprétation

a)  Classification

Lors de l'apprentissage du SVM, le paramètre c évoqué précédemment était à régler. Bien souvent, dans les deux premières études, nous avions plus de variables que de fenêtres de temps, si bien que les classes pouvaient être séparées sans erreur et que ce paramètre pouvait être ignoré. Dans les autres circonstances (lorsque le nombre de variables n'excédait pas de le nombre de fenêtres de temps), nous avons toléré la procédure simplifiée qui

Classification V l i d a t i n a o Expérience Construction des états de fatigue Prétraitement/ Quantification Yi Xi

Axes de recherche 55 consistait à utiliser une même valeur pour c, ce pour tous les apprentissages dont les résultats étaient ensuite fusionnés ou comparés l'un à l'autre. Cette valeur est donnée pour chaque expérience dans la partie correspondante. Elle a été fixée à 1 ou à 0,1, selon les expériences.

Dans la troisième étude, le c a été réglé et la procédure est décrite dans la partie correspondante.

b)  Validation

À l'exception de la troisième étude, la validation a été opérée par validation croisée en 10 sous-ensembles de fenêtres de temps. Ces 10 sous-sous-ensembles ont été formés en affectant aléatoirement chaque fenêtre de temps à l'un d'entre eux, de manière à ce que ces sous-ensembles soient d'effectifs équilibrés.

Pour rappel, ce partitionnement en 10 sous-ensembles implique que nous ayons obtenu pour chaque validation croisée 10 taux de bonnes classifications et 10 SVM, donc 10 vecteurs orthogonaux aux hyperplans séparateurs.

Les fenêtres de temps successives avaient un recouvrement entre elles. Nous avons supprimé tout recouvrement de fenêtres entre celles qui servaient à l'apprentissage et celles qui servaient au test en ignorant les fenêtres de l'ensemble d'apprentissage qui avaient un recouvrement avec au moins l'une des fenêtres de l'ensemble de test. Cette procédure réduisait parfois considérablement les taux de bonnes classifications, ce qui justifie pleinement son usage. En effet, l'augmentation observée des taux de bonnes classifications lorsque le recouvrement des fenêtres entre les ensembles d'apprentissage et de test n'était pas traité était très probablement due à une grande ressemblance entre les fenêtres qui partageaient un segment en commun. Or, les données de test doivent être différentes des données d'apprentissage.

c)  Interprétation

Le vecteur w du SVM présente un intérêt clair pour la comparaison des quantifications à la suite d'un apprentissage. Une première précaution est à prendre : les variables doivent au préalable avoir été normalisées de manière à ce que le nuage global des points (les deux classes mélangées) ne se dispersent pas plus le long d'une dimension que d'une autre. La normalisation consiste en le centrage et la réduction des données. On opère en divisant chaque variable par son écart-type, car l'écart-type est un estimateur de la dispersion d'une distribution.

Les choses se compliquent lorsqu'on souhaite prendre une moyenne de plusieurs vecteurs, par exemple lorsque l'on a un vecteur par sujet. Dans la pratique, on obtient autant de vecteurs que l'on a réalisé d'apprentissage, soit autant que de sujets multiplié par le nombre d'itération de la validation croisée. Bien que la norme de ces vecteurs soit ajustée sur la base d'un critère propre au SVM, donc a priori un même critère pour tous les vecteurs, la dépendance aux données n'est pas résolue à cause de l'existence

56 Axes de recherche d'un autre paramètre. Ce paramètre, désigné par b, est le biais de l'hyperplan, c'est-à-dire, pour une orientation w donnée, la position de l'hyperplan. w et b ont été estimés de manière inter-dépendante, ce qui retourne cette complication contre b, si l'idée venait à l'expérimentateur d'exploiter ce second paramètre. Notre stratégie pour rendre plusieurs w homogènes, pourvu que le nombre de variables soient grands, est de normaliser ces vecteurs. Ainsi, on moyenne les contributions relatives de chaque variable. Dans la pratique, nous avons observé que cette transformation n'entraînait pas de grands changements dans les résultats.

Enfin, nous avons opéré un second raffinement dans ce moyennage de w. Lorsque l'on n'a pas l'opportunité de tester un classifieur sur des données suffisamment différentes pour être assuré de la généralisabilité8 des résultats obtenus, par exemple des données acquises sur les mêmes sujets lors d'une seconde session d'enregistrement réalisée en un jour différent, il est intéressant de pouvoir observer ce qui est commun à une majorité de sujets, et ce qui diffère et pourrait donc peut être induire le détecteur en erreur. Ainsi, on observe parfois que certaines variables sont relativement discriminantes pour la plupart des sujets, mais qu'elles ne varient pas dans le même sens d'un sujet à un autre. Dans ce cas, on peut douter de l'intérêt de ces variables. Cette variabilité inter-individuelle n'est pas systématiquement gommée par l'opération de la moyenne, car un déséquilibre d'amplitude relativement grande peut être vite atteint par l'effet du hasard. Nous avons donc décidé de diviser chaque moyenne par l'écart-type correspondant, pénalisant ainsi fortement les variables à forte variabilité inter-individuelle. Cette pénalisation n'a été appliquée qu'à travers les sujets, et pas lors du moyennage des vecteurs d'un même sujet.

d)  Statistiques

Tous les tests statistiques ont été menés en prononçant la significativité de l'effet testé lorsque le risque de première espèce était inférieur ou égal à P=5 %.

Un test fréquemment utilisé pour comparer deux populations d'échantillons appariés est le test de Wilcoxon (Saporta, 2006). Lorsque de nombreuses comparaisons ont été réalisées (20 ou plus), une correction a été appliquée, soit celle de Bonferroni, soit par contrôle du taux de faux positifs (FDR, de l'anglais false discovery rate) telle que implémentée par Benjamini et Hochberg (1995). Idéalement, il aurait fallu réaliser cette correction systématiquement. Ce nombre minimal de 20 comparaisons a été choisi du fait qu'à P=5 %, on a en théorie au moins 1 faux positif (contre « moins de 1 » à moins de 20 comparaisons) et que bien souvent, dans les situations où peu de comparaisons sont à faire, le test employé offre une « résolution » en probabilité insuffisante pour qu'un effet puisse rester significatif après correction, quelle que soit la taille de cet effet.

Axes de recherche 57