• Aucun résultat trouvé

Chapitre 2. Étude exploratoire des données et utilisation de méthodes de

2.1. Défis du regroupement en grappes

Il a été mentionné au chapitre précédent que les méthodes de regroupement en grappes ont été utilisées dans de nombreuses recherches visant à identifier des sous-groupes de divers troubles psychiatriques. Toutefois, ces algorithmes ont souvent été utilisés sur des mesures psychométriques et non sur des données décrivant une activité biologique. Nos données de travail sont des données résultant de sessions d’IRMf sur divers individus. Il est donc intéres- sant de tenter de regrouper en grappes les données dont nous disposons avec des algorithmes existant déjà. De nombreuses difficultés peuvent être rencontrées lorsqu’il y a tentative de regrouper en grappes des données biologiques en groupes significativement différents1

. Il est important d’être conscient de ces difficultés pour analyser justement les résultats de ces regroupements.

2.1.1. Bruit

Il est possible que la variabilité attribuable au bruit de mesure soit bien supérieure à la variabilité attribuable aux sous-types se trouvant dans les données [Marquand et collab., 2016, p. 437]. Dans ces cas-ci, plusieurs méthodes de regroupement en grappes pourraient être incapables de livrer une solution représentant les différences significatives pour la simple raison que l’expression de ces différences serait masquée par un bruit aléatoire au point de fausser les estimations nécessaires au regroupement en grappes.

Il a déjà été mentionné que les mouvements de tête peuvent causer des nuisances difficiles à éliminer sur les données résultant de l’IRMf. C’est un problème qui peut se trouver dans nos données d’autant plus que celles-ci proviennent de sites de recherche différents. On peut donc s’attendre à ce que l’effet des mouvements de tête soit différent selon le protocole suivi (donc selon le site) et selon le fait que le sujet soit atteint de schizophrénie ou non.

2.1.2. Validation des résultats et reproductibilité

Il peut être difficile de savoir si les grappes obtenues représentent des sous-types biologi- quement ou cliniquement significatifs. L’objectif pratique est souvent d’améliorer la connais- sance des phénomènes biologiques causant la maladie et de produire de nouvelles approches thérapeutiques adaptées à ces phénomènes. Des méthodes de validation des résultats ont été proposées. Il peut être utile d’appliquer le modèle à un autre ensemble de données ou de mesurer la reproductibilité des résultats de l’algorithme sur les mêmes données. L’identifica- tion de correspondances avec d’autres mesures biologiques ou cliniques a aussi été proposé comme méthode de validation des résultats [Marquand et collab., 2016, p. 438].

2.1.3. Identification du nombre de grappes

Plusieurs algorithmes de regroupement en grappes diviseront les données qu’elles doivent diviser même si les différences entre les groupes ne sont pas significatives. Plusieurs algo- rithmes fonctionnent avec la condition préalable au fonctionnement qu’un nombre de grappes soit fixé. Il en résulte qu’il est souvent nécessaire d’identifier un nombre optimal ou adéquat de grappes réellement contenues dans les données, mais c’est une identification qui peut être impossible à réaliser avec certitude.

2.1.4. Grande dimensionnalité

Les données biologiques sont souvent représentables avec des données numériques de très grandes dimensions. Une règle générale proposée auparavant est de considérer 10 dimensions comme un nombre élevé [Ronan et collab., 2016, p. 2]. Ceci mène au fait que des résultats très différents mais tout aussi valides peuvent être obtenus selon la méthode de regroupement en grappes utilisée ou selon les variables considérées pour le regroupement. Ceci est d’autant plus problématique que les populations humaines peuvent exhiber énormément de variabilité sur de très nombreux aspects, ce qui se reflète souvent comme une grande variabilité dans des

données à grande dimensionnalité. Si le nombre de dimensions est élevé, il est probable que deux individus similaires diffèrent largement sur un petit nombre de dimensions, ce qui peut mener un algorithme basé sur une mesure de distance à considérer des individus qui sont en réalité relativement proches comme éloignés les uns des autres et vice-versa. La méthode K-moyennes et d’autres sont particulièrement mal adaptées aux données de dimensionnalité élevée [Ronan et collab., 2016, p. 2]. De manière plus générale, certaines dimensions peuvent être disproportionnellement influentes dans la détermination de la solution de l’algorithme de regroupement en grappes. Dans certains cas, il peut être justifié de considérer des méthodes de réduction de la dimensionnalité, notamment l’analyse en composantes principales. L’IRMf permet en théorie d’obtenir une image de l’entièreté du cerveau avec une résolution de l’ordre de 1mm3, mais le cerveau est probablement la structure biologique la plus complexe qui soit

connue. Le problème de dimensionnalité peut donc être très important.

2.1.5. Approche possible : regroupement en grappes sur les résultats d’un en- semble de regroupements en grappes

Il a été proposé d’utiliser singulièrement différentes méthodes de regroupement en grappes sur les mêmes données puis de procéder à un autre regroupement sur un score reflétant la similarité entre individus selon les différentes méthodes de regroupement. L’hypothèse justi- fiant cette approche est que puisque les différents algorithmes de regroupement fonctionnent de manières fondamentalement distinctes et peuvent donc tous mener à des résultats erro- nés de manières différentes, il est probable qu’une erreur ponctuelle de regroupement ne se reproduise pas d’un algorithme à l’autre et donc qu’elle ne soit pas corrélée avec les erreurs résultantes des autres algorithmes. Diviser en grappes sur le résultat d’un ensemble de mé- thode aurait donc pour effet d’atténuer les erreurs ponctuelles [Ronan et collab., 2016, p. 8-9].

Documents relatifs