• Aucun résultat trouvé

Intelligence artificielle et images biologiques

introduction

• La segmentation basée sur l’intensité de fluorescence

La microscopie permet de générer un grand nombre d’images qui peuvent avoir une vocation de documentation des expériences de nos collègues biologistes. Cependant, le plus souvent, l’objectif de telles expériences consistera à extraire des données quantitatives sur les objets étudiés comme des descripteurs morphologiques, des comparaisons d’intensité de mar- quage, ou du suivi dynamique de cellules ou d’organites. Ces différentes études impliquent le plus souvent deux phases d’automatisation du traitement de nos images, dont la première étape consiste à segmenter nos données. La segmentation est une opération permettant de simplifier l’information contenue dans l’image en regroupant les pixels par catégories.

La méthode la plus simple utilisée en microscopie consiste simplement à définir un niveau d’intensité, ou seuil, au-delà duquel le pixel sera dans la catégorie « objet » le reste de l’image étant alors considéré comme du «non-objet» et exclu de l’analyse. Cette méthode, bien que basique, est particulièrement adaptée à des problématiques simples comme la comparaison d’intensité de fluorescence de protéines dans un compartiment marqué. Nous avons adapté ce type de méthode à une problématique de M. Aumercier (Legrand et al., 2013), afin de mesurer la fluorescence de deux protéines dans le noyau de cellules présentant un marquage nucléaire (figure 34).

Figure 34: Illustration de la méthode utilisée pour quantifier la fluorescence d’une protéine marquée dans le noyau de chaque cellule. Images de vidéo-microscopie 2 canaux. Les noyaux (marquage DAPI

représenté en bleu) sont détectés en fonction de leur intensité de fluorescence et transformés en informa- tion binaire (rouge). L’intensité dans le canal de fluorescence représenté en vert est alors mesurée pour

chaque noyaux.

Même dans des cas aussi simples, certaines spécificités de l’échantillon doivent être prises en compte. En effet, le marquage nucléaire obtenu grâce au DAPI (molécule fluorescente qui se fixe spécifiquement à l’ADN) n’est pas homogène et dépend du niveau de compaction de la chromatine. La définition automatique de la valeur optimale d’intensité pour le seuil n’est donc pas triviale. Pour réaliser le seuillage automatique, nous avons tout d’abord choisi la méthode d’Otsu (Otsu, 1979) qui permet de déterminer la valeur de seuil qui minimise la somme pon- dérée des variances intra-classe. Notre image DAPI est alors transformée en une image binaire, les zones détectées comme un fond étant codées par des « 0 » et les zones détectées comme des objets sont codés par des « 1 ». Comme nous le voyons, cette méthode permet bien de seuiller et de discriminer la plus grande partie des noyaux. Cependant, on remarque que les

zones les moins denses des noyaux ont des niveaux d’intensité plus similaires au bruit de fond qu’à notre échantillon. Afin de prendre en compte l’intensité dans l’ensemble du noyau, une étape de remplissage est alors effectuée grâce à une suite de dilatation et érosion de nos objets (figure 35).

Dans cet exemple, on remarque également que deux noyaux peuvent être collés. Lors de l’étiquetage de nos objets, il est indispensable de séparer les deux noyaux afin de ne pas introduire un biais statistique dans notre analyse. La méthode du « watershed », ou « bassin ver- sant » en français, est la solution la plus classiquement utilisée pour ce type de problématique ((Roerdink and Meijster, 2000) et figure 36)

Le simple fait de mesurer de la fluorescence dans un compartiment d’intérêt nécessite de nombreuses optimisations qui peuvent être difficiles à mettre en place pour des non-spécialistes du traitement d’image. Une des vocations de notre plateau consiste à proposer une automatisa- tion « sur mesure » et adaptée aux spécificités expérimentales.

Il existe également des problématiques où la simple utilisation de l’intensité ou de la mor- phologie n’est pas suffisante pour identifier de façon robuste les objets biologiques à étudier. C’est alors que l’apprentissage automatique, plus connu sous le nom de « machine learning », entre en jeu.

Figure 35 : Exemple d’opérations binaires simples appliquées en biologie. La dilatation

consiste à ajouter un ou plusieurs pixels (en gris) à la bordure de chaque objet de l’image (en bleu foncé). L’érosion est l’opération inverse (bleu clair). La succession d’une dilatation et d’une érosion de même dimension ne modifiera pas, le plus souvent, la taille de notre objet initial mais comblera l’ensemble des trous à l’intérieur de

cet objet.

Figure 36. Représentation schématique de la technique de

«watershed». L’objet (A) est converti en information binaire

à l’aide d’un seuil (B). Cette image est transformé en une carte de distance ou chaque pixel contiendra une informa- tion concernant la distance au bord le plus proche de l’objet (C), on considérera alors cette carte comme une carte topo- graphique de notre objet. C’est à ce niveau que l’analogie

avec les bassins de remplissage s’applique. En effet, notre objet est constitué de deux « bassins de versants » situés au centre de nos deux cercles. Si on imagine remplir cette struc- ture avec de l’eau, les deux bassins vont se rejoindre en une ligne de séparation qui correspond à la limite entre nos deux objets. C’est en réalisant cette opération de façon numérique

• Le « machine Learning »

De façon générale, le Machine Learning (ML) est un sous-ensemble de l’intelligence artifi- cielle dont le principe est d’apprendre les règles de traitement à appliquer sur l’échantillon par l’exemple plutôt que par l’ajustement manuel de paramètres descripteurs de nos objets. Il est particulièrement adapté à la résolution de problèmes complexes et multidimensionnels et à la discrimination de morphologies qui ne pourront être décrites facilement par un nombre limité de paramètres (Sommer and Gerlich, 2013). Le développement de l’automatisation d’acquisition par les microscopes pour la microscopie à haut débit couplé à l’augmentation des puissances de calcul disponible en font un outil en plein développement dans l’arsenal du traitement d’image pour la biologie.Le ML se décompose en deux phases (figure 37). Lors de la première, dite d’ap- prentissage, un grand nombre d’images est utilisé pour apprendre au logiciel à reconnaître nos échantillons d’intérêt. Le système peut alors dans un second temps être appliqué à de nouveaux échantillons dont il devra identifier les objets et déterminer les propriétés.

Figure 37: Exemple de ML sur des images de microscopie électronique de feuilles d’Arabidopsis tha- liana. Dans cet exemple, utilisant le plugin « trainable weka (Waikato Environment for Knowledge Analysis ) segmentation TWS» pour FiJi, l’image initiale (1) est annotée manuellement pour les différents objets

d’intérêt, ici, les grains d’amidon (rouge), les stroma des plastes (vert), les membranes des cellules (violet) et les autres partie de la feuille (jaune) (2). L’utilisateur propose alors différents modes de classification

et l’algorithme détermine quels ensembles de paramètres permettent d’attribuer à chaque pixel une des classes précédemment définies (3). Une fois le classificateur entrainé, l’ensemble des pixels de l’image va

être attribué à une classe (4). On peut alors appliquer ce classificateur à un ensemble d’images et une carte

de probabilité sera alors attribuée à chaque pixel, permettant de détecter automatiquement nos différents objets et associant un indice de confiance à chaque pixel. Les algorithmes de segmentation traditionnels

Le machine learning (ML) a de nombreux domaines d’application, parmi lesquels la clas- sification de données. Dans ce cas, la première étape consiste à annoter manuellement des échantillons représentatifs des différents objets présents dans nos images. L’algorithme de ML sélectionne alors automatiquement les paramètres permettant de discriminer les objets et peut être appliqué à un grand nombre d’images. La figure 37 présente de façon schématique une intégration de ce type d’approche appliqué au traitement d’image.

L’exemple choisi, avec la détection de grains d’amidon dans les feuilles Arabidopsis tha- liana est à la base de notre projet de recherche basé sur l’utilisation du ML pour la microscopie, développé en collaboration avec Fabrice Wattebled (équipe Glycobiologie végétale, UGSF).