• Aucun résultat trouvé

Chapitre 3: Les cartes auto-organisatrices : description détaillée de

3.4.1. Echantillonnage des données d’entrée et apprentissage de SOM

Le jeu de données d’apprentissage utilisé pour classer les anomalies spectrales à l’échelle globale comprend 714 264 spectres de Ra, tels que définis par Alvain et al. (2005), obtenus par le capteur SeaWiFS, à 5 longueurs d’onde dans le domaine du visible : 412, 443, 490, 510 et 555 nm. Ce jeu de données d’apprentissage a été obtenu après avoir procédé à un échantillonnage des spectres de Ra calculés pour toute la période d’observation du capteur SeaWiFS en prenant 2 jours par mois et un pixel sur 10. Les 2 jours ont été sélectionnés d’une manière régulière avec un intervalle de 15 jours. Cet échantillonnage a été fait pour chaque année entre 1998 et 2010. La normalisation des données n’a pas été nécessaire car les anomalies spectrales résultent déjà d’une normalisation de la luminance marine par un signal moyen de chlorophylle, ce qui réduit préalablement certains écarts dans les mesures satellitaires.

Différents tests d’apprentissage de SOM ont été effectués en utilisant séparément les sous-ensembles de spectres d’anomalies de luminance de toutes les années entre 1998 et 2010 (chaque sous-ensemble correspondant à une année échantillonnée tel que précisé ci-dessus). Le but de ces tests est de voir s’il existe des différences significatives en termes de formes et d’amplitudes entre les 100 vecteurs référents générés par l’apprentissage de SOM avec les différents sous-ensembles. Ceci n’ayant pas été le cas (voir en annexe la comparaison entre les vecteurs référents des différentes années testées), la phase d’apprentissage a été réalisée avec les données d’une seule année (2002, année centrale) qui sont donc représentatives de la diversité des spectres de Ra existante sur l’archive satellite traitée. Les critères sur l’épaisseur optique des aérosols et la concentration en chlorophylle a, définis dans le chapitre 2, ont de même été appliqués afin d’être en accord avec les valeurs utilisés pour le développement de la version 2008 de PHYSAT (Alvain et al., 2005 ; Alvain et al., 2008). Cela permet de faciliter la comparaison des deux approches.

Pour cette étude, nous avons choisi d’utiliser une carte auto-organisatrice carrée avec 100 neurones (10x10 neurones). Les spectres de Ra sont donc classés en 100 groupes distincts selon leur forme et amplitude, permettant ainsi d’avoir une discrétisation très précise de l’ensemble des observations. Le choix de la forme de la carte (carrée ou rectangulaire) ainsi

que du nombre de neurones a été établi de sorte à minimiser les erreurs topologiques, de quantification vectorielle ainsi que la distorsion moyenne à la fin de l’apprentissage de SOM. Ainsi, afin de déterminer la carte SOM la plus optimale à notre problème, plusieurs tests ont été établis en faisant varier la taille de la carte (nombre de neurones) en gardant la même forme (carrée ou rectangulaire), puis, en faisant varier la forme de la carte tout en maintenant le même nombre de neurones. Pour chaque configuration de SOM, les erreurs topologiques, de quantification vectorielle ainsi que la distorsion moyenne de tous les neurones ont été calculés. Le tableau 3.1 rassemble les valeurs de ces paramètres pour chaque configuration de SOM testée. La distorsion moyenne est un indicateur à prendre particulièrement en considération car il résume la qualité globale de SOM en prenant en compte les erreurs topologiques et de quantification vectorielle ainsi que le lien entre ces deux paramètres. En considérant ce paramètre, la carte SOM optimale est celle ayant une forme rectangulaire et une taille de 10x10 neurones. Cette configuration est aussi celle qui donne les erreurs topologiques et de quantification vectorielle (respectivement 0,012 et 0,254) les plus faibles comparées aux autres configurations.

Tableau 3.1. Valeurs des paramètres d’erreur (Q.E pour erreur de quantification vectorielle, T.E pour erreur topologique et A.D pour distorsion moyenne) pour les différentes configurations de SOM testées

4x4 8x2 8x8 16x4 20x5 10x10

Q.E 0,313 0,326 0,308 0,321 0,267 0,254

T.E 0,027 0,047 0,032 0,059 0,067 0,012

A.D 0,9443 0,8132 0,8039 0,7985 0,7585 0,73

De même, la carte de 10x10 neurones représente le choix idéal parmi les différentes configurations testées étant donné qu’on cherche à avoir une classification fine des anomalies spectrales indépendamment du nombre de groupes de phytoplancton qui sera détecté (ce dernier étant relié aux données in situ et susceptibles d’évoluer vers un plus grand nombre à l’avenir). Les cartes auto-organisatrices sont utilisées, en premier lieu, dans le but d’avoir une classification précise des anomalies spectrales, dont les formes et amplitudes dépendent de plusieurs facteurs et qui représentent une information spectrale potentiellement utilisable (Alvain et al., 2012). La labellisation des neurones en termes de groupes de phytoplancton

représente une application finale de cette classification. Le choix d’un grand nombre de neurones permet ainsi de garder une certaine flexibilité quand il s’agira d’exploiter de grandes bases de données de pigments ou autres types d’informations in situ.

3.4.2. Variabilité des anomalies spectrales à l’échelle globale

Avec la configuration de SOM choisie, la classification des spectres de Ra donne une répartition équilibrée des données sur la carte auto-organisatrice, ce qui dénote d’une bonne qualité d’apprentissage. Les vecteurs référents classent un maximum de 14245 spectres (neurone 100) et un minimum de 2941 spectres (neurone 19). Le nombre de spectres associés à chaque neurone à la fin de l’apprentissage est affiché dans le tableau 3.2. Les spectres référents sont affichés sur la figure 3.6 qui montre l’ordre topologique induit par l’algorithme SOM à la fin de la phase d’apprentissage. La fonction de voisinage impose que les spectres voisins au niveau de la carte auto-organisatrice soient similaires en termes de forme et d’amplitude et vice-versa. Chaque spectre référent représente une synthèse de la variabilité de tous les spectres de Ra classés par le neurone correspondant.

Tableau 3.2. Nombre de spectres de Ra associés à chaque neurone à la fin de la phase d’apprentissage, le numéro des neurones est indiqué entre parenthèses

(1) 9824 (11)7341 (21)9987 (31)6845 (41)5059 (51)5223 (61)8513 (71)13950 (81)9672 (91)12431 (2) 5495 (12)4360 (22)6428 (32)6460 (42)6337 (52)6404 (62)6857 (72)7377 (82)4600 (92)6307 (3) 7970 (13)6344 (23)8922 (33)8585 (43)8490 (53)8556 (63)9128 (73)10223 (83)7328 (93)10066 (4) 6075 (14)5708 (24)8021 (34)7864 (44)7860 (54)7978 (64)8610 (74)8891 (84)6295 (94)7819 (5) 5368 (15)5177 (25)7579 (35)7668 (45)7541 (55)7784 (65)8153 (75)8351 (85)5771 (95)6439 (6) 5588 (16)5177 (26)7411 (36)7594 (46)7324 (56)7641 (66)7577 (76)8240 (86)5612 (96)6602 (7) 7586 (17)5261 (27)7703 (37)7417 (47)6764 (57)6667 (67)6756 (77)8294 (87)6320 (97)8845 (8) 8964 (18)5192 (28)8195 (38)7434 (48)5888 (58)5679 (68)5820 (78)8410 (88)7133 (98)10262 (9) 4663 (19)2941 (29)5454 (39)5483 (49)4040 (59)4506 (69)4582 (79)5944 (89)4730 (99)5121 (10)8988 (20)4485 (30)8397 (40)5205 (50)3003 (60)7666 (70)8132 (80)7993 (90)5296 (100)14245

Figure 3.6. Représentation des spectres référents correspondant aux Ra associés à chaque neurone à la fin de la phase d’apprentissage. Pour chaque unité, l’axe des abscisses représente les longueurs d’onde et l’axe des

ordonnées représente les Ra. Les axes des ordonnées n’ont pas été mis à la même échelle afin de mettre en évidence les différentes formes des spectres

La figure 3.7 représente la projection des composantes des spectres référents comparées entre chacune des 5 longueurs d’onde prises en compte deux à deux. Puisque ces spectres référents (figure 3.6) représentent une synthèse (ou une compression) de l’information contenue dans le jeu de données d’apprentissage, les relations présentés dans la figure 3.7 sont représentatives de la variabilité des anomalies spectrales à l’échelle globale.

La figure montre que Ra (490), Ra (510) et Ra (555) sont globalement corrélés alors qu’elles sont significativement différentes de Ra (412) et Ra (443). Les valeurs des anomalies spectrales à 412 nm sont particulièrement différentes de toutes les autres longueurs d’onde. Cette observation est aussi mise en évidence par les spectres référents affichés dans la figure 3.6 qui montre que, pour un spectre donné, les plus grandes variations de Ra se situent entre les courtes longueurs d’onde (412 et 443 nm) et les plus grandes longueurs d’ondes (où les valeurs de Ra demeurent relativement constantes).

Comme cela a été expliqué dans le chapitre 2, la forme et l’amplitude des spectres de Ra dépendent principalement de l’environnement bio-optique. D’après l’étude théorique

d’Alvain et al. (2012), certaines situations spécifiques de dominances montrent des formes de Ra sans corrélations semblables à celles retrouvées globalement. C'est-à-dire que les valeurs de Ra à 490, 510 et 555 nm ne présentent pas forcément la même variabilité pour certains groupes de phytoplancton (Alvain et al., 2012). Garder toute l’information spectrale est par conséquent nécessaire d’autant plus que les corrélations montrées par la figure 3.7 concernent les spectres référents et ne représentent donc qu’une synthèse globale de l’information contenue dans la base de données d’anomalies spectrales. Ainsi, même si globalement on retrouve des corrélations fortes entres certaines longueurs d’onde, le choix a été fait de toutes les conserver en raison des cas spécifiques possibles qui pourraient être labellisé à partir de nouvelles mesures in situ à l’avenir. Ces analyses montrent que la classification faite par SOM en utilisant 100 neurones donne une répartition équilibrée des spectres de Ra sur la carte auto-organisatrice ainsi qu’une discrimination précise de la variabilité spectrale en termes de formes et d’amplitudes. La prochaine étape de la classification est supervisée. Elle consiste à établir le lien entre les spectres référents mis en évidence précédemment à la fin de la phase d’apprentissage et les groupes de phytoplancton identifiés à partir des données in situ de pigments. Cette étape, appelée labellisation, permettra par la suite d’exploiter les images satellitaires en associant chaque spectre de Ra à son vecteur référent le plus proche et générer ainsi des cartes de distribution globale des groupes phytoplanctoniques.

Figure 3.7. Projection des composantes des spectres référents comparées entre chacune des 5 longueurs d’onde prises en compte deux à deux

3.4.3. Amélioration de la caractérisation de la variabilité des anomalies spectrales