• Aucun résultat trouvé

4.3 Discussion

4.3.2 Procédure(s) de calibration et de validation

Après avoir effectué les mesures coïncidentes entre les données in-situ, groupées en assemblages (profils pigmentaires), et les classes d’anomalies de luminance SeaWiFS, des calibrations ont été effectuées afin de labelliser empiriquement les classes de Ra(λ). Pour rappel, la procédure de calibration et de validation a été effectuée 400 fois afin de prendre en compte différentes situations de sous-set de données et d’observer l’influence de la séparation en 80-20% du jeu de données sur la calibration.

quelques rares classes de Ra(λ)7, les calibrations distinctes donnent souvent 100% de ré-sultats identiques (et en moyenne, 92,81% de calibration sur 400 procédures), c’est-à-dire qu’une classe de Ra(λ), lorsqu’elle peut être labellisée (nombre de mesures coïncidentes suf-fisant), l’est qu’importe la séparation entre les données de calibration et de validation. Ceci peut-être expliqué par le fait que les données de matchups sont peu nombreuses (123 me-sures coïncidentes) et que leur classification est stable (voir Section ci-dessus).

En revanche, la procédure de répétition est intéressante pour la validation. En effet, si par exemple une mesure coïncidente est différente des autres en termes de groupe phytoplanc-tonique pour une classe de Ra(λ) qui possède 5 mesures coïncidentes, alors la validation pourra être de 0% si cette mesure différente est isolée dans les données de validation ou de 100% si cette mesure est isolée dans les données de calibration. Puisque ce point particulier à une chance sur 5 de se trouver dans les données de validation, nous devrions observer un score moyen de validation de 80% avec un pourcentage de calibration de 100%. La répéti-tion des procédures de validarépéti-tion a permis de juger la robustesse de la validarépéti-tion face à la séparation aléatoire des 20 % de données servant à la validation. En effet, si l’on considère l’exemple ci-dessus, ne réaliser qu’une labellisation tend à sur-estimer ou sous-estimer les scores de validation, voire d’éliminer un label lorsque sa validation montre un score faible lors d’une seule procédure. Dans ce sens, une procédure répétitive permet d’augmenter les chances de trouver un label gagnant pour une classe de Ra(λ).

In-situ, à partir de toutes les données, nous avons défini dix assemblages de phytoplancton

sur la base de leur composition pigmentaire relative (description page 118). Sur ces dix assemblages in-situ, uniquement six ont été associés à une ou plusieurs classes de Ra(λ). Les quatre autres assemblages in-situ ne présentaient pas assez de mesures coïncidentes et n’ont donc pas pu être associés à un signal spécifique (ces assemblages sont les assemblages n°1, 3, 7 et 9 décrits page 118).

Les pourcentages de validation de la version 2017 de la calibration s’étendent de 50% de bonnes identifications (pour les "dinoflagellés" dominants, mais qui, pour rappel, a été labellisé avec peu de mesures coïncidentes) à 92% de bonnes identifications pour les diatomées (mais pour lesquelles une seule classe de Ra(λ) a été labellisée). L’ensemble des scores de validation est correct. En considérant la version Mixte (cette thèse couplée à la labellisation de Alvain et al. (2008)), les scores de validation diminuent, mais restent acceptables (de 50 à 80% de bonnes identifications). Étant donné que la labellisation Mixte prend en compte la projection des labels de Alvain et al. (2008), définis par les enveloppes statistiques, sur la carte auto-organisatrice de Ben Mustapha (2013), il n’est pas étonnant de voir les scores de validation diminuer. En effet, cette projection des labels

7. Par exemple, les "dinoflagellés" n’ont été associés à la classe de Ra(λ) som n°44 que dans 58% des calibrations, soit 230 procédures, et dont le score de validation du label "dinoflagellés" est en moyenne de 53%. La validation montre une confusion avec les diatomées dominantes, sans que ce groupe ne soit associé à cette classe de Ra(λ).

4.3. Discussion

a probablement entrainé une sur-labellisation des classes de Ra(λ), qui n’aurait pas été possible avec les données actuelles (en effet, nous n’avons pu labelliser que 32% de la diversité des classes de Ra(λ)). Ceci n’est pas vérifiable puisque les données in-situ dont nous disposons ne le permettent pas.

Lorsque l’identification est mauvaise, il existe des hypothèses pouvant expliquer ces er-reurs :

— Le groupe des Nanoeucaryotes dominants est principalement confondu avec l’as-semblage de diatomées et de nanoeucaryotes (18% de confusion avec ce groupe). La dominance étant basée sur un seuil fixe sur les concentrations en pigments bio-marqueurs, nous pouvons imaginer que certaines des données in-situ considérées comme l’assemblage de diatomées et de nanoeucaryotes sont à la limite de la domi-nance des nanoeucaryotes. En effet, pour 26,6% des mesures coïncidentes qui ont été considérées comme des diatomées et des nanoeucaryotes mélangés, les nanoeu-caryotes ont une concentration en pigments biomarqueurs en moyenne à moins de 10% de la dominance (soit une concentration relative d’environ 0,12 en HF19 alors que la dominance est atteinte à 0,14).

— Les Prochlorococcus dominants sont confondus majoritairement avec l’assemblage de Synechococcus-like et de Prochlorococcus (12% des mauvaises identifications) ainsi que les Prochlorococcus non dominants (11% des mauvaises identifications) ; pour des raisons similaires à celles évoquées au-dessus. Dans la version de 2008 et de 2014, une part non négligeable des Prochlorococcus dominants étaient confondus avec les Nanoeucaryotes dominants (respectivement 14 et 19,35% de mauvaises identifications pour les deux versions), ce qui n’est pas retrouvé ici d’après les données utilisées pour la validation.

— Les diatomées dominantes sont confondues le plus souvent avec les nanoeucaryotes dominants (19,9% des mauvaises identifications). C’est aussi avec ce groupe que les diatomées étaient le plus confondues dans les versions antérieures de PHYSAT, sauf que les proportions de confusions étaient différentes (16,67% dans la version 2008 et 24% en 2014).

— Les Prochlorococcus spp. non dominants sont confondus le plus souvent avec l’as-semblage de diatomées et de nanoeucaryotes (9,6% de mauvaises identifications) et les Prochlorococcus spp. dominants dans 7,7% des mauvaises identifications. L’er-reur commise entre les Prochlorococcus spp. dominants est non dominant s’explique aussi par les seuils sur les pigments. En revanche, elle est plus difficile à expliquer pour la confusion avec l’assemblage de diatomées et de nanoeucaryotes puisqu’ils ne font pas partie des mêmes catégories de phytoplancton (taille, pigments, envi-ronnements préférentiels).

— De même, l’assemblage de diatomées et de nanoeucaryotes est lui aussi confondu avec du Prochlorococcus spp. non dominant (21,3% de mauvaises identifications). Il semblerait donc, d’un côté comme de l’autre que ces deux assemblages soient confondus soit parce que les données in-situ peuvent avoir été mal classées (cas d’échantillons instables dans la classification pigmentaire), soit parce que dans cer-taines situations, les spectres d’anomalies de luminance de ces deux groupes peuvent être assez ressemblants en fonction de la combinaison de facteurs qui induisent l’anomalies (Alvain et al. (2012), discuté ensuite).

— L’assemblage de Synechococcus spp.-like et de Prochlorococcus spp. est confondu, dans des proportions assez similaires, avec tous les autres assemblages qui contiennent ces groupes (qu’ils soient dominants, non dominant ou mélangé), avec une majo-rité des confusions pour les Prochlorococcus spp. non dominants. Comme pour les précédents points, cela peut également s’expliquer par des seuils fixes de domi-nance, alors que nous essayons d’établir une classification plus flexible des groupes phytoplanctoniques.

— Les dinoflagellés, qui ont été labellisés pour une seule classe de Ra(λ), et avec uniquement 3 mesures coïncidentes sont confondus avec les diatomées dominantes.

Ces observations sont similaires, bien que les scores soient légèrement différents, entre les deux versions présentées ici (v2017 et vMixte).

Nous tenons à rappeler que les scores de validation dépendent des données in-situ. Ainsi, nous pouvons considérer que les scores de validation trouvés sont acceptables au regard du nombre de mesures coïncidentes mais surtout du nombre de groupes déterminés in-situ. En effet, plus le nombre de groupes in-situ à associer avec les classes de Ra(λ) est grand, plus on s’attend à diminuer les scores de validation. Cependant, les scores de validation présen-tés ici restent dans les mêmes ordres de grandeurs que ceux trouvés pour les précédentes validations (2008 et 2014).

De plus, les confusions trouvées pour chacun des assemblages phytoplanctoniques ont un sens écologique. En effet, les petites cellules sont confondues entre-elles (i.e., les

Pro-chlorococcus et les Synechococcus-like), et les plus grandes cellules également (diatomées,

nanoeucaryotes et dinoflagellés). La taille des cellules joue en effet un rôle sur les environ-nements préférentiels du phytoplancton (Margalef, 1997), ce qui induit que ces cellules de tailles similaires peuvent se trouver dans des environnements similaires. En ajoutant à cela le côté empirique de la méthode, il est facile de comprendre que ces confusions peuvent exister lors de l’association des Ra(λ) et des groupes phytoplanctoniques. Il aurait été plus inquiétant de confondre en grande proportion des diatomées dominantes avec des

4.3. Discussion

ces deux groupes dominent des masses d’eau juxtaposées (dans le cas de l’efflorescence de diatomées dans l’Océan Austral par exemple).

4.3.3 Distribution spatiale des assemblages via la distribution des classes