• Aucun résultat trouvé

Choix de la distance seuil et résultat du partitionnement

3.3 Partitionnement de l’échantillon générateur

3.3.5 Choix de la distance seuil et résultat du partitionnement

La normalisation est spectrale et inversement proportionnelle à la variance du spectre considéré : 𝜔𝑛(𝜆𝑙) = 1 𝜎𝑠𝑛2(𝜆𝑙) ∑ 𝜎 1 𝑠𝑛2(𝜆𝑙) 𝒩𝜆𝑄 𝑙 (3.3.6)

Une fois le spectre normalisé 𝑠𝑛 agrégé à la partition 𝑞, nous le notons 𝑠𝑞𝑛.

3.3.4 Partitionnement

Suite à cette description, on peut définir le cahier des charges pour le partitionnement :

 il doit conserver la diversité des formes des spectres, même si celles-ci sont sous représentées, en assurant un découpage de l’hyper-espace régulier.

 Il doit être capable de partitionner un ensemble continu, sans agrégat distinct, dans des hyper-volumes équivalents.

 il doit prendre en compte la variance de chaque spectre dans le processus de partitionnement.

Pour répondre à ces exigences, nous utilisons un algorithme fonctionnant sur le principe de l’agrégation autour de centres mobiles.

L’agrégation se fait en trois itérations : la première permet la constitution des partitions, la seconde et la troisième itération précisent leur définition en recalculant les centroïdes et réaffectant les spectres aux partitions.

Le nombre de partition découle d’un seul critère, la distance maximale tolérée entre un spectre et le centroïde pour que le spectre soit agrégé à la partition associée. La valeur à attribuer à cette distance seuil est donc cruciale. Elle sera discutée ultérieurement (cf. § 3.3.5)

 La première itération permet la génération des centroïdes en parcourant l’ensemble des spectres de l’échantillon générateur. Le premier spectre rencontré est défini comme le centroïde de la première partition. Puis on calcule la distance du second spectre à ce centroïde. Si celle-ci est inférieure à la distance seuil, alors ce spectre est ignoré et on passe au spectre suivant. Si la distance est supérieure à la valeur seuil, alors le spectre est défini comme un nouveau centroïde. Pour le n-ième spectre, on cherche parmi les

151 centroïdes créés celui dont il est le plus proche, puis en fonction de cette distance par rapport au seuil, il génère ou non un nouveau centroïde.

Une fois les centroïdes définis, on peut commencer l’agrégation des spectres de l’échantillon générateur autour de ces spectres de référence :

 La seconde itération agrège chaque spectre à la partition du centroïde dont il est le plus proche. Pour cela, à chaque nouveau spectre assigné à une partition, on somme sa valeur aux spectres précédemment associés et on incrémente de 1 le nombre de spectres de la partition. Pendant cette étape on ne génère aucun nouveau centroïde.

Après ce second parcours des spectres, on définit le barycentre 𝐶𝑞(𝜆) de chaque partition en faisant la moyenne des 𝑁𝑞 spectres normalisés 𝑠𝑞𝑛(𝜆) agrégés dans la partition 𝑞 :

𝐶𝑞(𝜆) = 1

𝑁𝑞∑ 𝑠𝑞𝑛(𝜆)

𝑁𝑞

𝑛=1

(3.3.7)

Ces barycentres sont les nouvelles définitions des centroïdes et permettent une meilleure représentation des spectres de chaque partition.

 La troisième itération est un raffinement des partitions avec une dernière agrégation et fonctionne de la même manière que la seconde. Quelques informations supplémentaires sont néanmoins créées : en plus de la somme simple des spectres pour chaque partition, on calcule leur somme quadratique. On identifie aussi à chaque spectre de l’échantillon générateur sa partition, ce qui est utile par la suite pour associer les paramètres environnementaux aux partitions.

A la fin de cette étape, certaines partitions peuvent être vides, et la redéfinition de la position des centroïdes à l’étape précédente a pu rendre certaines partitions redondantes. Nous les supprimons. Les centroïdes 𝐶𝑞(𝜆) finaux sont calculés. En utilisant les sommes simples, les sommes quadratiques des spectres par partition, on calcule l’estimateur non biaisé de l’écart type de la distribution des spectres normalisés 𝑠𝑞𝑛 au sein de chaque partition 𝑞 :

𝜎𝐶𝑞(𝜆) = √𝑁𝑁𝑞

𝑞− 1(𝑠̅̅̅̅̅̅̅̅ − 𝐶𝑞2(𝜆) 𝑞2(𝜆)) (3.3.8) On définit également pour chaque partition, l’écart type relatif moyen associé aux incertitudes normalisées 𝜎𝑠𝑞𝑛 des mesures des 𝒩𝑞 spectres normalisés 𝑠𝑞𝑛 de la partition 𝑞 :

𝜎𝑠𝑞(𝜆) 𝐶𝑞(𝜆) = √ 1 𝑁𝑞∑ ( 𝜎𝑠𝑞𝑛(𝜆) 𝑠𝑞𝑛(𝜆)) 2 𝑁𝑞 𝑛=1 (3.3.9)

Ces deux paramètres seront utiles lors de la comparaison des centroïdes avec des modélisations (cf. § 3.4).

Une fois les centroïdes et leur écart type redéfinis, nous pouvons contrôler la qualité du partitionnement.

3.3 Partitionnement de l’échantillon générateur

152

3.3.5 Choix de la distance seuil et résultat du partitionnement

Le choix de la distance seuil entre un spectre d’une partition et le centroïde associé affecte directement le nombre de partitions. Une grande distance produirait un faible nombre de partitions contenant chacune de nombreux spectres de formes assez variées. Une trop faible distance génèrerait un nombre de partitions proche du nombre de spectres générateurs et serait donc sans intérêt. Pour avoir une idée du partitionnement dans l’espace des longueurs d’onde, nous choisissons une distance seuil exagérément grande de 0,25 (à comparer à la valeur des spectres à 555 nm égale à 1). Cette grande valeur rend possible la visualisation d’un petit nombre de partitions (Fig 3.3.4).

Fig 3.3.4 : Visualisation par projection sur deux bandes spectrales du partitionnement de l’échantillon générateur pour une distance seuil de 0,25. En haut, la projection sur deux bandes Libre-Libre distantes des spectres de l’échantillon utilisant sept couleurs différentes pour la représentation des partitions. En légende, le numéro de la partition « P# » et le nombre de spectres agrégés correspondant. En bas, la localisation des bandes utilisées pour la projection. Le choix des bandes correspond à des zones spectrales faiblement corrélées.

Les partitions paraissent avoir des volumes équivalents. Plus particulièrement, on peut comparer la partition P7 en bas à droite en bleu, assez peuplée (3936 spectres) et la partition de volume équivalente P13 tout en haut à gauche en cyan, très peu peuplée (178 spectres). Cette observation met en évidence la conservation de volume de partition malgré la faible densité de spectres dans certaines zones.

153 A ce stade, les conditions présentées dans le cahier des charges (cf. § 3.3.4) sont remplies pour cette méthode de partitionnement. Nous pouvons réduire la valeur seuil, cette diminution réduira le volume des partitions et augmentera leur nombre.

Après ce premier contrôle, nous réalisons le partitionnement pour une valeur seuil finale de 0,03, (toujours à comparer à la valeur des spectres à 555 𝑛𝑚, soit 1). Cette valeur est choisie comme compromis entre :

 La représentativité des partitions : la diversité spectrale au sein des partitions, représenté par l’écart type 𝜎𝐶𝑞(𝜆) de la distribution des spectres normalisés 𝑠𝑞𝑛 au sein de chaque partition 𝑞 (équation (3.3.8)), doit être inférieur à l’écart type 𝜎𝑠𝑞(𝜆) associé aux incertitudes normalisées 𝜎𝑠𝑞𝑛 des spectres normalisés 𝑠𝑞𝑛 de la partition 𝑞 (équation (3.3.9)).

 Le nombre de partitions doit être suffisamment réduit pour notre analyse numérique (~1000 partitions).

Ainsi nous créons un groupe de 𝒩𝑝 = 1 175 centroïdes ainsi que les écarts types associés à toutes les partitions composées d’au moins 2 spectres. Le gain en taille de l’échantillon est d’un facteur 140 396 1 175⁄ ≅ 119. Les centroïdes sont classés, par ordre décroissant, en fonction de la population de leur partition. La figure suivante (Fig 3.3.5) présente 20 de ces centroïdes sélectionnés toutes les 58 partitions pour couvrir l’ensemble du groupe généré.

Fig 3.3.5 : 20 centroïdes parmi les 1175 générés, répartis toutes les 58 partitions et classés par ordre décroissant de population (du bleu au rouge). A droite, le tableau indique l’identifiant du centroïde « P# » et le nombre de spectres agrégé dans sa partition.

Comme prévu dans l’étude de la distribution des données (cf. § 3.3.2), on constate une forte disparité des distributions des spectres dans les partitions (Fig 3.3.6). Pendant l’analyse statistique, cette densité de population sera utilisée pour la pondération des centroïdes.

3.3 Partitionnement de l’échantillon générateur

154

Fig 3.3.6 : Distribution des spectres dans les partitions. Le repère à la 459ème partition indique le seuil des partitions statistiquement bien représentées, avec un nombre de spectres supérieur ou égal à 30, et celles moins bien représentées. Les partitions de numéro supérieur à 1130 ne comprennent qu’un spectre.

A droite de la figure (Fig 3.3.6), on constate qu’il n’est pas possible de calculer l’écart type de 3,8 % des partitions puisqu’elles ne contiennent qu’un unique spectre. Cela n’a pas d’effet notable car après pondération des populations leur contribution est seulement de 0,03 % de la contribution de l’ensemble de l’échantillon.

Les valeurs en fonction de la longueur d’onde composant les centroïdes ne sont pas toutes définies avec la même précision. C’est pourquoi il est intéressant de comparer les écarts types relatifs moyens sur l’ensemble des 𝒩𝑝 partitions. Cette comparaison permet de juger de la qualité de représentativité des spectres normalisés 𝑠𝑞𝑛(𝜆) par les centroïdes 𝐶𝑞(𝜆) des 𝒩𝑝 partitions 𝑞 :

 L’écart type relatif moyen issu des écarts types 𝜎𝐶𝑞(𝜆) des distributions des spectres normalisés 𝑠𝑞(𝜆) au sein de chaque partition 𝑞 (équation (3.3.8)), donné par :

𝜎𝐶(𝜆) 𝐶̅(𝜆) = √∑ 𝜔𝑁𝑞(𝜎𝐶𝑞(𝜆) 𝐶𝑞(𝜆)) 2 𝒩𝑝 𝑞=1 ; 𝑁𝑞> 1 (3.3.10)

Avec la moyenne pondérée 𝐶̅(𝜆) des centroïdes 𝐶𝑞(𝜆) :

𝐶̅(𝜆) = ∑ 𝜔𝑁𝑞𝐶𝑞(𝜆) 𝒩𝑝 𝑞=1 (3.3.11) 𝜔𝑁𝑞 = 𝑁𝑞 ∑ 𝑁𝒩𝑝 𝑞 𝑞 (3.3.12)

Où 𝜔𝑁𝑞 est le poids normalisé de chaque partition 𝑞 de population 𝑁𝑞, c’est-à-dire la fréquence d’occurrence de la distribution spectrale du centroïde 𝐶𝑞(𝜆) pour le climat de Vaulx-en-Velin.

155

 L’écart type relatif moyen issu des écarts types 𝜎𝑠𝑞(𝜆) associés aux incertitudes normalisées 𝜎𝑠𝑞𝑛 des spectres normalisés 𝑠𝑞𝑙 de la partition 𝑞 (équation (3.3.9)), donné par : 𝜎𝑠(𝜆) 𝐶̅(𝜆) = √∑ 𝜔𝑁𝑞(𝜎𝑠𝑞(𝜆) 𝐶𝑞(𝜆)) 2 𝒩𝑝 𝑞=1 (3.3.13)

Nous pouvons donc comparer dans la figure suivante (Fig 3.3.7), en moyenne sur les partitions, la distribution des spectres face à leur incertitude de mesure.

Fig 3.3.7 : Comparaison des écarts types relatifs associés aux distributions des spectres dans les partitions (𝜎𝐶(𝜆) 𝐶 ̅(𝜆) en bleu) et aux incertitudes des mesures spectrales (𝜎𝑠(𝜆) 𝐶 ̅(𝜆) en rouge).

Les écarts types relatifs 𝜎𝐶(𝜆) 𝐶̅(𝜆)⁄ associés aux distributions sont nettement inférieurs aux écarts types relatifs associés aux incertitudes de mesure 𝜎𝑠(𝜆) 𝐶̅(𝜆)⁄ ce qui est un gage de bonne représentativité des partitions. L’augmentation des écarts types vers 400 𝑛𝑚 et dans les infrarouges s’explique par la faible pondération dans les calculs de distances, justifiée par les fortes variances des spectres dans ces domaines spectraux (cf. § 3.3.3).

Le partitionnement nous a permis de réduire la taille de notre échantillon d’un facteur proche de 120. Cela permet à la fois de faciliter l’analyse statistique, mais aussi de se faire une idée des spectres typiquement rencontrés dans la lumière naturelle ainsi que leur fréquence d’occurrence. La partie suivante augmente l’intérêt de ces centroïdes en étendant le domaine spectral de 280 à 1500 𝑛𝑚. Ainsi, ces nouveaux centroïdes trouveront un intérêt dans de nombreuses applications telle la santé ou l’énergie où la connaissance de l’UV est de l’IR proche sont nécessaires.

156