• Aucun résultat trouvé

Décomposition NMF de spectres Raman en composantes principales

3. Méthodes de traitement de donnée utilisées

3.2. Décomposition NMF de spectres Raman en composantes principales

࢐ୀ૚ ( 3.21 )

avec M le nombre total de profils expérimentaux et ߪ௜௝ l’incertitude sur la concentration de l’élément i. Les fonctions ܥ൫ݔ, ݐ൯ et ݓ൫ܽ, ݔ, ݐ൯ correspondent aux concentrations mesurées (ܥ) et prédites (ݓ) en fonction de la position ݔ et du temps ݐ. Le paramètre ܽ contient les valeurs propres ainsi que des éléments indépendants des vecteurs propres.

3.2. Décomposition NMF de spectres Raman en

composantes principales

Bien que l’étude de spectres Raman de la silice vitreuse ait commencé dans les années 1950 (Harrand, 1954, Flubacher et al., 1959), il faut attendre le milieu des années 1970 pour voir apparaitre des études dans les verres silicatés plus complexes. D’abord dans les verres binaires (Brawer & White, 1975) puis dans des systèmes ternaires et quaternaires d’aluminosilicates (Brawer & White, 1977). Ces publications d’intérêt pour les sciences de la Terre ont par la suite donné lieu à un grand nombre d’études sur des systèmes géologiques. On peut citer une contribution particulièrement importante de ce genre de travaux dans les années 1980 de la part de Furukawa(Furukawa et al., 1981), Mc Millan(McMillan, 1984) et Mysen(Mysen et al., 1981). Des travaux sur le Raman plus proches des conditions géologiques, à savoir en température et pression in situ, commencèrent à compléter la base de données basse température à partir des années 1990 (Neuville & Mysen, 1996).

Il est important de rappeler que la nature d’une bande Raman dépend des modes de vibrations caractéristiques du milieu. Dans le cadre d’un cristal, la distribution autour de la vibration moyenne est assez faible car les modes de vibrations sont bien définis grâce à la périodicité de la structure cristalline. Dans le cadre du verre, le désordre de la structure génère des modes de vibrations plus variés, élargissant de ce fait considérablement la distribution en nombre d’onde autour de chaque bande. Des motifs spécifiques de la structure du verre peuvent aussi entrainer un déplacement des bandes en nombre d’ondes ou faire apparaitre de nouvelles bandes propres aux verres.Dans les verres silicatés, il y a deux zones particulièrement étudiées qui correspondent au bending (pliage par oscillation des angles entre les liaisons Si-O-Si) des réseaux de silice entre 400 et 800 cm-1 et au stretching (oscillation des distances Si-O par élongation/compression) de ces réseaux entre 800 et 1200 cm-1 (Figure 3.1)

Il convient donc de trouver une méthode reproductible pour que les bandes caractéristiques obtenues dans les verres soient comparables entre les différentes études. L’utilisation de fonctions Gaussiennes symétriques décrivant une bande Raman particulière s’est ainsi démocratisé (Mysen et al., 1982). La complexité venant du recouvrement de la plupart de ces bandes notamment au niveau des vibrations caractéristiques des tétraèdres SiO4 en fonction du nombre d’oxygènes pontants (espèces Qn avec n le nombre d’oxygènes pontants).

Figure 3. 1 : Spectre Raman typi

L’approximation du spectre Ram complexe comme Voigt consist des modes de vibrations attend laissés libres. La position en no restreint, permettant ainsi à ch ensuite à la minimisation de l’ Raman. Un des problèmes qu qu’on laisse aux fonctions gaus effet leur nombre requis pour certain doute sur le sens phy fonctions gaussiennes entraine déplacement en nombre d’ond incertitude liée à l’expérimenta d’unicité de la solution et mèn l’attribution des bandes (Neuvi Depuis quelques années, des laissant beaucoup moins de p une transformation orthogon combinaison linaire d’un nomb sont souvent empruntées à des On peut citer l’analyse en comp (Macnaughtan et al., 1972), ou 2010). Plus récemment, la dé (pour Non-negative Matrix Fac

typique d'un verre d'aluminosilicate acquis avec 532nm)

re Raman par des fonctions Gaussiennes ou nsiste donc à insérer ces fonctions aux position tendu. Les paramètres d’intensité et de largeur

nombre d’onde est généralement laissée libre à chaque gaussienne de conserver un sens phys de l’écart entre la combinaison de ces gaussien qui peut être soulevé sur cette méthode est gaussiennes et l’existence de plusieurs solution our un résultat correct peut être très grand, l physique de chacune. De plus, ne pas fixer

aine que les bandes caractéristiques obtenues ’ondes légèrement différent entre les études, ce entateur réalisant les ajustements. Cela pose do mène à des ambiguïtés et parfois des controv euville & Mysen, 1996, Mysen et al., 2003, Myse des méthodes basées sur une approche statis e place à l’arbitraire de l’opérateur voient le j gonale pour représenter un ensemble de ombre plus restreint des variables indépendante à des domaines d’analyses du signal plus ancienn composantes principales type PCA (Principal Com

, ou l’analyse en composantes indépendantes a décomposition en composante principales p

Factorisation) est une dérivée de PCA avec c Si-O Stretching

-OBending

avec un laser vert (λ = ou une forme plus itions caractéristiques eur à mi-hauteur sont bre dans un intervalle physique. On procède ssiennes et le spectre est la grande liberté tions équivalentes En and, laissant planer un xer les positions des ues peuvent avoir un s, ce qui entraine une e donc des problèmes troverses au sujet de

ysen, 1999)

tatistique multivariée le jour.Elles utilisent données par une antes. Ces méthodes iennes que le Raman. Component Analysis) es (Monakhova et al., es positive dite NMF ec comme contrainte

supplémentaire que les composantes doivent être positives (Hoyer, 2004). Il y a deux avantages à décrire des spectres Raman à travers des composantes positives :

1. Un spectre Raman est exclusivement positif donc chaque composante peut être reliée à un ou plusieurs paramètres physiques ce qui n’est pas toujours le cas pour les autres méthodes

2. Les bandes de vibrations ressortant de façon caractéristique dans les composantes peuvent être comparées à l’abondante littérature de bandes analysées par des fonctions Gaussiennes.

Ces méthodes statistiques nécessitant un nombre important de données pour être fiables. Leur popularité a considérablement cru avec l’arrivée sur le marché d’appareils capables d’acquérir rapidement une grande quantité de spectres Raman (Hodroj et al., 2013). De ce fait, la plupart des appareils sont aujourd’hui livrés avec des logiciels d’exploitation de spectres par analyse en composantes principales.

L’obtention de composantes positives par décomposition NMF et la possibilité de relier l’intensité des composantes obtenues à la chimie du verre présentent un avantage dans le cadre de notre étude. Des résultats prometteurs ont été obtenus sur des systèmes silciatés binaires (Malfait et al., 2007, Malfait et al., 2008, Malfait, 2009, Herzog & Zakaznova-Herzog, 2011) et étendue récemment pour un système ternaire Na2O-CaO-SiO2(Woelffel et al., 2015). Le code python développé par Woelffel dans le cadre de sa thèse à Saint-Gobain Research Paris a été adapté et utilisé pour notre système expérimental à 5 éléments, mais aussi pour quelques cas plus industriels encore plus complexes. Les fondements mathématiques de ce code sont développés ci-dessous.

Ainsi, dans notre approche nous considérons que dans un ensemble de spectres Raman, chaque spectre peut être décrit par un nombre ݇ de composantes pondérée par un coefficient ܥ. Les composantes sont fixes pour tout le système alors que les coefficients sont propres à chaque spectre. Notre développement commence par une première étape de PCA et la détermination de nombre de composantes pertinentes pour la description de notre système Ce nombre de composantes peut se déterminer à travers l’approche de Malinowski (Malinowski, 1977a). Pour ce faire, l’intensité ܫ௡,௣ en chaque nombre d’onde mesuré ݌ et pour chaque spectre ݊ sont représentés dans une matrice de taille ݊ ൈ ݌.

∑ ൌ ൦ ࡵ૚,૚ ⋯ ⋯ ࡵ૚,࢖ ⋯ ⋯ ⋯ ⋯⋯ ⋯ ⋯ ࡵ࢔,૚ ⋯ ⋯ ࡵ࢔,࢖൪Σ ( 3. 22 )

Cette matrice Σ est décomposée en composantes avec des valeurs décroissantes de ߣ utilisées pour déterminer le nombre ݇ de composantes. Un indicateur d’erreur est aussi calculé à partir de cette matrice(Malinowski, 1977b). Cet indicateur renseigne pour un jeu de données sur l’erreur commise en fonction du choix du nombre de composante tel que présenté (Figure 3.2).

∀ݎ ∈ ሼ1, … , ݊ െ 1ሽ ܧݎݎ݁ݑݎሺݎሻ ൌ ሺ݊ െ ݎሻܴܧሺݎሻ Avec ܴܧሺݎሻ ൌ ට೔సೝశభ

௣ሺ௡ି௥ሻ

On pourrait instinctivement croire que plus le nombre de composantes est grand et plus l’écart entre la combinaison de composantes et le spectre expérimental est faible. Or, à partir d’un certain nombre de composantes, celles que nous ajouterons ne vont représenter que du bruit de mesure. Cela dégrade la qualité de la reconstruction du spectre lorsque des composantes représentant le bruit doivent être utilisées.

Par la suite, une opération de type NMF est appliquée pour décomposer cette matrice en deux matrices non-négatives de taille ݊ ൈ ݇ et ݇ ൈ ݌ :

∑ ൌ ࡯ ൦ ࡯૚,૚ ⋯ ࡯૚,࢑ ⋯ ⋯ ⋯ ࡯࢔,૚ ⋯ ࡯࢔,࢑ ൪ ቎࡯ࡼ૚,૚ ⋯ ⋯ ࡯ࡼ૚,࢖⋯ ⋯ ⋯ ࡯ࡼ࢑,૚ ⋯ ⋯ ࡯ࡼ࢑,࢖቏ ࡴ ( 3. 23 )

avec la matrice ࡴ contenant les ݇ composantes partielles en fonction du nombre d’onde ݌ (ܥܲ௞,௣ሻ et la matrice ࡯contenant les coefficients associés ܥ௡,௞. La matrice ݊ ൈ ݇ que nous appellerons ࡯et ݇ ൈ ݌ que nous appellerons ࡴpermettent à travers une simple combinaison linéaire de décrire chacun des spectres présents dans la matrice principale

, ࢳൌ ∑ ࡯ ࢏,࢐

࢐ୀ૚ , ࢖࢕࢛࢘ ∀࢏ ∈ ሼ૚, … , ࢔ሽ ( 3. 24)

La factorisation est obtenue en minimisant alternativement la fonction d’erreur pour ࡯et ࡴ en les conservant toujours positives :

ࢌሺ࡯, ࡴሻ ൌ ‖ࢳ െ ࡯ࡴ‖ ( 3. 25 )

avec ‖. ‖ி qui représente la norme de Frobenius de la matrice et peut être ecit pour une matrice ࡭de forme ݊ ൈ ݉ :

‖࡭‖ ൌ ∑ ∑ หࢇ࢏,࢐ ൌ ∑ |࡭ | ࢏ୀ૚ ࢐ୀ૚ ࢏ୀ૚ ( 3. 26 )

Pour faciliter les interprétations, il est préférable que les composantes aient un signal aussi peu étendu que possible. En effet, nous cherchons à rapprocher au maximum l’allure de nos composantes à l’allure de courbes caractéristiques de bandes Raman qui sont peu étendues et d’allure Gaussiennes. En d’autres termes, on cherche à maximiser le nombre de 0 dans

notre matrice ࡴ. Pour ce faire, une contrainte est appliquée sur cette matrice pour modifier la fonction de coût

ࢌሺ࡯, ࡴሻ ൌ‖ࢳ െ ࡯ࡴ‖൅ ࣁ‖࡯‖൅ ࢼ ∑ ‖ࡴ

࢏ୀ૚ ( 3. 27 ) avec‖. ‖ une norme d’un vecteur V définie ݌ܽݎ: :

‖ࢂ‖ ൌ ∑ |࢜ |

࢏ୀ࢒ ( 3. 28 )

La contrainte que nous imposons sur le nombre de 0 présents dans la matrice ࡴdépend de deux paramètres arbitraires ߟet ߚ. Le terme ߚ agit directement sur le nombre de 0 quand le terme ߟ joue sur l’équilibre entre les matrice ࡴet ࡯. En effet, un nombre trop important de valeurs nulles dans la matrice ࡴ peut créer une compensation par l’augmentation de la valeur des coefficients de la matrice࡯.

Les méthodes présentées dans ce chapitre sont retranscrites dans des programmes python, libres de droits, développés au sein de l’unité mixte du laboratoire SVI Saint-Gobain/CNRS. La première est intégrée au package python Multidiff et permet d’extraire une matrice de diffusion à partir de profils de composition. La deuxième est intégrée dans un code permettant de décomposer en spectres Raman partiels non négatifs (méthode NMF) un grand nombre de spectres Raman. Leur interprétation à travers cette méthode de décomposition propose une alternative à l’étude par décomposition en plusieurs Gaussiennes.

4. Mobilité haute