• Aucun résultat trouvé

Analyse discriminante par le parcours des Fonctions Propres Focales (FPF-AD) 54

4.3 Discrimination par parcours des Fonctions Propres Focales

4.3.4 Analyse discriminante par le parcours des Fonctions Propres Focales (FPF-AD) 54

Grâce à la propriété 4, nous savons que, si nous parcourons les FPF dans le sens croissant, l’espace engendré par les vecteurs propres associés est de plus en plus discriminant. Nous savons en outre que, dans les cas mal dimensionnés et/ou mal conditionnés, le zéro des FPF fournit une solution sur-ajustée (solution de l’AFD). L’idée de la FPF-AD est de générer une suite d’espaces discriminants de plus en plus ajustés, en parcourant les FPF dans le sens croissant avec des suites convergeant vers le zéro des FPF. Cette suite est ensuite testée par un critère de sur-apprentissage, comme par exemple une erreur de validation, afin de déterminer l’espace optimal.

Les autres propriétés permettent de définir des suites croissantes et convergeant vers le zéro des FPF. Trois méthodes sont ainsi données à titre d’exemple dans l’article associé :

Le parcours vertical utilise la propriété de bijectivité (héritée de la continuité et de la monotonie)

des FPF, pour réaliser un parcours en “tranches” verticales. Toutes les FPF sont scannées de manière synchrone.

Le parcours asynchrone se sert des propriétés géométriques des FPF. Il utilise une suite de Newton

Raphson, dont on est sûr qu’elle converge vers le zéro des FPF, à cause de leur décroissance et de leur courbure. Cette méthode scanne les FPF de manière indépendante (asynchrone) et adaptée à la forme de chacune d’elle.

Le parcours orthogonal consiste à implémenter un des deux parcours précédent, mais en

orthogo-nalisant l’espace après le calcul de chaque vecteur. Ce parcours est implémenté par l’algorithme récursif suivant, oùs est une suite de parcours vertical ou asynchrone :

1. i = 1

2. Pour chaques(k), calcul de v = u1(s(k))

3. Sii < c − 1 :

– Orthogonalisation de X par rapport à v : X= X(I − vvT)

– i = i + 1

– Aller à l’étape 2

4. Sinon, sortie de l’algorithme.

Le résultat est donc un arbre de profondeur c − 1. À un nœud de profondeur k est attachée

une base orthonormée d’un espace discriminant de dimension k. Cette méthode fournit donc

un nombre important de solutions. Elle présente l’avantage de produire des vecteurs discrimi-nants orthogonaux. Par contre, elle requiert un nombre important de calculs, croissant exponen-tiellement avec le nombre de classes. Il est donc nécessaire d’optimiser le parcours à chaque profondeur de l’algorithme.

4.3.5 Matériel et méthodes

La FPF-AD, implémentée avec les trois types de parcours exposés précédemment, plus la PLS-DA, ont été testées sur un problème de discrimination de variétés de raisins à partir d’une mesure en spectrométrie visible et proche infrarouge. L’expérimentation a porté sur3 variétés : carignan (crg),

grenache blanc (grb) et grenache noir(grn). Pour les variétés crg et grb, les ensembles d’apprentissage

a été coupé aléatoirement en deux parties égales. Ainsi, les ensembles d’étalonnage et de test étaient constitués den = 125 individus décrits par p = 256 variables.

Quelle que soit la méthode utilisée, une validation croisée leave-one-out a permis de calculer une erreur de validation croisée (CV E), exprimée en pourcentage de mauvaise classification, en regard

des paramètres suivants :

– Pour la PLS-DA, le nombre de variables latentes :nLV

– Pour le parcours vertical et le parcours asynchrone : β(k)

– Pour le parcours orthogonal : parcours de chaque niveau avec la méthode asynchrone paramé-trée avec une suiteβ(k)

– Pour toutes les méthodes, le nombre de vecteurs discriminants :nDV 4.3.6 Résultats et discussion

La figure 4.3 montre l’évolution de l’erreur de validation croisée pour les quatre modèles. A l’exa-men de ces courbes, les valeurs suivantes ont été retenues :

– Pour la PLS-DA,nLV = 10 et nDV = 2

– Pour le parcours vertical : β = 10−3.2 etnDV = 2

– Pour le parcours asynchrone :β = 1, 1.5, 2, · · · , 10.5, 11 et nDV = 2

– Pour le parcours orthogonal :β1 = 1, 2, · · · , 5, 5.1, 5.2, 5.3 et β2 = 1, 2, · · · , 5, 5.5, 5.6, · · · , 6

0 5 10 15 0 20 40 60 80 nLV CVE (%) n DV=1 nDV=2 10−5 10−4 10−3 10−2 10−1 0 10 20 30 40 βk CVE (%) n DV=1 nDV=2 0 5 10 15 0 10 20 30 40 βk CVE (%) nDV=1 n DV=2 2 4 6 8 2 4 6 8 10 βk 1st level βk 2 nd level 5 10 15 20 25 30 35 40 CVE (%) (a) (b) (c) (d)

FIG. 4.3 – Evolution de l’erreur de validation croisée (CV E) pour : (a) la PLS-DA, (b) le parcours vertical, (c)

le parcours asynchrone et (d) le parcours orthogonal.

Les résultats du test des quatre modèles paramétrés comme décrit ci-dessus sont reportés dans la table 4.4.

La PLS-DA semble moins efficace que l’AD-FPF, surtout si cette dernière est implémentée avec un parcours orthogonal. Cette première constatation doit néanmoins être tempérée par le fait que le modèle PLS-DA, choisi au vu de la cross-validation, est peut être trop ajusté aux données. Ainsi, au vu de la courbe deCV E, on aurait pu choisir 4 ou 8 variables latentes. La table 4.5 montre les résultats

PLS-DA Parcours vertical b YTY crg grb grn YbTY crg grb grn crg 44 - - crg 44 - -grb 6 46 - grb 6 49 -grn - 4 25 grn - 1 25 PE = 8.0 % PE = 5.6 %

Parcours asynchrone Parcours orthogonal

b YTY crg grb grn YbTY crg grb grn crg 47 - - crg 49 - -grb 2 50 - grb - 50 -grn 1 - 25 grn 1 - 25 PE = 2.4 % PE = 0.8 %

TAB. 4.4 – Résultat du test des quatre méthodes de discrimination.

sous ajusté ; il n’est pas capable de différencier la classe crg. Le modèle à 8 variables latentes est certes un peu meilleur que celui à 10 variables latentes, mais toujours bien moins bon que le parcours orthogonal. nLV = 4 nLV = 8 b YTY crg grb grn YbTY crg grb grn crg 37 - - crg 42 - -grb 12 50 - grb 8 49 -grn 1 0 25 grn - 1 25 PE = 10.4 % PE = 7.2 %

TAB. 4.5 – Résultat du test sur le jeu de données du modèle PLS-DA avec 4 et 8 variables latentes.

La figure 4.4 montre l’ensemble de test projeté dans l’espace discriminant, pour le modèle à par-cours othogonal, ainsi que les vecteurs discriminants qui forment une base orthonormée de cet espace. La forme de ces deux vecteurs est tout à fait interprétable, en terme de colorimétrie (relation entre les pics dans le visible et la couleur des baies) et de spectrométrie NIR (pic d’absorption de l’eau à 960 nm). Une interprétation détaillée peut être trouvée dans [Article VI].

Méthode PLS-DA FPF-AD vert. FPF-AD async. FPF-AF orth.

uT

1u2 -0.6153 0.0084 0.0046 0.0000

TAB. 4.6 – Cosinus entre les deux vecteurs discriminants, pour les quatre modèles.

4.3.7 Conclusion

En matière de discrimination sur des données mal conditionnées, la FPF-DA constitue bien une alternative originale. Par rapport à la PLS-DA, elle présente les caractéristiques suivantes :

– Toute l’information est prise en compte, directement, dans le calcul des vecteurs discriminants. Lorsque l’on utilise une PLS-DA, au moment du choix du nombre de variables latentes, on se prive d’une certaine quantité d’information. La décomposition factorielle réalisée par la PLS nous assure uniquement que les dimensions ignorées par le modèle sont telles que la covariance entre les scores et les degrés d’appartenance est plus faible que dans celles retenues. Dans

−1 −0.5 0 0.5 1 1.5 x 104 −10000 −5000 0 5000 Xu 1 Xu 2 crg grb grn 300 400 500 600 700 800 900 1000 1100 1200 −0.2 −0.1 0 0.1 0.2 0.3 Wavelength (nm) u 1 u2

FIG. 4.4 – En haut : Carte factorielle de l’ensemble de test après application du modèle basé sur le parcours orthogonal. En bas : Vecteurs discriminants du modèle.

300 400 500 600 700 800 900 1000 1100 1200 −0.2 −0.15 −0.1 −0.05 0 0.05 0.1 0.15 0.2 λ (nm) u 1 u2

[Ripley, 1996], il est montré que la discrimination par régression sur les degrés d’appartenance n’est équivalente à une véritable analyse discriminante qu’à la condition que les densités de probabilité des classes soient identiques. Le critère de séparabilité utilisé par la FPF-DA se base sur des hypothèses beaucoup moins fortes. Il semble donc que la FPF-AD permette de réaliser des modèles plus justes qu’avec une PLS-DA.

– Les paramètres de réglage des parcours sont continus ; ils peuvent donc être réglés très fine-ment. Pour la PLS-DA, par contre, le paramètre de réglage est discret. Chaque raffinement de l’algorithme consiste à ajouter une dimension au modèle, ce qui peut se révéler brutal.

– Les vecteurs produits sont très peu colinéaires, voire orthogonaux (dans le cas du parcours orthogonal), comme en témoigne la table 4.6, qui donne les cosinus entre les deux vecteurs discriminants pour les quatre méthodes, sur l’exemple ci-dessus. Le premier avantage de cette propriété est d’ordre algébrique : plus les vecteurs discriminants sont indépendants, meilleure est la définition de l’espace discriminant. Le deuxième a trait à l’interprétation des vecteurs discriminants : s’ils sont indépendants, leur interprétation spectroscopique sera facilitée. A titre d’illustration, il suffit de comparer les vecteurs discriminants de la PLS-DA reportés en figure 4.5 avec ceux de la FPF-AD orthogonale, reportés en figure 4.4.

Cependant, la FPF-AD est une méthode gourmande en puissance de calcul. De plus, le parcours orthogonal paraît compliqué à mettre en œuvre pour un problème à plus de 3 classes. En effet, le nombre de paramètres en fonction desquels la variation du SECV doit être examinée devient trop

important pour autoriser une visualisation graphique simple. Des optimisations doivent donc être trouvées pour rendre cette méthode plus facile à utiliser.

4.4 Perspectives de recherches

La discrimination avait été identifiée, dans le chapitre 1, comme une voie de recherche à la li-mite de la problématique de la robustesse. Dans ce cadre, elle permet d’effectuer des diagnostics qui peuvent modifier l’étalonnage multi-varié. Par exemple, dans le cas de la mesure de la qualité des fruits, on peut imaginer détecter la variété pour sélectionner le modèle le plus adapté. Elle peut aussi permettre de détecter en temps réel les spectres aberrants.

Si on élargit un peu le point de vue, je pense que la discrimination deviendra en fait très im-portante, voire capitale, dans un avenir assez proche. En effet, la spectrométrie est utilisée (depuis relativement peu de temps) comme une technique palliative des mesures destructives classiques. Son domaine de prédilection était donc le laboratoire de chimie analytique et les grandeurs mesurées étaient des concentrations. La chimiométrie s’est donc tout naturellement intéressée à l’étalonnage de la mesure quantitative. Dorénavant, on commence à envisager d’utiliser la spectrométrie comme un moyen invasif mais non destructif, capable de fournir des informations générales sur le produit examiné, à relier à des caractéristiques qui peuvent être de nature qualitative. Notre cadre applicatif en recelle de nombreux exemples :

– En premier exemple : le caractère sucré d’un fruit. Il s’agit d’une variable “faussement” qua-litative, puisqu’elle est ordonnée, mais qui peut être traitée par discrimination. Dans les appli-cations de tri des fruits, le taux de sucre exact n’est pas demandé. Si le taux est mesuré, pour réaliser l’opération de tri, des seuils de décision vont être appliqués pour réaliser des classes (par exemple : peu sucré, moyennement sucré et très sucré). Dans ces conditions, ne gagnerait on pas à réaliser directement la prédiction de la classe ?

– Deuxième exemple : la qualité d’un fruit. Aujourd’hui, la qualité d’un fruit est estimée, ap-proximée, par un ensemble de critères objectifs et mesurables : taux de sucre, couleur, fermeté, farinosité, etc. Or, cette qualité est par essence même une variable non quantitative. La véri-table mesure de la qualité ne peut se faire que par des analyses sensorielles, à partir de ju-gements d’experts. La discrimination serait donc tout à fait indiquée pour relier les mesures

physiques telles que la spectrométrie, éventuellement associée à d’autres mesures disponibles, à des classes définies par des experts.

– Troisième exemple : le traitement des images hyperspectrales. De récents progrès technolo-giques mettent à notre disposition des systèmes de prise d’images hyperspectrales, i.e. pour lesquelles chaque pixel est un spectre. Ce matériel est encore onéreux et lent, mais nous pou-vons gager qu’un avenir proche nous apportera des solutions temps réel d’un prix compatible avec nos applications. Or, le traitement des images numériques passe essentiellement par une opération de segmentation, qui a pour but de reconnaître des objets ou des régions. Cette opéra-tion n’est rien d’autre qu’une classificaopéra-tion qui, si elle est apprise par un algorithme supervisé, devient de la discrimination.

A la lumière des développements exposés dans ce chapitre et des perspectives d’application illus-trées par les exemples ci-dessus, je pense qu’en matière de discrimination à partir des spectres, les perspectives de recherche suivantes sont ouvertes :

– Caractérisation qualitative directe d’un objet biologique, en association avec d’autres systèmes et d’autres informations. En d’autres termes, comment utiliser une mesure spectrométrique dans un système d’aide à la décision ou de diagnostic ?

– Dans le cas de variables quantitatives, quel lien peut on réaliser entre une discrimination sur la variable discrétisée et une régression classique ? Est ce que la discrimination est plus robuste qu’une régression suivie d’un seuillage ? Est-ce qu’une discrimination suivie d’une interpola-tion peut s’avérer meilleure qu’une régression, notamment dans les cas de non linéarité ? – Dans le cadre du traitement d’images hyperspectrales, comment réaliser une discrimination qui

Conclusion générale

Ce mémoire a présenté la démarche de recherche que j’ai employée pour tenter de résoudre le problème de la robustesse des étalonnages multivariés embarqués dans les capteurs à base de spectro-métrie infrarouge. Une analyse de la problématique m’a amené à dégager trois voies de recherche : La prise en compte d’une grandeur d’influence ; La maintenance de la robustesse du modèle ; La dis-crimination à partir de spectres. À chacune de ces voies était dédié un chapitre, bâti sur deux articles auxquels j’ai fortement contribué : le premier a été utilisé pour dresser un panorama de l’état de l’art, le deuxième pour exposer une contribution originale.

Ces recherches m’ont permis d’améliorer la robustesse des capteurs développés au Cemagref, dans le cadre de projets de recherche. En outre, elles ouvrent nombre de perspectives, pour résoudre les problèmes qui subsistent et pour investir de nouvelles technologies :

– Avec les procédés d’orthogonalisation, tels que décrits dans 2.3 et 3.3, un nouveau point de vue apparaît : Les données constitutives de l’ensemble d’apprentissage forment un nuage de points, dans l’espace de mesure spectrale. Ce nuage définit un sous espace, représenté par des structures latentes, i.e. par une base de spectres. Lorsque l’on utilise une technique d’étalonnage classique, comme la PLSR, on identifie le sous espace dans lequel les variations spectrales sont les plus reliées à la réponse, en considérant le reste de l’espace comme du bruit. En procédant à des corrections par projection orthogonale, on réalise exactement l’inverse. On identifie les bruits structurés, i.e. les spectres parasites, pour les enlever de l’espace de mesure. D’un autre côté, nombre de spectres, donc de structures vectorielles, sont disponibles, en provenance de l’expertise ou de l’expérience. Il me semble donc très intéressant d’étudier, dans un avenir proche, comment toutes ces structures vectorielles, qu’elles soient issues de décompositions algébriques ou de connaissances théoriques, peuvent faire progresser notre connaissance de la mesure spectrométrique et améliorer son exploitation. Ainsi, par exemple, je propose de rechercher un moyen permettant d’intégrer les connaissances théoriques sur la diffusion de la lumière dans les méthodes d’étalonnage classiques.

– La méthode DOP (Cf. 3.3), en introduisant la notion de standard virtuel, ouvre la porte à un grand nombre d’applications potentielles, comme le transfert d’étalonnage entre instruments, entre variétés, etc. Cette perspective, très large, devra être abordée méthodiquement. Il sera no-tamment nécessaire, rapidement, d’étudier finement le comportement de DOP dans le cadre des réponses multiples. D’autre part, la gestion des informations fournies par DOP et leur utilisation en temps réel, conjointement à un système de diagnostic, semble constituer un enjeu intéressant, dans le cadre de l’automatique et de la productique.

– C’est peut être en matière de discrimination que les perspectives de recherches sont les plus novatrices. En effet, la spectrométrie, couplée à la chimiométrie s’est jusqu’à présent tout natu-rellement tournée vers des applications de quantification, propres à la chimie analytique (d’où le nom de chimiométrie). Or, surtout dans notre cadre applicatif, la connaissance que l’on cherche à produire est bien souvent de nature qualitative. Elle relève bien souvent d’un raisonnement de type diagnostique, c’est à dire d’une discrimination entre des classes. Une telle connaissance est

alors compatible avec les systèmes d’aide à la décision, voire avec le paradigme de l’opérateur humain. La question devient alors : comment traiter au mieux l’information contenue dans un spectre, ou dans une image hyperspectrale, pour alimenter un système basé sur la connaissance ?

Bibliographie

[Andrew and Fearn, 2004] Andrew, A. and Fearn, T. (2004). Transfer by orthogonal projection : making near-infrared calibrations robust to between-instrument variation. Chemometrics and

In-telligent Laboratory Systems, 72(1) :51–56.

[Chauchard et al., 2004] Chauchard, F., Cogdill, R., Roussel, S., Roger, J. M., and Bellon-Maurel, V. (2004). Application of ls-svm to non-linear phenomena in nir spectroscopy : development of a robust and portable sensor for acidity prediction in grapes. Chemometrics and Intelligent

Laboratory Systems, 71(2) :141–150.

[Fisher, 1936] Fisher, R. (1936). The use of multiple measurements in taxinomic problems. Ann.

Eugenics, 7 :179–188.

[Foley and Sammon, 1975] Foley, D. and Sammon, J. (1975). An optimal set of discriminant vectors.

IEEE Trans. Comput., 24(3) :281–289.

[Indahl et al., 1999] Indahl, U., Sahni, N., Kirkhus, B., and Næs, T. (1999). Multivariate strategies for classification based on nir-spectra–with application to mayonnaise. Chemometrics and Intelligent

Laboratory Systems, 49 :19–31.

[Lachenal, 2000] Lachenal, G. (2000). Introduction à la spectroscopie infrarouge. In TecDoc, edi-tor, La spectroscopie infrarouge et ses applications analytiques, pages 31–75. Lavoisier, 11 rue Lavoisier F75384 Paris, 1ère edition.

[Liu et al., 1992] Liu, K., Cheng, Y., and Yang, J. (1992). An generalized optimal set of discriminant vectors. Pattern Recognition, 25(7) :731–739.

[Martens and Naes, 1989] Martens, H. and Naes, T. (1989). Multivariate Calibration. Wiley, New York.

[Otto, 1999] Otto, M. (1999). Chemometrics - Statistics and Computer Aplication in Analytical

Che-mistry. Wiley-VCH, D-69469 Weinheim, 1st edition.

[Ripley, 1996] Ripley, B. (1996). Pattern recognition and neural networks. Cambridge University Press, Cambridge.

[Roger and Bellon-Maurel, 2000] Roger, J. M. and Bellon-Maurel, V. (2000). Using genetic algo-rithms to select wavelengths in near-infrared spectra : application to sugar content prediction in cherries. Applied Spectroscopy, 54-9 :1313–1320.

[Sánchez et al., 2003] Sánchez, N. H., Lurol, S., Roger, J. M., and Bellon-Maurel, V. (2003). Ro-bustness of models based on nir spectra for sugar content prediction in apples. J. Near Infrared

Spectrosc., 11 :97–102.

[Seasholtz and Kowalski, 1993] Seasholtz, M. and Kowalski, B. (1993). The parsimony principle applied to multivariate calibration. Anal. Chim. Acta, 277 :165–177.

[Trygg, 2001] Trygg, J. (2001). Parcimonious Multivariate Models. PhD thesis, UmeåUniversity. [Wold, 1978] Wold, S. (1978). Cross-validatory estimation of the number of components in factor

[Xiao-Jun et al., 2004] Xiao-Jun, W., Kittler, J., Jing-Yu, Y., and Shi-Tong, W. (2004). An analytical algorithm for determining the generalized optimal set of discriminant vectors. Pattern Recognition, In press.

[Zeaiter, 2004] Zeaiter, M. (2004). Mesure robuste en ligne des solutés organiques. PhD thesis, SPBI - Montpellier University.

[Zeaiter et al., 2004] Zeaiter, M., Roger, J. M., Bellon-Maurel, V., and Rutledge, D. N. (2004). Ro-bustness of models developed by multivariate calibration. part i : The assessment of roRo-bustness.