• Aucun résultat trouvé

CHAPITRE 4. TRAITEMENT DES DONNEES

4.4 T RAITEMENT STATISTIQUE

4.4.3 Traitements statistiques des données du panel

4.4.3.2. Identification

Figure 4-15 : Performances du classifieur selon le genre - taux de bien classés et courbe ROC

Figure 4-16 : Performances du classifieur selon la zone géographique (ville/campagne) - taux de bien classés et courbe ROC

iii. Conclusion sur la PLS-DA

Comme nous l’avons vu, la validation croisée est utilisée pour déterminer le nombre de composantes optimal de la PLS-DA (n = 2). De plus, il est indispensable de ne pas s’arrêter aux résultats de la validation croisée mais bien de tester le classifieur avec un ensemble dédié, sous peine de risquer de surestimer ses performances.

4.4.3.2. Identification

Les chromatogrammes ont été divisés en deux ensembles, un premier d’apprentissage avec environ les 2/3 des chromatogrammes et un second de test avec le tiers restant.

177

4.4.3.2.1. Sans sélection de descripteurs

Les distributions f(d|H0) et f(d|H1) sont estimées (cf. figure 4-17) et approximées par des gaussiennes à partir de nos données (intensités binarisées). Le seuil optimal pour maximiser la somme de la sensibilité et de la spécificité, ou pour optimiser le taux de bien classés, est ensuite déterminé à l’aide des courbes ROC (cf. figure 4-18). Sans sélection préalable de descripteurs, on obtient des valeurs d’AUC atteignant 91%, ce qui correspond à d’excellentes sensibilité et spécificité.

Figure 4-17 : Distribution des densités de probabilité de la distance d si H0, respectivement H1, est vraie, et estimation de la probabilité de H0 si d est vérifiée – sans sélection de descripteurs

178

4.4.3.2.2. Avec sélection préalable des descripteurs

i. Choix des descripteurs

Une sélection de descripteurs est réalisée. Dans un premier temps, tous les couples de chromatogrammes sont considérés. Ceux-ci sont divisés en deux groupes : ceux qui vérifient H0 et ceux qui vérifient H1. Puis, pour chaque composé, pour chaque groupe, pour chaque couple, la distance d entre les intensités binarisées est calculée. Cette distance est égale à 0 si le composé est identiquement présent ou absent dans les deux chromatogrammes, et égale à 1 sinon. Enfin, pour chacun des deux groupes, la moyenne de ces distances est calculée. Idéalement, on obtiendrait 0 pour ceux qui vérifient H0 et 1 pour ceux qui vérifient H1. Le composé n’est sélectionné que si la moyenne des distances pour le groupe H1 est au moins p fois supérieure à celle pour le groupe H0.

Si la valeur de p est comprise entre 0 et 1, cela signifie que les distances sont plus petites avec des chromatogrammes différents qu’avec des chromatogrammes identiques, soit l’opposé de ce qui recherché. Pour des valeurs de p supérieures à 3, les valeurs de l’AUC commencent à chuter car un nombre insuffisant de composés a été retenu : les résultats sont excellents en apprentissage, mais peu satisfaisants en validation croisée. On remarque la présence de deux optima à 2.7 et à 3. Or une valeur de p plus faible permettra de sélectionner un nombre plus important de composés. La valeur p = 2.7 a été sélectionnée par validation croisée de manière à maximiser l'AUC (cf. figure 4-19).

Figure 4-19 : Optimisation du critère p de sélection des descripteurs ii. Résultats

Comme précédemment, les distributions f(d|H0) et f(d|H1) sont estimées et approximées à partie de nos données. Le seuil optimal pour maximiser la somme de la sensibilité et de la spécificité, ou pour optimiser le taux de bien classés, est ensuite déterminé à l’aide des courbes ROC (cf. figures 4-20 et 4-21). Cette fois-ci, des valeurs d’AUC de l’ordre de 99% sont

179

atteintes. La sélection des descripteurs pertinents améliore donc les performances qui étaient déjà très bonnes sans sélection.

Figure 4-20 : Distribution des densités de probabilité de la distance d si H0, respectivement H1, est vraie, et estimation de la probabilité de H0 si d est vérifiée – avec sélection de descripteurs

180

4.4.3.2.3. Conclusion sur l’identification réalisée avec une approche bayésienne

Les résultats obtenus lors de l’identification réalisée avec une approche bayésienne sont excellents et une très bonne séparation est obtenue, même sans choix de descripteurs. Toutefois, il est important de noter que les performances de cette technique seront peut-être amoindries. En effet, sauf quelques exceptions, un même individu a pour le moment été analysé sur le même jeu de colonnes. A l’heure actuelle, nous n’avons que peu d’individus dont les échantillons ont été analysés sur les deux jeux de colonnes. Une analyse plus poussée montre que l’effet colonne est bien présent et que les distributions sont moins différentes. Toutefois, cet effet n’est pas rédhibitoire et ces premiers résultats nous confortent dans la possibilité de dsicriminer un individu grace à son empreinte olfactive.

181

Conclusion

Plus qu’avec son « odeur », comment réussir à identifier quelqu’un grâce à sa « signature chimique »? Un projet audacieux sur un sujet peu étudié mais qui suscite de plus en plus l’intérêt de la communauté forensique, malgré des débuts souvent décriés d’un point de vue criminalistique. En effet, la signature chimique d’un individu est à la fois complexe et versatile, ce qui rend sa caractérisation extrêmement difficile. Trouver une voie vers l’individualisation en utilisant cette caractéristique biométrique est un véritable challenge scientifique.

Afin d’y parvenir, une étude bibliographique complète a été réalisée pour balayer les différents aspects de cette thématique allant du prélèvement de l’échantillon, à l’analyse chromatographique et jusqu’au traitement des données. L’étude de la signature chimique s’inscrit d’ailleurs parfaitement dans les recherches menées actuellement dans le domaine en constante évolution qu’est la biométrie.

Les méthodes analytiques développées en TD-GC×GC-MS ont permis une avancée certaine dans la séparation des différents constituants de l’odeur humaine. Les échantillons analysés sont dans un premier temps thermodésorbés avant d’être envoyés vers un jeu de deux colonnes chromatographiques pour une séparation bidimensionnelle. La combinaison d’une colonne apolaire avec une phase 100% dimethylpolysiloxane de type 1MS (30 m x 0.25 mm, 0.25 µm) et d’une colonne moyennement polaire avec une phase (14%-Cyanopropyl-phenyl)-methylpolysiloxane de type 1701 (1,5 m x 0.10 mm, 0.10 µm) est adapté pour la séparation des composés de la signature chimique. Leur identification reste en revanche toujours délicate et l’utilisation de la spectrométrie de masse à haute résolution constituerait un atout indéniable. D’autres techniques comme la spectrométrie de masse à ratio isotopique pourraient apporter également une information complémentaire, ou encore, la chromatographie en phase liquide qui renseignerait sur la composante non volatile de la signature chimique. De plus, les techniques utilisant des fluides supercritiques (extraction et/ou chromatographie) offrent des perspectives intéressantes pour l’analyse de cette composante non volatile.

Des méthodes de prélèvement direct et indirect ont été développées au laboratoire et validées sur le terrain avec des Saint-Hubert. La suite des travaux consistera à créer un kit de prélèvement à usage unique, fiable, facile à utiliser et peu onéreux qui pourra être utilisé par les techniciens en investigation criminelle sur une scène de crime. Ce kit devra être en parfaite cohérence avec les unités de terrain et être à la fois adopté par ces dernières et adapté à leur travail. A l’heure actuelle, un protocole de prélèvement direct de l’odeur a déjà été établi, il conviendra d’en faire de même avec le prélèvement indirect. Dans tous les cas, un support de prélèvement de l’odeur unique est désormais disponible. Le Sorbstar présente l’avantage de collecter une information suffisante pour que le chien puisse l’exploiter, tout en étant parfaitement adapté à une utilisation en laboratoire. A l’heure actuelle, les compresses

Documents relatifs