• Aucun résultat trouvé

METHODES DE MESURE DES COV ET ANALYSE DES DONNEES

C HAPITRE 2 67 1 Instruments analytiques pour la mesure des COV

4. OUTILS NUMERIQUES

4.1. Outils pour l’analyse descriptive des données

Afin de caractériser les COV à travers le grand nombre de données générées par leur mesure continue, et souvent à haute résolution temporelle, pendant les campagnes de mesures, diverses méthodes mathématiques sont utilisées et sont décrites ci-après.

Le graphisme a été effectué en utilisant le logiciel Igor Pro (Wavewetrics Inc., Portland, OR, Etats-Unis).

Le logiciel xlstat demo (Addinsoft, France) a été utilisé pour les calculs statistiques d‘Analyse Factorielle et Régression Multiple.

4.1.1. Analyse statistiques uni-variée : les boîtes à moustaches

Les analyses statistiques uni-variées mettent en jeu une seule variable explicite et permettent de la décrire par des paramètres de position (moyenne, médiane, percentiles, minimum etc.)

Pour la représentation graphique de différentes variables statistiques quantitatives des séries chronologiques, les boites à moustaches sont utilisées. La boite à moustache se représente sous la forme d‘un rectangle représentant les valeurs comprises entre le 25ème

et le 75ème percentile d‘un jeu de données. Les valeurs médianes sont indiquées par la barre horizontale dans chaque boite et la moyenne par le marqueur rond. Les extrémités des moustaches (barres verticales) représentent les niveaux du 10ème et du 90ème percentile.

Dans le cadre de cette thèse, cette représentation statistique sera souvent utilisée. Elle sera notamment utilisée pour la visualisation des profils diurnes moyens afin de mettre en évidence les variations de concentration de l‘espèce considérée en fonction de l‘heure.

4.1.2. Analyse statistique multivariée

[a] Régression linéaire simple et multiple

En statistique, les analyses multivariées ont pour caractéristique de s'intéresser à la distribution conjointe de plusieurs variables.

L’analyse de régression linéaire simple est un outil qui permet d‘étudier la relation

4000 3500 3000 2500 2000 1500 9 moyenne médiane 90ème centile 75ème centile 25ème centile 10ème centile

𝑌 = 𝛽𝑂 + 𝛽1𝑋, où 𝛽𝑂 est l‘ordonnée à l‘origine et 𝛽1 la pente de régression.

Le coefficient de détermination (R²) permet de juger la qualité de la régression linéaire. D‘une valeur comprise entre 0 et 1, il mesure l‘adéquation entre le modèle et les données observées. Ainsi, pour un R2 grand, les variables sont fortement corrélées et pour un R2 petit elles ne le sont pas.

Afin de définir le degré de corrélation entre deux variables, le référentiel suivant a été déterminé pour la suite de cette thèse. Deux variables sont considérées comme :

 fortement corrélées pour R2 ≥ 0.60  modérément corrélées pour 0.30 ≤ R2

<0.60  non corrélées pour R2<0.30

Dans le cadre de ce travail de thèse, les régressions linéaires seront souvent utilisées pour représenter la corrélation d‘un composé mesuré par rapport à un autre. Elles permettront par exemple de mettre en évidence des sources de production communes à ces deux composés.

Afin de visualiser l‘ensemble des régressions linéaires simples entre plusieurs variables; elles seront présentées sous forme de matrice graphiques, de la manière suivante (FIGURE 2.34) :

FIGURE 2.34 Matrice graphique représentant l’ensemble des corrélations possibles entre quatre variables Xi

La régression linéaire multiple modélise la relation mathématique existant entre une

variable dépendante quantitative à expliquer (Y) et la combinaison de 𝑛 variables quantitatives explicatives 𝑋𝑖 de la manière suivante :

𝑌 = 𝛼𝑂 + 𝛼1𝑋1+ 𝛼2𝑋2 + ⋯ + 𝛼𝑛𝑋𝑛+ 𝑒, où 𝛼𝑂 est l‘ordonnée à l‘origine, 𝛼𝑖 les coefficients de

régression partiels et 𝑒, l‘erreur du modèle.

Elle permet ainsi d‘estimer la contribution relative de deux ou plusieurs variables explicatives sur la variation d'une variable à expliquer. A titre d‘exemple, si Y représente la concentration d‘une espèce biogénique, les variables explicatives peuvent représenter des paramètres météorologiques et ainsi évaluer leur influence sur les niveaux des concentrations de l‘espèce considérée.

L'utilisation de la régression multiple doit toutefois s'accompagner de plusieurs précautions. La variable à expliquer Y doit être dépendante de chacune des variables explicatives Xi. Par ailleurs, les

variables explicatives doivent être indépendantes entre-elles.

R2=0.949607 R2=0.91681 1500 1000 500 0 R2=0.95915

X

4 R2=0.86587 R2=0.903368

X

3 80 60 40 20 0 R2=0.955061

X

2

X

1

Plusieurs indicateurs permettent d‘apprécier la qualité de la régression. Par exemple, le coefficient de détermination multiple R2 ajusté, calcule le pourcentage de variation de la variable à expliquer dû aux variables explicatives. Le R² ajusté est une correction du R² qui permet de prendre en compte le nombre de variables utilisées dans le modèle. Ainsi un R2 ajusté de 0,30 signifie que les variables indépendantes ne contribuent qu'à 30% de la variation de la variable à expliquer ce qui indique que la qualité du modèle obtenu est relativement faible. Le test de F (ou test de Fisher) permet quant à lui d'estimer la qualité de l'ajustement dans la population. La probabilité de l'hypothèse nulle (que les variables indépendantes n'aient aucun un effet sur la variable dépendante dans la population) est donnée par la table de Fisher. Une probabilité associée au F de 0.0005, signifie que l'on prend un risque de se tromper de moins de 0.05% en concluant que les variables explicatives apportent une quantité d'information significative au modèle. Pour résumer ces indicateurs de qualité de la régression multiple, un modèle valable présente un R2 proche de 1, et une probabilité de Fisher proche de 0.

Dans le cadre de cette thèse, l‘outil de régression multiple a été utilisé afin d‘évaluer statistiquement le poids des différentes sources (anthropique versus biogénique) à la formation de composés mesurés dans l‘atmosphère. Les résultats de cette régression multiple sont discutés dans le Chapitre 4.

[b] Analyse Factorielle

L‘analyse factorielle est une méthode mathématique, couramment utilisée, permettant de réduire un système complexe de corrélations dans un plus petit nombre de dimensions. L‘analyse factorielle (AF) recherche une solution à la covariance entre les variables mesurées. Elle permet d‘expliquer la variance commune à au moins deux variables et présume que chaque variable possède une variance supplémentaire unique représentant son apport propre.

L‘analyse factorielle est une méthode très utilisée qui peut être utilisée pour relier les teneurs ambiantes de COV à leurs sources ou précurseurs (Spaulding et al., 2001). Elle a été utilisée dans le cadre de l‘analyse des données issues de la campagne ChArMEx SOP afin de relier les COV oxygénés à des précurseurs biogéniques et/ou anthropiques. La méthode d‘extraction de vraisemblance maximale ou « maximum likelihood » a été utilisée afin que la probabilité que la matrice des corrélations reflète une distribution dans la population soit maximale. Afin de mieux interpréter les facteurs résultants, une rotation VARIMAX des axes factoriels a été effectuée. Cette rotation orthogonale permet d‘obtenir ainsi une structure plus facile à analyser car le nombre de variables indépendantes corrélées avec un axe factoriel est maximisé.

CHAPITRE 3

ETUDE DES COMPOSES ORGANIQUES VOLATILS