• Aucun résultat trouvé

Méthodes d’analyse de données et modèles sources-récepteurs

CHAPITRE 1 : Les COV dans l’atmosphère

6. Méthodes de mesure et d’analyse de données

6.3. Méthodes d’analyse de données et modèles sources-récepteurs

Compte tenu de la diversité des sources d’émission à l’origine des teneurs ambiantes et de la variabilité de leur intensité à différentes échelles de temps, il convient d’utiliser différentes analyses statistiques complémentaires. Une base de données riche permet d’étudier le comportement de chaque composé sur différents pas de temps (journées, saisons). Pour calculer la contribution des sources, on a recours souvent aux modèles sources- récepteurs.

Pour étudier les relations entre les variables, la régression linéaire pourra être utilisée pour représenter la corrélation d’un composé par rapport à un autre considéré comme traceur d’une activité (combustion, évaporation de carburants…).

Pour s’affranchir des processus de dilution, les ratios des teneurs des COV mesurés pourront être utilisés. Ils permettent de mettre en évidence les variabilités temporelles des sources, d’identifier les sources et de qualifier l’âge d’une masse d’air avec des espèces ayant une durée de vie différente dans l’atmosphère.

Les concentrations des COV connaissent une variation temporelle liée à des tendances à long terme ou à des effets saisonniers. Ces variations peuvent être associées à des masses d’air balayant des zones plus ou moins émettrices de polluants avant d’arriver au site de prélèvement. D’où l’utilité d’utiliser des trajectoires de masses d’air pour identifier les zones traversées.

Les modèles sources-récepteur

Les méthodes «modèles sources-récepteur» se focalisent sur le comportement des polluants aux sites récepteurs contrairement aux modèles chimie-transport (cf. paragraphe 4) qui se concentrent sur le transport, la dilution et les transformations qui se produisent en commençant par la source jusqu’au site récepteur (Hopke 2003).

Le principe fondamental des modèles sources-récepteur repose sur la conservation de la masse, de sorte que l’analyse des bilans de masse permette d’identifier et de pondérer les sources affectant le site de mesure (Hopke et al., 1985, 1991). Pour que le modèle puisse être appliqué, il est nécessaire de recueillir un grand nombre d’observations (échantillons collectés) n relatives à un nombre important de paramètres (taille de particules, concentrations d’espèces gazeuses, etc.) m. Chaque observation s’écrit alors comme la somme des contributions de chacune des p sources identifiées, à laquelle s’ajoute une part non expliquée par le modèle.

Le modèle est l’outil permettant de résoudre l’équation (1-25) :

e

f

g

x

ij p k ik kj ij

 1 (1-25) Où,

xij : concentration de l’espèce j dans l’échantillon i

fkj : fraction massique de l’espèce j par la source k

gik : contribution de la source k pour l’échantillon i

eij : part de xij qui n’est pas expliquée par le modèle.

Pour que le modèle soit valide, un certain nombre de contraintes doivent être respectées. Tout d’abord, le modèle doit expliquer les observations, en d’autres termes, eij

doit tendre vers 0. De mêmes, les sources ne peuvent avoir de contribution négatives (gik ≥

0) ; les sources ne peuvent pas émettre de concentrations négatives (fkj ≥ 0) et pour finir, la

somme des masses prévues par le modèle doit être inférieure ou égale à l’observation réellement effectuée (

  p k ik kj j i

g

f

x

1 , ).

Tous les modèles récepteurs existants visent à résoudre cette équation en tenant compte des contraintes propres au modèle. Il en existe différents types, chacune ayant ses propres limites et avantages, selon la situation du site récepteur.

La figure 1-15 illustre les différentes approches sources-récepteur. La connaissance exhaustive préalable des sources d’émissions des polluants est indispensable pour appliquer certaines approches notamment la CMB. Dans le cas contraire, les modèles PMF, ACP et UNMIX pourront être utilisés. Pourtant, l’ACP ne respecte pas la contrainte de non-négativité des sources et de leurs contributions. L’UNMIX présente l’inconvénient d’être sensible aux observations aux valeurs extrêmes pouvant ainsi affecter les résultats de l’analyse. Le PMF présentant l’avantage de tolérer les valeurs extrêmes, d’être paramétrable et respectant la non- négativité des sources et de leurs contributions apparaît un outil robuste pour l’analyse des composés organiques gazeux.

Figure 1-15 : Différents modèles sources-récepteur applicables en fonction de la

connaissance préalable des sources d'émissions (Viana et al., 2008). Les modèles statistiques sont caractérisés par des caractères italiques et des flèches en pointillé.

a- Sources d’émission connues

En ce cas, il s’agit de résoudre l’équation (1-25) alors que p et fkj sont connus ; cela

revient à déterminer gik, la contribution de chaque source. Le modèle utilisé est alors le

« Chemical Mass Balance (CMB) », outil développé par l’Environmental Protection Agency (EPA). Ce modèle s’applique lorsque toutes les sources influençant le site récepteur sont identifiées et renseignées (profils d’émission établis), il est donc utilisé en zone industrielle ou urbaine influencée uniquement (Abu-Allaban et al., 2008 ; Badol et al., 2008b ; Fujita et al., 2001 ; Oslon et al., 2009 ; Srivastava et al., 2005 ; Wang et al., 2010 ; Watson et al., 2001).

L’application d’un modèle CMB nécessite des étapes préliminaires (rassembler les données d’entrée) avant l’application proprement dite :

a. L’identification des sources influençant l’aire d’étude b. Le choix des espèces chimiques à inclure dans le modèle

c. La connaissance de la composition des sources (et leurs incertitudes)

d. La mesure des teneurs ambiantes pour les espèces chimiques choisies (et leurs incertitudes)

e. L’application du modèle CMB. b- Sources d’émissions inconnues

Ce secteur de recherche est le plus actif à l’heure actuelle. Il s’agit une fois encore de résoudre l’équation (1-25). Les méthodes employées se rapprochent de l’analyse factorielle. Il existe plusieurs outils notamment l’Analyse en Composantes Principales, les modèles UNMIX et PMF (Positive Matrix Factorization) permettant d’identifier plus finement les sources et leurs contributions.

Le modèle PMF (Positive Matrix Factorization)

Le modèle PMF est apparu en 1994 (Paatero and Tapper, 1994) et a évolué en 1997 (Paatero, 1997). Un guide d’utilisation a été rédigé par Hopke (Hopke, 2000) et complété par des articles spécifiques pour certains paramètres du modèle (Paatero et Hopke, 2002 ; Paatero et al., 2002). Il a été appliqué dans différents travaux de recherche concernant les COV (Bon et al., 2011 ; Buzcu et al., 2006 ; Cai et al., 2010 ; Gaimoz et al., 2011 ; Gentner et al., 2009 ; Leuchner et Rappenglück, 2010 ; Ling et al., 2011 ; Sauvage et al., 2009).

Le principe général est le suivant : toute matrice𝑋(𝑛 × 𝑚), où n est le nombre d’observations et m le nombre d’espèces mesurées, peut être décomposée en un produit factoriel de 2 matrices 𝐺(𝑛 × 𝑝) et 𝐹(𝑝 × 𝑚), p étant le nombre de facteurs, et une part non expliquée 𝐸(𝑛 × 𝑚). X s’écrit alors :

𝑋 = 𝐹𝐺 + 𝐸 (1-26)

La résolution de cette équation permet donc d’obtenir deux matrices F et G, telles que le produit de F et de G peut expliquer les variations systématiques de X. La matrice 𝐹(𝑝 × 𝑚) présentera les émissions de chacun des p facteurs pour les m espèces mesurées, chaque

facteur correspondant à un profil de source qui devra être identifié. La matrice 𝐺(𝑛 × 𝑝) présentera les contributions de chacun des p facteurs aux n observations. Dans un premier temps, la matrice G est fixée, la minimisation de Q(E) est ainsi effectuée par la détermination des éléments de F par les moindres carrés. Dans un second temps, F est fixée et en minimisant Q(E) qu’on obtient les éléments de G. Les étapes se poursuivent jusqu’à ce que Q(E) converge.

La résolution de l’équation (1-26) passe par la minimisation de la valeur de Q(E) :

2 1 1 ) (



           n i m j ij ij s e E Q

Où, sij correspond à l’incertitude sur la mesure de l’espèce i dans l’échantillon j, et eij

est la valeur résiduelle c.à.d. la différence entre la valeur mesurée et la valeur calculée de la concentration de chaque composé. Elle est définie tel que :

   p k kj ik ij ij x g f e 1