• Aucun résultat trouvé

PARTIE 3 : PRESENTATION DES RESULTATS

3.1 OPERATIONS SUR LES DONNEES POLLINIQUES ET PRESENTATION DES

3.1.1 La reconstitution des données polliniques manquantes

Ces opérations préalables consistent essentiellement à reconstituer les périodes de données

manquantes quand celles-ci se situent en début de saison pollinique (à condition qu’elles ne

soient pas trop longues) et risquent d’englober le démarrage de celle-ci ou, du moins,

l’apparition du risque. Les concentrations à reconstituer dépendent d’un grand nombre de

facteurs, si bien que l’opération est très délicate. Il serait plus judicieux d’éviter de le faire

mais le démarrage trop tardif des capteurs certaines années – et donc une reconstitution

totalement impossible – nécessite cette opération afin d’éviter de perdre trop d’années.

De par leur nature, les reconstitutions de ces valeurs ne peuvent être que sommaires et n’ont

qu’un rôle indicatif. L’idéal serait une reconstitution des données d’une station à partir de

celles d’une station voisine, comme c’est le cas pour les données météorologiques.

Malheureusement, contrairement à ces dernières, la distance entre les sites de capture est trop

importante pour effectuer cette opération, nous obligeant à nous rabattre sur d’autres

procédés. Le fait d’employer des seuils bruts de risque ne nous contraint pas à effectuer des

reconstitutions pour l’ensemble de la saison pollinique ; reconstitutions qui sont nécessaires

si l’on emploie des seuils relatifs. Ainsi deux procédés ont été testés :

Une reconstitution à partir des données météorologiques par l’intermédiaire

d’une régression linéaire multiple : Les concentrations dépendant des conditions

de précipitations, de température et d’humidité, il nous a semblé pertinent

d’effectuer ces régressions. Le vent, qui joue un rôle majeur dans la dispersion des

pollens, n’a pas été retenu car beaucoup trop complexe à mettre en équation. La

distribution des concentrations n’étant pas gaussienne, il faut à priori effectuer une

transformation logarithmique de ces données, sauf si l’on se réfère au théorème

central limite qui stipule que l’augmentation de la taille d’un échantillon débouche

sur une distribution approchant de la loi normale, même si la distribution de cette

dernière ne l’est pas. Dans notre cas, pour des considérations pratiques, nous avons

mis au point les modèles à partir des valeurs brutes de concentrations de la

première moitié de la saison pollinique du taxon étudié ; les concentrations de la fin

de saison étant moins corrélées aux conditions météorologiques.

Une reconstitution en fonction des niveaux de risque : L’utilisation de la

régression linéaire multiple n’étant pas toujours pertinente (prévision de

concentrations aberrantes par rapport à celles du reste de la saison), nous avons

élaboré une méthode de reconstitution à partir des niveaux de risque et des données

météorologiques. Il s’agit de calculer les conditions moyennes de température

(minimale et maximale), d’humidité relative (minimale et maximale) et de

précipitations de la période manquante, puis d’effectuer la même opération pour les

jours associés à des niveaux de risque nul à faible, moyen, élevé et très élevé.

Ensuite, grâce à une classification en nuées dynamiques, on cherche à déterminer la

classe regroupant la période manquante et le niveau de risque dont les conditions

météorologiques sont les plus proches statistiquement. Par exemple, si la période

manquante présente des conditions météorologiques significativement équivalentes

à celles enregistrées pour les jours à risque moyen d’une année donnée, les lacunes

sont remplacées par la valeur-seuil associée à ce risque moyen. L’inconvénient de

cette méthode tient en la répétition des mêmes valeurs, mais comme l’apparition du

risque d’exposition allergique aux pollens s’effectue en fonction de celles-ci, cela

ne pose pas de problème pour la détermination de la survenue du risque.

Les deux méthodes de reconstitution des données manquantes sont loin d’être idéales. Il est

clair que l’existence actuelle d’un réseau plus dense de capteurs polliniques, si possible placés

à des hauteurs équivalentes permettra d’élaborer, à la longue, des reconstitutions de meilleure

qualité. A travers ces méthodes, et notamment celle se basant sur les seuils de risque, nous

cherchons surtout à déterminer un ordre de grandeur. Les périodes manquantes reconstituées

sont généralement courtes, si bien que la date estimée doit correspondre à celle qui aurait été

effectivement déterminée s’il n’y avait pas eu de lacunes. Pour les périodes plus longues (de

l’ordre d’une semaine), l’incertitude est plus grande et l’on n’utilise les valeurs reconstituées

que si elles permettent de déterminer une date qui ne soit pas aberrante, notamment pour le

bouleau dont la date de démarrage d’un site à l’autre ne présente pas une forte amplitude.

Dans le cas contraire, on élimine l’année de l'analyse.

Dans le cas de la reconstitution d’une valeur manquante isolée (lorsque cela est nécessaire),

ou si l’on souhaite déterminer les valeurs d’une période lacunaire ayant lieu pendant la

deuxième moitié de la saison pollinique, l’utilisation d’une interpolation linéaire peut s’avérer

suffisante. Cette technique est évidemment sujette à critique, mais les concentrations de fin de

saison ne dépendent pas seulement des conditions météorologiques. Cela rend, par

conséquent, l’application des deux autres méthodes difficile et risque de donner des

concentrations aberrantes. Néanmoins si ces périodes sont trop longues, et/ou si elles sont

liées à des concentrations potentiellement élevées, on n’effectue pas de reconstitutions de

données.

D'une manière générale, il est impossible de fixer une seule méthode de reconstitution pour

l'ensemble des lacunes. L'application se fait quasiment au cas par cas en fonction de la durée

de la période manquante (critère qui influe peu sur la méthode employée), sa position par

rapport à la période de pollinisation du taxon concerné, voire la durée de la saison pollinique.

Dans le dernier cas, si la période manquante a lieu pendant la pleine saison et qu'elle est

bornée par de faibles concentrations, la reconstitution est impossible. Nous vérifions,

également, après coup si les concentrations prévues par une des méthodes sont réalistes par

rapport à celles enregistrées avant et après la période lacunaire et, dans la négative, nous en

employons une autre. Tout cela peut sembler un peu «artisanal» mais nous avions la volonté

de tenter des reconstitutions qui ne soient pas seulement de simples interpolations linéaires,

dans le but de «sauver» le plus d'années possibles.

Depuis peu le RNSA s’évertue à reconstituer les données manquantes d'une longueur de un à

quatre jours. Cette reconstitution a été initiée à partir des travaux de C. Rieux (2006) et se

décompose en trois catégories :

• Une interpolation linéaire simple à partir du jour précédent et du jour suivant la

période manquante.

• Une interpolation linéaire en fonction des trois jours qui précédent et suivent cette

période lacunaire.

• Enfin, à l’aide d’un algorithme plus complexe, la reconstitution s’effectue à partir

de la station géographiquement proche dont les résultats, avant et après

l’interruption des données, sont les mieux corrélés avec les données de la station à

reconstituer. C’est, à priori, la meilleure méthode de reconstitution mais elle n’est

exploitable que si le réseau de capteurs est dense, ce qui n’est le cas que dans la

région lyonnaise avec les capteurs installés spécialement pour l'ambroisie et ne

fonctionnant que pendant l'été.

3.1.2 Les données météorologiques utilisées

Ces données proviennent des stations météorologiques se situant, si possible, dans la même

ville que les capteurs polliniques. Pour les méthodes de cumul, les températures minimales

(Tn), maximales (Tx) et moyennes journalières (Tm) sont utilisées. La température moyenne

est calculée en fonction de Tn et Tx.

Dans le cadre de l’utilisation de la régression linéaire multiple nous allons, en plus de la

température de l’air, inclure d’autres variables météorologiques telles que :

• L’humidité relative minimale (Hn), maximale (Hx) et moyenne (Hm), cette

dernière étant calculée à partir de Hn et Hx.

• Les précipitations (en mm) notées P.

• L’insolation (en minutes) notée Insol.

• La température mesurée dans le sol à – 10 cm (T-10) et – 20 cm (T-20). Les

valeurs correspondent au relevé effectué à midi.

• La durée du gel (en min) notée Gel, qui correspond à la période où la température

est inférieure ou égale à 0°C .

Ces trois dernières variables ne sont pas disponibles pour l’ensemble des villes retenues,

surtout la durée du gel qui n’est utilisable que dans peu de cas. C’est pour cela que nous avons

retenu le nombre de jours où la température minimale (Tn0), maximale (Tx0) et moyenne

(Tm0) est inférieure à 0°C afin de tester l’influence de la durée d’une période de températures

négatives sur la date d’apparition du risque. Certes, la définition par rapport à la valeur 0°C

n’est pas la même entre les deux critères, mais les températures exactement égales à 0°C sont

très rares. Cela a donc peu d’incidence, mais suppose d’employer le terme de températures

négatives et non de gel.

l’Atlas climatique de la Côte-d’Or pour décrire les précipitations de ce département

(Marceaux et Taboulot, 1994).

Comme cela est suggéré par l’emploi de ces deux derniers critères, nous ne nous basons pas

sur les valeurs journalières pour élaborer les modèles de régression. Les articles utilisant cette

méthode emploient des moyennes décadaires, mais nous avons préféré ici prendre un pas de

temps bimensuel afin de limiter le temps de calcul et de nous baser sur des périodes plus

longues et donc, à priori, plus représentatives des conditions pouvant influencer le

développement de la plante jusqu’au démarrage de la saison pollinique.

Dans un but pratique, la durée de ces périodes bimensuelles diffère selon le mois considéré

afin d’avoir des annotations lisibles dans les équations de régression et, surtout, pour pouvoir

raisonner en terme de «quinzaine», expression couramment utilisée dans la vie quotidienne.

Ainsi un mois de 30 jours est partagé en deux périodes de 15 jours ; la deuxième «quinzaine»

d’un mois de 31 jours est réellement constituée de 16 jours. Le mois de février est partagé en

deux périodes égales de 14 jours, excepté pour les années bissextiles où la deuxième moitié

du mois comprend 15 jours.

Toutes les données météorologiques sont converties en moyennes. Pour les jours où la

température est inférieure à 0°C, et pour ceux enregistrant des précipitations, nous avons

préféré utiliser, pour une meilleure lisibilité, le total de ces jours. La seule exception concerne

la deuxième «quinzaine» de février dont la durée est variable ; dans ce cas on n’utilise

évidemment pas la somme, mais la fréquence d’apparition de ces paramètres.

Les périodes vont être identifiées en fonction du mois (01 pour janvier, 10 pour octobre …), a

symbolise la première «quinzaine» et b la deuxième. Ainsi, par exemple, Tx_04b correspond

à la moyenne de la température maximale de la deuxième «quinzaine» d’avril (16 au 30 avril).

Cette évocation globale des différents processus de reconstitution des données polliniques et

des données météorologiques exploitées, dans le cadre d’une prévision de l’apparition du

risque liée aux quatre taxons présentés dans le sous-chapitre 1.2.1, précède la présentation des

résultats proprement dite.

3.2 PREVISION DU FRENE, DU BOULEAU, DES POACEES : LE CAS