• Aucun résultat trouvé

L’optimisation consiste à rechercher la forme de la fonction R(T) (représentant le taux d'évolution du phénomène étudié) qui permettra d’établir le lien le plus fort entre une variable réprésentant l’échelle de temps (la somme des R(T)) et une variable représentant le phénomène étudié. Dans le cas d'une échelle de temps basée sur la sommation de taux d'évolution R(T) de type [ABCD], l’optimisation consiste à choisir les « meilleures valeurs possibles » des paramètres a, b, c et d utilisés pour décrire la fonction R(T). Pour la tavelure du pommier, l'optimisation consisterait donc à choisir les valeurs des paramètres a, b, c et d qui permettent d’établir le lien le plus fort entre l’échelle de temps et les cumuls de spores projetées, toutes années confondues.

Pour mesurer la qualité du lien entre deux variables, différents types de « fonctions critères » peuvent être utilisés. Une des fonctions critères les plus utilisées pour évaluer le lien entre deux variables est le coefficient de corrélation linéaire « R2 » de Pearson (Snedecor & Cochran, 1971). Il existe d'autres types de coéfficients de corrélation. De manière générale, ces coefficients présupposent la forme de la relation entre les variables étudiées (par exemple linéaire, logistique, logarithmique). Une façon courante de procéder pour mesurer le lien entre deux variables consiste à réaliser une transformation pour une des variables, ce qui sous-entend encore un lien d’une forme particulière. C'est le cas par exemple de la transformation Probit utilisée pour l'optimisation du modèle NH (Gadoury & Mac Hardy, 1982b).

D'autres fonctions critères peuvent également être utilisées si le but est d’identifier la force d’une relation sans à priori sur la forme de la courbe reliant les deux variables étudiées. Dans

projection cumulée des ascospores de V. inaequalis est qu’elle est croissante et bornée entre 0 et 100%. Dans ce cas, la relation est forte si tous les couples de points ayant des valeurs voisines sur l’axe des abscisses ont également des valeurs voisines sur l’axe des ordonnées. Le nuage de points prend alors une forme très resserrée le long d'une ligne ou d'une courbe imaginaire dont les points s'écartent peu.

Les outils communément utilisés pour évaluer un tel lien monotone entre deux variables sont les indices de corrélation de rang (Sheskin, 2007 ; Zou et al., 2003). Ces indices sont considérés comme les moins sensibles à la méconnaissance des variables : [quand il n’y a aucune connaissance sur la normalité des variables, la meilleure chose à faire est d’ordonner les résultats des deux séries] (Snedecor & Cochran, 1971). Deux indices de corrélation de rang sont couramment utilisés en statistique : le Coefficient de Rang de Spearman (ρ) et le Coefficient de Corrélation de Rang de Kendall (

τ

).

Le Coefficient de Corrélation de Rang de Spearman

Historiquement, le Coefficient de Corrélation de Rang de Spearman est le premier indice de corrélation de rang à avoir été proposé (Spearman, 1904). Il est couramment utilisé sous la forme :

ρ = 1- (6 * Σ (rx – ry)² / (n * (n²-1))

où rx est le rang statistique d'un point sur l’axe des X (par exemple l'échelle de temps), ry est sonrang statistique sur l’axe des Y (par exemple le pourcentage cumulé de spores projetées) et n est le nombre de points du jeu de données30. En cas de classement ex aequo de certains des rangs, des corrections sont préconisées (Sheskin, 2007). Dans certaines situations, la formule est cependant considérée comme peu sensible aux ex aequo (Sprent, 1992). Un exemple d'une telle situation est une faible fréquence d'ex aequo par rapport à l'effectif total de données. Les jeux de données correspondant aux projections d'ascospores de V. ineaqualis relèvent généralement de ce type de situation, avec un nombre extrèmement faible d'ex aequo aussi bien pour les pourcentages cumulés de spores projetées que pour les valeurs de l'échelle de temps.

Dans le cas de projections cumulées d’ascospores, si ρ est calculé pour une seule série annuelle, sa valeur vaut de toute évidence invariablement 1. En considérant les courbes de

30 Dans la littérature scientifique, cette formule est couramment attribuée à la publication originelle de 1904, bien qu'elle n'y figure pas.

projection des différentes années sur la même échelle de temps, la meilleure échelle de temps sera celle pour laquelle la valeur de ρ sera la plus élevée, c’est-à-dire la plus proche de 1.

Coefficient de Corrélation de Rang de Kendall

Le coefficient de Kendall (

τ

) est basé sur les différences de rang (en abscisse et en ordonnée) pour l’ensemble de toutes les « paires de données » pouvant être constituées en associant les points deux à deux (Sheskin, 2007). Une paire est dite « concordante » quand le classement des ordonnées est le même que celui des abscisses. Dans le cas contraire, elle est dite « discordante ». Le coefficient de Kendall prend la forme :

τ

= (Nc-Nd)/(0,5*n*(n-1)),

où Nc est le nombre de paires concordantes, Nd le nombre de paires discordantes, et n le nombre total de paires de données.

Comme pour le Coefficient de Corrélation de Rang de Spearman, des corrections sont préconisées en présence d’ex aequo. Des détails sur les calculs de ces corrections sont donnés par exemple sur la source en ligne : http://www.cons-dev.org/elearning/stat/stat7/st7.html

Comparaison des Coefficient de Corrélation de Rang de de Spearman et de Kendall

En théorie, l’optimum atteint avec l’un ou l’autre des deux indices est le même. Il est atteint lorsque les coordonnées (abscisses, ordonnées) de toutes les paires de données étudiées présentent le même classement dans leurs espaces respectifs (espace des ordonnées et espace des abscisses). Sur la base de simulations à l'aide de la méthode de Monte-Carlo, une étude comparative a montré leur très grande similarité pour mesurer le lien entre des séries temporelles (Yue et al., 2002a, 2002b). Ces auteurs ont constaté que les deux tests avaient la même capacité à détecter une tendence, au point de fournir des conclusions indiscernables en pratique.

En conclusion, les éléments présentés ci-dessus suggèrent que la corrélation de rang est le type de fonction critère le mieux adapté pour optimiser l'échelle de temps dans la modélisation d’une série temporelle croissante et bornée à partir de données de terrain. Dans le cas particulier du développement d'un outil d'aide à la décision pour réduire les applications de fongicides contre la tavelure du pommier, la corrélation de rang présente un avantage supplémentaire. Les possibilités de réduction d'application de traitements anti-tavelure sont

de ne pas traiter, malgré la présence de conditions climatiques favorables à la maladie, si la projection d'ascospores n'a pas encore démarré ou bien si le stock d'ascospores est épuisé. L'intérêt d'utiliser la corrélation de rang comme fonction critère est qu'elle n'accorde pas une moindre importance à des petites variations (en début et en fin de projection des ascospores), qu’à de grosses variations (pendant le pic de projection).

III-1.3 Méthodes d'optimisation pour paramétrer une échelle de temps