• Aucun résultat trouvé

Le approches de vote majoritaire pondéré offrent de bonnes performances. Néanmoins, dans ces approches chaque classifieur possède le même poids. Or, les performances de ceux-ci varient en fonction des combinaisons d’années. Cependant, nous avons mis en évidence que, dans la majorité des cas, les performances obtenues par un classifieur restent stables lorsqu’il est appliqué à différentes séries temporelles. La table3.1illustre cet effet, où les performances restent peu dispersées autour de la moyenne. L’objectif de la méthode proposée dans cette section, consiste à exploiter la fusion de classifieurs par Dempster-Shafer, en estimant des performances

à partir des classifications naïves de l’historique.

8.2.1

Théorie de Dempster-Shafer

La théorie Dempster-Shafer ou théorie de l’évidence désigne une fusion de données fondée sur la notion de preuves distinctes, permettant de calculer la probabilité d’un évènement p en fonction de masses de croyance (mass of belief en anglais).

Définissons X comme l’ensemble des évènements p possibles (dans notre cas p représente le choix d’une classe d’OCS) :

X = {p1, ..., pn},

alors l’ensemble des parties de X est représenté par : 2X = {A|A ⊆ X} = {∅, {p

1}, ..., {pn}, {p1, p2}, {p1, ..., pn}}.

L’élément A peut être une hypothèse simple comme {p1} qui indique que la classe choisie vaut 1, ou un

ensemble d’hypothèse comme l’élément {p1, p2} qui signifie que la classe est 1 ou 2.

Les masses de croyance possèdent les propriétés suivantes :

m(∅) = 0,

et

X

A∈2X

m(A) = 1.

La masse m(A) d’un événement A de l’ensemble des parties représente la proportion de toutes les preuves exclusivement en faveur de A.

À partir des masses de croyance Shafer [Smith and Shafer, 1976] détermine deux mesures : la croyance

bel(A) et la plausibilité pl(A) qui vérifient la contrainte : bel(A) ≤ pl(A).

On définit la croyance bel(A) comme la somme des masses de tous les sous-ensembles d’un ensemble A.

bel(A) = X

B|B⊆A

m(B).

On définit la plausibilité pl(A) comme la somme des masses de tous les ensembles B qui intersectent l’ensemble d’intérêt A.

pl(A) = X

B|B∩A6=∅

m(B).

Ces deux mesures s’opposent :

pl(A) = 1 − bel( ¯A),

de telle sorte que généralement, on peut alors estimer la masse, la croyance ou la plausibilité à partir des deux autres grandeurs. L’intervalle de confiance de l’évènement A est fourni par bel(A), pl(A).

Pour installer le système de décision, ou combinaison de Dempster, on construit un jeu de masses pour les

N domaines Source (les votants). Soit S1, ..., SN les N domaines Source, alors chacun dispose d’une fonction

de croyance m distincte : m1, ..., mN. On définit alors la valeur de la masse de croyance comme :

m(A) = 1 1 − κ X B1∩...∩BN=A   N Y j=1 mj(Bj)  ,

où κ désigne un terme de normalisation nommé “terme de conflit”, qui permet de lisser les fortes divergences entre sources. κ= X B1∩...∩BN=∅   N Y j=1 mj(Bj)  .

L’évènement A disposant de la plus haute masse de croyance associée détermine la classe choisie. Pour la fusion de classifications, les masses associées à chaque votant peuvent être identiques pour toutes les classes et exploiter la PG ou le Kappa. Ces masses peuvent également être spécifiques à chaque classe en exploitant la précision ou le rappel de chaque classe. Ces quatre fonctions de croyance sont utilisées et présentées dans les résultats.

Généralement utilisée avec des classifications supervisées, pour lesquelles on dispose de données de vali- dation, on peut facilement exploiter ces différentes métriques. Lors de la définition des contraintes liées au sujet de thèse, nous avons convenu que nous disposions des données de validation pour réaliser l’évaluation des méthodes. Cependant, nous excluons d’exploiter ces évaluations pour la production. Par conséquent, nous relevons l’impossibilité d’exploiter les métriques réelles associées à chaque votant et donc d’estimer sa capacité de généralisation à des années différentes.

On peut néanmoins contourner cet obstacle en exploitant l’historique. Chaque votant est issu d’une classification de la série temporelle de l’année courante par un classifieur différent. Nous réalisons alors la classification naïve de toutes les séries temporelles de l’historique pour chacun des classifieurs ; nous pouvons alors réaliser la validation de ces cartes obtenir une matrice de confusion pour chaque cas naïf. Cette matrice de confusion estime la capacité de chaque classifieur naïf à généraliser correctement aux autres années. Cette astuce nous offre la possibilité d’estimer une matrice de confusion moyenne permettant de calculer les différentes métriques associées à chaque votant.

Par exemple, posons 2011 l’année que l’on cherche produire. Soient 2007, 2008 et 2009 disponibles dans l’historique. Neuf classifications sont alors produites, trois représentent les votants et six utilisées pour générer une matrice de confusion moyenne par classifieur, comme indiqué dans la table8.2. Pour chaque classifieur, les deux matrices issues de la validation (provenant du même classifieur et donc de la même ligne du tableau) sont moyennées et on procède à l’association des métriques au votant correspondant (en ligne dans la table

8.2). Ainsi, dans notre exemple, la matrice de confusion moyenne issue de la ligne 2007 sert à calculer les masses associées à la classification de la série temporelle de 2011 par le classifieur issu de 2007. Il en est de même pour les classifications de la série temporelle de 2011 par les classifieurs 2008 et 2009, auquel on associe les matrices de confusion moyenne. Ainsi nous sommes en mesure de fournir les masses requises par la fusion par Dempster-Shafer pour chaque votant.

Table 8.2 : Classifications générées pour réaliser la fusion Dempster-Shafer Classifieur

ST

2007 2008 2009 2011

2007 Validation Validation Votant 2008 Validation Validation Votant 2009 Validation Validation Votant

1 2 3 4 5 6

Nombre de domaines Source

Sup DSPG DSKappa DSPREC DSRAP DSPGTO DSKappaTO DSPRECTO DSRAPTO Naïf 0.88 0.00 0.00 0.00 0.00 0.00 0.00 0.76 0.78 0.79 0.80 0.77 0.00 0.76 0.77 0.79 0.80 0.77 0.00 0.75 0.78 0.76 0.76 0.74 0.00 0.73 0.73 0.75 0.77 0.74 0.00 0.79 0.81 0.83 0.85 0.84 0.00 0.79 0.81 0.83 0.85 0.84 0.00 0.79 0.82 0.81 0.82 0.82 0.00 0.77 0.78 0.80 0.82 0.82 0.70 0.00 0.00 0.00 0.00 0.00

Précision Globale

1 2 3 4 5 6

Nombre de domaines Source

0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.06 0.06 0.06 0.06 0.07 0.00 0.06 0.06 0.06 0.06 0.07 0.00 0.06 0.06 0.07 0.07 0.08 0.00 0.07 0.08 0.08 0.07 0.08 0.00 0.05 0.05 0.05 0.04 0.04 0.00 0.05 0.05 0.05 0.04 0.04 0.00 0.05 0.05 0.06 0.05 0.05 0.00 0.06 0.07 0.07 0.05 0.06 0.06 0.00 0.00 0.00 0.00 0.00

Intervalle de confiance à 95%

0.5 0.6 0.7 0.8 0.9 1.0 0.00 0.02 0.04 0.06 0.08 0.10

Figure 8.7 : PG obtenue pour les différentes approches de fusion par Dempster-Shafer. On représente les performances sous la forme d’une matrice où l’axe des abscisses présente le nombre d’années de l’historique utilisées, et l’axe des ordonnées les différentes méthodes pour les fusions utilisant les cartes après transport (suffixe TO) et les cartes naïves (sans suffixe).

8.2.2

Résultats

Dans cette expérimentation, nous allons comparer les différentes métriques exploitées dans la fusion Demspter- Shaffer. Au nombre de quatre, on distingue deux indices globaux (Kappa etPG) et deux indices par classes (précision et rappel). La figure 8.7 utilise le formalisme introduit précédemment pour présenter les PG obtenues, encore une fois pour les deux types d’entrée disponibles (naïf et TO).

la même logique d’amélioration lorsque le nombre d’années utilisées augmente. Nous retrouvons l’écart entre le naïf et le TO toujours d’environ de 5 %. L’utilisation de la précision et du rappel fournit des performances symétriques avec une performance maximale du rappel pour le cas 3, et le cas 5 pour la précision. Ces performances restent néanmoins très proches dans les intervalles de confiance, ne mettant en évidence aucune différence significative en faveur de l’un ou l’autre indice. L’analyse du FScore, ne révèle aucune particularité pour le cas 2. Le cas 3 disponibles en annexe dans la figure E.1, met en évidence de légères variations dans le FScore. Ces variations minimes estimées à 0.01 pour certaines classes peuvent s’expliquer par la différence entre la PG et le Kappa. Ces différences s’accentuent lorsque le nombre d’années utilisées augmente. Le calcul de la matrice de généralisation constitue une des sources probables de ces variations. Le nombre d’années disponibles dans l’historique influe sur le nombre de votants, mais également sur le nombre de cas naïfs utilisés pour calculer la matrice. Une variation brutale dans les performances d’un classifieur pour un domaine cible peut alors dégrader la pertinence de la matrice de généralisation, causant ainsi une différence entre les valeurs de Kappa et de PG utilisées lors de la fusion.

Une approche judicieuse consisterait à utiliser une matrice médiane ou réaliser une moyenne dans laquelle les valeurs extrêmes ne sont prises en compte. Nous pourrions également envisager d’introduire les différentes mesures vues précédemment dans la fusion, telles que les transitions, la confiance, les probabilités par classe, etc. Néanmoins, toutes ces mesures peuvent être assimilées à des probabilités, aussi l’approche de fusion bayésienne semble la plus immédiate.