• Aucun résultat trouvé

Comparaison des mesures de distance

2.4 Comparaison générale des mesures de distance

puisque les résultats sur les autres simulations n’étaient pas très encourageants. On

retrouve ensuite la variante de l’appariement optimal basée sur les épisodes qui se montre également très sensible lorsque le paramètre de temporalité est élevé. On peut dresser un constat similaire pour les deux versions de l’appariement optimal localisé.

L’appariement optimal sensible aux durées qui utilise la moyenne arithmétique se montre également moyennement sensible au temps total passé dans un état.

Conformément à ce qui est défini dans l’algorithme, cette distance est compara-tivement aux autres mesures plus sensible à de faibles différences de temporalité qu’aux grandes. Notons toutefois que la version originale de l’algorithme fait de très mauvais résultats.

L’appariement optimal des transitions fait également des résultats moyens qui dépendent du poids donné aux transitions. Finalement, les mesures les moins sen-sibles sont les variantes des distances « Hamming » et « NMS ».

2.4 Comparaison générale des mesures de distance

Dans cette dernière section, nous nous proposons de revenir sur les simulations et d’adopter une vue plus synthétique des résultats obtenus. Pour rappel, ces si-mulations avaient pour but de mesurer la sensibilité des mesures de distance à plusieurs critères de la comparaison de processus. Il s’agissait de l’ordonnancement des états, compris de manière stricte ou partielle, et de leurs temporalités. Pour cette dernière, nous avions identifié trois critères qui ont conduit à autant de simu-lations : le positionnement des états, celui des d’événements sous-jacents ainsi que le temps total consécutif passé dans chaque état.

Pour résumer ces résultats, nous avons réalisé une analyse en composante prin-cipale sur les scores moyens (Sd) obtenus dans chaque simulation. Afin de nous assurer que cette analyse soit insensible à la présence ou à l’absence d’une mesure de distance particulière, nous avons utilisé une variante robuste de l’analyse en composante principale. Cette variante consiste à estimer la matrice des variances-covariances à l’aide de la méthode MCD (« Minimum Covariance Determinant »), une méthode d’estimation réputée robuste, avant de conduire une analyse en com-posante principale classique (Todorov et Filzmoser, 2009).

Table2.3 – Matrice des corrélations variables-facteurs

Spécialisation Temporalité Ordonnancement

Ordonnancement strict -0.45 0.28

Ordonnancement partiel -0.34 0.60

État unique -0.44

Bruit -0.45 -0.61

Positionnement des états 0.29 -0.65 -0.24

Positionnement des événements 0.36 -0.23 0.32

Durée 0.26 0.7

Le tableau 2.3 présente la matrice des corrélations variables–facteurs. Pour plus de clartés, nous avons omis les corrélations inférieures à 0.2. Cette matrice nous

permet d’interpréter les trois premiers axes de cette analyse. Le premier axe qui explique 67% de la variance peut s’interpréter comme un axe de spécialisation.

Il oppose ainsi les mesures sensibles à l’ordonnancement et celles qui le sont à la temporalité des séquences. Autrement dit, les mesures sensibles à l’ordonnancement ne le sont généralement pas à la temporalité des séquences. Un constat que l’on peut également dresser à l’aide de la figure 2.16. Celle-ci met en relation le score moyen obtenu sur l’ensemble des simulations qui concerne l’ordonnancement en abscisse avec le score moyen de la temporalité en ordonnée. Si l’on omet la distance

« NMS » qui fait figure d’exception11, on observe une forte relation négative entre ces deux scores.

−1 0 1 2

−2−101

Moyenne ordonnancement

Moyenne temporalité

DHD

OM (trans) OM (futur)

NMSmst

NMS

NMSdss LCS

LCSdss HAM

OM (i=1.5)

OM epi (x=0.1) OM epi (x=0.25)

OM epi (x=0.5)

OM loc (x=0.01) OM loc (x=0.1)

OM loc (x=0.4) OMv (orig)

OMv

OM loc (prec; x=0.1)

OM loc (prec; x=0.01) OM loc (prec; x=0.4)

OM tr (raw)

OM tr (p=1)

OM tr (p=10) OM tr (p=10; i=2) OM tr (p=10; i=20)

OM tr (p=0.1)

Figure 2.16 – Score moyen sur les simulations de temporalité et d’ordonnance-ment.

Le deuxième axe permet de dégager deux dimensions des résultats sur la tem-poralité. Il oppose les distances comparativement plus sensibles au positionnement

11. Ce qui montre la nécessité d’adopter une méthode d’analyse robuste.

2.4 Comparaison générale des mesures de distance 65 65 des états ou des événements à celles qui le sont à la durée passée dans un état. Cet

axe reproduit 22% de la variance totale.

Finalement, le troisième axe explique 8% de la variance. Il oppose les mesures de distance sensibles à un ordonnancement partiel à celles comparativement plus sensibles au bruit, c’est-à-dire à une grande sensibilité aux petites différences d’or-donnancement. C’est ce que nous avions nommé un ordonnancement strict. Cet axe est également positivement corrélé avec les résultats sur la sensibilité à la tempo-ralité d’événements sous-jacents. Nous avions déjà fait observer que, dans une telle problématique, l’ordonnancement amène une information utile pour identifier des différences de temporalité. On peut cependant observer que c’est surtout l’ordon-nancement partiel qui amène cette information. Ce graphique permet de mettre en relation les types de sensibilité à l’ordonnancement et à la temporalité.

Les figures 2.17 et 2.18 présentent ces résultats de manière graphique. Outre les corrélations variables facteurs, les mesures de distances y sont positionnées en fonction de leurs coordonnées. Ces deux figures permettent ainsi de dresser une cartographie des mesures de distances en fonction de leur sensibilité aux différents critères de la comparaison de processus.

Le tableau 2.4 reporte les coordonnées discrétisées de chaque mesure de dis-tance selon cette analyse. Il doit permettre de mieux cerner le profil d’une mesure de distance particulière. Les coordonnées sur le premier axe que nous avions appelé spécialisation peuvent être du côté Temporalité (lettre T) ou Ordonnancement (lettre O). Le deuxième axe,temporalité, oppose les mesures sensibles au position-nement des états (lettre P) à celles comparativement plus sensibles à la durée (lettre D). Finalement, le dernier axe,ordonnancement, oppose les mesures sensibles à une définition très stricte (lettre S) de l’ordonnancement à celles comparativement plus sensibles à l’ordonnancement partiel. Dans ce tableau, nous avons utilisé une lettre pour représenter une coordonnée supérieure à 0.25 en valeur absolue, deux lettres pour les coordonnées supérieures à 0.75 et trois si ces coordonnées sont supérieures à 1.5.

Cette analyse nous permet donc de dresser une cartographie des mesures de dis-tance. À l’aide de celle-ci, nous nous proposons à présent de discuter des spécificités de chacune d’entre elles.

Appariement optimal Théoriquement, nous avions présenté l’appariement op-timal comme définissant une famille de mesures de distance allant du « LCS »12, c’est-à-dire une mesure de distance basée uniquement sur les opérations d’insertion-suppression, et la distance de Hamming, n’acceptant que des opérations de sub-stitution. Ces distances se positionnent le long du deuxième axe (positionnement - temps total) parmi les mesures sensibles à la temporalité. Le rapport entre les coûts d’insertion-suppression et de substitution permet de positionner la mesure de distance le long de cet axe. Ainsi, la distance de Hamming se situe en bas à droite du graphique (a) tandis que la distance « LCS » se positionne en haut à droite tout en étant légèrement plus sensible à l’ordonnancement.

Les méthodes de calculs automatiques des coûts de substitutions permettent surtout d’ajuster le rapport entre substitution et indels. Ainsi, l’estimation des

12. Également appelée Levenshtein II.

−0.4 −0.2 0.0 0.2

Figure 2.17 – Cartographie des distances : axes spécialisation et temporalité.

coûts à partir des taux de transition ne modifie que très peu les résultats de la distance « LCS », les coûts de substitution étant généralement très proches de deux.

Celle qui se base sur le futur commun est, quant à elle, beaucoup plus proche de la distance avec des coûts d’insertion-suppression de 1.5, c’est-à-dire plus proche de la distance de Hamming. La dernière dimension de l’analyse nous permet, par contre, d’observer que la méthode « futur commun » est plus sensible à la temporalité d’événements sous-jacents que celles qui utilisent des coûts constants.

L’utilisation de coûts de substitutions définis par l’utilisateur a permis d’obtenir de très bons résultats dans la simulation où nous avons pu en inclure. Dès lors, il apparaît pertinent d’utiliser cette possibilité, en justifiant ces coûts de manière adéquate.

2.4 Comparaison générale des mesures de distance 67 67

−0.6 −0.4 −0.2 0.0 0.2 0.4

−0.6−0.4−0.20.00.20.4

Ordre strict − partiel (8%)

Positionnement − Durée (22%)

Figure2.18 – Cartographie des distances : axes temporalité et ordonnancement.

Hamming Nous avons déjà discuté de la distance de Hamming. La distance de Hamming dynamique fait des résultats très similaires tout en étant légèrement plus sensible à l’ordonnancement et moins au positionnement des états. Les résultats détaillés des simulations sur le positionnement nous ont permis d’observer que cette mesure de distance est comparativement plus sensible à des petites différences qu’à des grandes, ce qui n’est pas nécessairement un but recherché.

Appariement optimal sensible aux durées (OMv) Les deux variantes de l’appariement optimal sensible aux durées se positionnent très différemment par rapport aux autres distances. La version originale, qui se base sur la moyenne géométrique, est extrêmement sensible à la position des états, même plus que la distance de Hamming. Rappelons que le non-respect de l’inégalité triangulaire nous a conduits à observer des résultats étranges, comme une grande insensibilité aux

Table 2.4 – Analyses en composantes principales.

bruits. La deuxième variante de cette mesure de distance a conduit à une mesure légèrement plus sensible à l’ordonnancement que l’appariement optimal avec des coûts constants « LCS » et moins sensible aux différences d’événements et de temps total passé dans un état.

Appariement optimal des transitions Comparé à la version traditionnelle de l’algorithme, l’appariement optimal des transitions permet d’augmenter la sensi-bilité à l’ordonnancement en fonction de la pondération accordée aux transitions.

Dans les simulations que nous avons conduites, une pondération relativement forte est nécessaire pour que l’ordre soit pris en compte. On peut penser que ceci dépend du nombre de transitions moyennes par séquence par rapport à la longueur totale des séquences. Le ratio entre coûts de substitution et d’insertion-suppression per-met, parallèlement, de positionner la mesure de distance sur le deuxième axe, afin d’augmenter la sensibilité à la position des états. Cette mesure de distance se place ainsi dans un triangle qui partirait d’en haut à droite, allant au milieu à gauche et se terminant en bas à droite du premier graphique.

La mesure de distance est sensible à un ordonnancement partiel des motifs qui composent la séquence. Notons qu’une augmentation de la sensibilité au po-sitionnement va de pair avec une sensibilité avec un ordonnancement strict des séquences. De plus, cet algorithme peut également être contrôlé en spécifiant des coûts de substitution ce qui le rend particulièrement attrayant. Finalement, no-tons que l’utilisation d’un état différent pour chaque combinaison de deux états

2.4 Comparaison générale des mesures de distance 69 69 successifs conduit à une mesure très proche du « LCS » et ne s’avère donc pas

particulièrement utile.

Appariement optimal par épisodes La position de l’appariement optimal par épisode dépend de la valeur du paramètre de temporalité. Si celui-ci est élevé, la mesure est sensible aux différences de temps passés dans chaque état. Cette sensibilité baisse à mesure que le paramètre diminue au profit d’une plus grande sensibilité à l’ordonnancement strict des états. Notons qu’il est également possible de spécifier des coûts de substitutions.

Appariement optimal localisé Les résultats de l’appariement optimal localisé dépendent de la prise en compte ou non de l’état précédant dans l’algorithme. La version originale qui ne prend pas en compte l’état précédant est une mesure sen-sible à l’ordonnancement défini de manière partielle. Toutefois, le non-respect de l’inégalité triangulaire nous a amenés à observer des résultats étranges, comme une relative absence de sensibilité au bruit ou une sensibilité « négative » au position-nement des états. Ces propriétés pourraient amener à des résultats incontrôlés, ce qui nous amène à ne pas recommander cette mesure de distance, hormis pour des applications purement exploratoires. On peut remarquer qu’une diminution du pa-ramètre de temporalité augmente la sensibilité à l’ordonnancement, toujours dans une acception partielle. Elle diminue également la sensibilité au temps total passé dans un état (rappelons que la mesure est insensible au positionnement dans tous les cas).

La prise en compte de l’état précédant dans l’algorithme modifie les proprié-tés de la mesure de distance et permet d’éviter les problèmes engendrés par le non-respect de l’inégalité triangulaire. La mesure est sensible à l’ordonnancement strict des séquences et s’avère donc sensible au bruit. Ici encore, une diminution du paramètre de temporalité conduit à une augmentation de la sensibilité à l’ordon-nancement. Nous avons pu observer une relation non linéaire entre le paramètre de temporalité et la sensibilité au positionnement. Une valeur plutôt faible de (0.1) donnait les meilleurs résultats. Notons finalement que cette mesure de distance est comparativement plus sensible aux grandes différences de positionnement.

NMS Les variantes de la distance affichent des résultats assez différents. L’utili-sation de la distance « NMS » sur les séquences avec répétition des états a conduit à de très mauvaises performances. Toutefois, l’utilisation de la variante « NMSmst » conduit à une alternative intéressante par rapport aux autres mesures de distances.

Cette mesure est sensible à un ordonnancement défini de manière très stricte. Elle est sensible au positionnement des états et, de manière intéressante comparative-ment plus aux grandes différences de positionnecomparative-ment qu’aux petites. Elle est par contre assez peu sensible au temps total passé dans chaque état. On peut regret-ter que cette mesure de distance ne permette pas de spécifier des proximités entre états.

Conclusion

Le choix d’une mesure de distance particulière dépend de la problématique que l’on entend analyser. Selon nos analyses, aucune mesure de distance ne dépasse clairement les autres. À ce propos, on pourra noter que les scores moyens calculés sur l’ensemble des simulations donnent des valeurs très similaires pour toutes les mesures hormis pour la distance « NMS » qui fait généralement moins bien que les autres.

Ceci signifie que l’on gagne ce que l’on perd par ailleurs. Il est donc nécessaire de faire des choix. Dans certaines problématiques, l’on privilégie le positionnement des états à positions constantes. Dès lors, la distance de Hamming ou sa version dynamique apparaissent comme les meilleurs choix. Dans d’autres problématiques, l’on privilégie le temps total passé dans chaque état et l’appariement optimal tra-ditionnel apparaît alors comme la meilleure solution. Finalement, dans un dernier ensemble de problématiques, on privilégie l’ordonnancement, c’est-à-dire la suc-cession des étapes qui jalonnent une trajectoire. Dans ce cas de figure, plusieurs solutions sont envisageables selon le type de sensibilité recherché. Si l’ordonnance-ment doit être défini de manière stricte, la distance « NMSmst » apparaît comme la mesure la plus judicieuse. Dans le cas contraire, l’appariement optimal des tran-sitions avec une pondération très forte des trantran-sitions apparaît comme une bonne solution.

Dans la majorité des cas, on cherche cependant une situation intermédiaire : être sensible à l’ordonnancement tout en l’étant au temps total, par exemple. Plusieurs mesures de distance définissent des zones sur notre cartographie. Il est ainsi possible d’ajuster au mieux la mesure de distance à utiliser. L’appariement optimal des transitions est particulièrement intéressant, car il permet de couvrir la zone la plus large, tout en permettant l’utilisation de coûts de substitution variables et garantissant le respect de l’inégalité triangulaire.

À cet égard, toutes les mesures de distances qui ne garantissent pas le respect de l’inégalité triangulaire ont conduit à observer des résultats étranges. Dès lors, le respect de l’inégalité triangulaire apparaît comme une condition nécessaire.

Cette étude de la sensibilité des mesures de distance permet de guider le choix d’une mesure de distance particulière. Ce choix est sujet à critiques et doit dès lors être justifié en fonction de la problématique étudiée. En plus de la question des coûts de substitution, il est à présent nécessaire de justifier le choix de la mesure de distance utilisée.

Cette comparaison des mesures de distances clarifie l’interprétation des résultats obtenus avec l’une d’entre elles. Ceci ouvre des perspectives en facilitant l’interpré-tation des écarts entre les résultats obtenus avec des dissimilarités différentes. En comparant tour à tour les résultats obtenus avec une distance sensible à l’ordon-nancement, la temporalité absolue (positionnement) ou relative (temps total), on peut obtenir un regard intéressant sur les séquences étudiées.

Chapitre 3

Analyse exploratoire de