Distance basée sur les relations dans le temps

Calcul de dissimilarités entre séquences

1.7 Distance basée sur les relations dans le temps

de la manière suivante (Elzinga, 2005; Elzinga et Liefbroer, 2007)^{8 9}. Soitm(X, Y)

le nombre de sous-séquences communes aux séquencesXetY pondéré par la durée minimale commune de ces mêmes sous-séquences :

dN M S(X, Y) =m(X, X) +m(Y, Y)−2m(X, Y) (1.24) dN N M S(X, Y) = 1− m(X, Y)

pm(X, X)·m(Y, Y) (1.25) L’équation (1.24) propose une version non normalisée de la distance entre les séquences. Cette distance peut être interprétée comme la distance euclidienne au carré entre les vecteurs des attributs (en termes de sous-séquences pondérées par le temps minimum commun) des séquencesX et Y. En ce sens, cette distance est euclidienne.

Cette mesure de distance dépend du nombre de sous-séquences que peut conte-nir chacune des séquences X et Y. Elzinga et Liefbroer (2007) proposent donc une version normalisée avec l’équation (1.25). À l’aide de cette dernière mesure, deux séquences contenant beaucoup de sous-séquences qui diffèrent au total que d’une sous-séquence différeront moins que si elles ne contenaient chacune que peu de sous-séquences. Autrement dit, l’importance accordée à une sous-séquence com-mune dépend du nombre total de sous-séquences que l’on pourrait observer.

Cette mesure de distance a l’avantage de se baser intrinsèquement sur la notion d’antériorité et donc d’ordonnancement des séquences. Cette mesure de dissimila-rité ne permet pas de définir de proximité entre les états ce qui revient à supposer que tous les états sont aussi différents les uns des autres. En ce sens, la mesure ne répond pas aux critiques sur les manières dont on fixe les coûts puisqu’elle suppose implicitement des coûts constants.

1.7 Distance basée sur les relations dans le temps

Rousset et al. (2011) proposent une mesure de dissimilarité entre séquences (voir également Rousset et Giret, 2007). L’originalité de l’approche consiste à considérer que la proximité entre deux états varie au cours du temps. Cette approche semble fondée sociologiquement puisqu’il est probable, dans le cadre de trajectoire d’in-sertion professionnelle notamment, que la distance entre l’état « Sans Emploi » et les états en emploi soit plus grande en fin de trajectoire qu’au début. En effet, il n’est pas rare que les personnes connaissent une période sans emploi au début et ceci n’a vraisemblablement que peu d’impact pour la suite, puisqu’il s’agit d’une période de transition. Par contre, en fin de trajectoire être sans emploi désigne une autre réalité.

À un moment donné, deux états sont considérés comme proches s’ils partagent le même futur ou si la transition entre ces états est fréquente. La notion de situation permet de formaliser cette approche. Une situation at correspond au fait de se

8. Cette formalisation ainsi que la normalisation que nous présentons plus loin diffère margi-nalement de celle développée dans Elzinga (2003).

9. Techniquement, nous avons repris ici l’implémentation réalisée dans le logiciel CHESA (El-zinga, 2009).

trouver dans l’état a au momentt. La méthode se base sur la construction d’une matrice Sit carrée de dimension |Σ|`× |Σ|` où|Σ| désigne la taille de l’alphabet et ` la longueur maximale des séquences. Les valeurs de cette matrice permettent ensuite de calculer la distance entre situations. Cette matrice se construit de la manière suivante. SoitSit(at₁, bt₂) l’entrée correspondant à la ligneat₁ et la colonne bt₂ :

Sit(at₁, bt₂) = 1 P

ct3

P(c_t₃|a_t₁) t₃−t₁+1

P(bt₂|at₁)

t₂−t₁+ 1 (1.26)

P(bt₂|at₁) correspond à la probabilité de passer de la situationat₁ à bt₂. Cette probabilité est pondérée par l’inverse de l’écart temporel (_t ¹

2−t₁+1) ce qui permet de pondérer l’importance des transitions entre situations par cet écart. Finalement, chaque entrée est normalisée par la ligne de la matrice, de sorte que la somme des destinations soit égale à un. Cette normalisation est rendue nécessaire par le fait que les données sont tronquées à droite. Notons que dans leur formulation originale, par définitionSit(at₁, bt₂) vaut 0 sit₁> t₂. Ainsi, le passé n’est pas pris en compte dans le calcul des coordonnées entre situations. La distance entre situations est ensuite définie comme la distance du khi deux entre les lignes de la matrice.

Finalement, la méthode consiste à associer des coordonnées à chaque trajectoire en fonction de la projection des distances entre situations à l’aide d’une méthode proche de l’analyse des coordonnées principale (voir section 3.1). La matrice des distances est obtenue en prenant la distance euclidienne entre les coordonnées de chaque séquence.

1.8 Conclusion

Jusqu’à présent, un grand nombre de mesures de distances différentes ont été développées. Ces mesures ont généralement été élaborées à partir de la version originale de l’appariement optimal ou en réponse aux critiques qui visaient cette dernière. Toutefois, ces développements n’ont jamais été mis en parallèle, ce qui rend d’autant plus difficile le choix d’une mesure de distance pour une probléma-tique particulière. Cette section constitue la première étape d’un tel projet. Dans la prochaine section, nous comparons la sensibilité de ces mesures à différents critères afin de pouvoir les situer les unes par rapport aux autres.

Afin de faciliter la comparaison des différentes mesures de distances, nous avons construit le tableau 1.8 qui reprend les principales propriétés de chacune de ces mesures. Les trois premières colonnes donnent des éléments sur l’interprétation de la mesure de distance. On peut diviser en deux grands groupes les mesures de distance entre séquences (Elzinga, 2007; Gabadinho et al., 2011a). Certaines mesures de distance se basent sur la définition d’attributs propres à chaque séquence puis calculent la distance en fonction des attributs communs. Ces distances (ou leur racine carrée) sont également euclidiennes, puisqu’il est possible de reconstruire l’espace de ces propriétés et de calculer les distances entre ces points. Parmi ces mesures, on retrouve la distance de Hamming, les mesures de distances basées sur les sous-séquences communes ainsi que la distance proposée par Rousset et al.

(2011).

1.8 Conclusion 35 35 Les autres mesures que nous avons présentées se basent sur le concept d’édition.

La distance est alors définie comme le coût minimal nécessaire pour transformer (c’est-à-dire éditer) une séquence en une autre. Étant donné que ces distances se basent sur une minimisation, elles ne peuvent pas être considérées comme eucli-diennes (Elzinga, 2007). Ces distances se différencient par les opérations que l’on peut utiliser ainsi que par la manière d’estimer les coûts associés à ces opérations.

Les trois colonnes suivantes donnent les propriétés de chaque mesure de dis-tance. La colonne « métrique » permet d’identifier les mesures qui garantissent le respect de l’inégalité triangulaire. Les éventuelles conditions sur les paramètres pour que ce soit le cas sont mises en note. La colonne « Euclid. » rappelle la liste des mesures qui admettent une représentation sous forme de coordonnées réelles des séquences. Rappelons qu’une distance euclidienne est nécessairement une mé-trique. Finalement, la colonne « unité » permet d’identifier les mesures de distances qui sont sensibles aux unités de temps.

Les trois dernières colonnes synthétisent les paramètres utilisés par la méthode.

Plusieurs méthodes se basent sur des coûts de substitution (colonne « Subst. ») ou des coûts d’insertion-suppression (colonne « Indels »). Les colonnes correspondantes résument la manière dont ces paramètres sont utilisés à l’aide des valeurs suivantes.

– Unique : les coûts sont constants et leur valeur unique est fixée par l’utilisa-teur.

– Expert : les coûts peuvent varier en fonctions des états et sont fixés par l’expert.

– Estimé : les coûts sont variables, mais estimés en fonction des données par la procédure.

– Auto : les coûts sont variables, mais fixés automatiquement par la procédure en fonction d’autres paramètres.

Finalement, la colonne « autres » liste les éventuels paramètres supplémentaires.

Les descriptions plus complètes de leur interprétation sont données lors de leur présentation.

36Chapitre1:Calculdedissimilaritésentreséquences Table1.8 – Propriétés des mesures de distance entre séquences d’états

Interprétation Propriétés Paramètres

Mesure Attr. Édit. Description Métrique Euclid. Unité Subst. Indels Autres

Hamming Oui^c Oui Nombre de positions divergentes. Oui^a,c Oui^c Expert.

Hamming

dynamique Non Oui Nombre de positions quasi divergentes, variations des divergences entre états dans le temps.

Oui^a,c Oui^c Oui Estimé.

Rousset Oui Non Basé sur le futur commun. Oui Oui Oui^e Importance du

futur.

LCS Oui Oui Basé sur la plus longue sous-séquence

commune. Oui Non

OM (coûts

théoriques) Non Oui Basé sur la plus longue quasi

sous-séquence commune. Oui^a Non Expert. Expert.

OM (futur) Non Oui Coûts basés sur le futur commun. Non Non Oui Estimé. Unique. `(lag)

OM (transitions) Non Oui Coûts basés sur les transitions entre

états. Non Non Oui Estimé. Unique.

OM (optimaux) Non Oui Coûts calculés pour augmenter la

simila-rité des séquences déjà similaires. Non^f Non Estimé. Unique. Taux de similarité.

OM localisé Non Oui Coûts d’insertion dépendant du contexte. Non Non Expert. Auto. Localitéx, temporalitéy. OM localisé (état

précédant) Non Oui Coûts d’insertion dépendant de l’état

ali-gné précédant. Oui^b Non Expert. Auto. Localitéx,

temporalitéy. OM v (Halpin) Non Oui Coûts pondérés par la longueur de

l’épi-sode. Non Non Expert. Expert^nd. Pondérationλ.

OM v (Halpin)

moyenne Non Oui Coûts pondérés par la longueur de

l’épi-sode. Oui^b Non Expert. Expert^nd. Pondérationλ.

OM épisode Non Oui Alignement des épisodes. Ajustement

se-lon la se-longueur. Oui^a Non Expert. Expert^nd. Temporalitéx.

OM séquence de

transitions Non Oui OM sur couples d’états. Oui^a Non Oui^e Expert. Expert. Pondération des

transitionsp.

NMS Oui Non Basé sur les sous-séquences communes. Oui Oui Oui

NMSmst Oui Non Basé sur les sous-séquences communes.

Pondéré par la durée commune. Oui Oui

aSi les coûts respectent l’inégalité triangulaire. ^bSi les coûts sont constants. ^cSi la distance entre états correspond à une distance euclidienne au carré, la racine de la distance est euclidienne. ^ndNon disponible avecTraMineR. ^eCorrection possible avec les paramètres. ^fLa distance peut être négative.

Chapitre 2

Comparaison des mesures de

Dans le document Étude des inégalités de genre en début de carrière académique à l'aide de méthodes innovatrices d'analyse de données séquentielles (Page 48-52)