• Aucun résultat trouvé

Chapitre IV Matériels et méthodes

IV.4 Traitement des données

Disposant de données détaillées sur les communications téléphoniques ainsi que de plusieurs corpus renseignant sur les activités et les relations sociales, l’état de santé physique et psychique ainsi que sur les évènements importants advenus dans le courant de l’enquête, nous avons cherché à établir s’il existait ou non des corrélations entre les métadonnées téléphoniques et les données socio-sanitaires.

En fonction du type de données, nous avons appliqué différents types de tests statistiques permettant de mettre en exergues des relations univariées significatives au seuil de 5% sur un plan intra-individuel. Nous avons ainsi utilisé le coefficient de corrélation de Pearson lorsque les deux séries de données étaient continues. En fonction de la taille des échantillons, les tests non paramétriques de Kruskall-Wallis ou de Mann-Whitney ont été appliqués lorsqu’il était nécessaire de comparer des données ordinales à des données continues. Enfin lorsque les tests impliquaient des données binaires, nous avons appliqué le modèle logit.

Nous présentons rapidement ces différents tests dans la section suivante.

IV.4.1 Les tests statistiques

IV.4.1.1 Coefficient de corrélation de Pearson (R²) et modèle Logit

Le coefficient de corrélation de Pearson aussi appelé coefficient de corrélation linéaire, mesure à quel point deux variables sont corrélées en cherchant les corrélations linéaires. Il mesure donc la relation linéaire ou autrement dit, la proportionnalité, entre les valeurs de deux variables. La valeur de la corrélation, le coefficient R², ne dépend pas des unités de mesures utilisées mais nécessite que les deux variables soient mesurées sur des échelles d’intervalles.

R² varie entre -1 et 1. 1 correspond à une corrélation positive parfaite, 0 signifie l’absence de corrélation, c’est-à-dire l’indépendance des variables, et -1 correspond à une corrélation négative parfaite. La valeur positive ou négative de la corrélation renseigne sur le sens de variation des variables : lorsqu’elle est positive, les deux variables évoluent dans le même sens (elles augmentent ou elles diminuent) et lorsqu’elle est négative, elle indique que quand une variable augmente, l'autre diminue.

La régression logistique ou modèle logit est un cas particulier du modèle linéaire général. C’est un modèle de régression binomiale permettant de modéliser l'effet d’une variable sur une variable binomiale.

IV.4.1.2 Kruskall-Wallis et Mann-Whitney

Le test U de Mann-Whitney est un test non paramétrique permettant de tester si deux

échantillons suivent la même loi de probabilité. Adapté à la comparaison de séries indépendantes de petite taille (à partir de quatre observations par série), il est employé comme alternative à l'ANOVA dans les cas où la distribution des données ne respecte pas l'hypothèse de normalité. Dans cette situation, le calcul ne porte pas sur les valeurs des mesures issues d’échantillons représentatifs, mais sur leurs rangs attribués à la suite d’un classement par ordre croissant. Pour effectuer ce test la variable étudiée doit être mesurée sur une échelle ordinale. Comme Mann-Whitney, le test de

Kruskall-Wallis est une alternative non-paramétrique au test t pour des échantillons indépendants. Il

est utilisé lorsqu’il s’agit de comparer plus de deux groupes.

IV.4.1.3 V de Cramer

Le test V de Cramer permet enfin de comparer l’intensité du lien entre les deux variables étudiées. Plus V est proche de zéro, moins les variables étudiées sont dépendantes et à contrario, lorsqu’il est égal à 1, il indique que les deux variables sont complètement dépendantes. Donc, plus V est proche de 1, plus le lien entre les deux variables est fort.

Le tableau 5 synthétise les choix de tests en fonction du type de variable :

Variable continue ordinale binaire

continue Pearson (R²) Kruskal-Wallis (p-valeur)

Mann- Whitney

Logit

binaire Logit Cramer (V) Cramer (V)

Tableau 5. Récapitulatif des tests statistiques

IV.4.2 Les corpus de données téléphoniques

Les données téléphoniques ne formant qu’un seul et même corpus ont été manipulées de manière à constituer finalement quatre types de données différentes. Nous avons ainsi réalisé les

tests statistiques présentés précédemment sur des données brutes, les variations de ces données brutes, des données lissées et des données exacerbées.

Concernant les données lissées, deux types de filtres ont été utilisés : un filtre ébarbeur et un filtre par moyenne mobile. Sur une fenêtre de sept jours, le filtre ébarbeur remplace la valeur la plus forte par la seconde valeur la plus élevée et la valeur la plus faible par la deuxième plus faible. Le second filtre calcule des moyennes sur une fenêtre glissante de sept jours.

Les données exacerbées ensuite mettent en valeur les variations et les moments de rupture de la série. Trois méthodes ont été utilisées pour étudier les variations : un filtre écart-type mobile qui calcule l’écart-type sur une fenêtre glissante de 7 jours ; la méthode de Tuckey qui identifie des jours avec une valeur atypique définie sur la base des distances interquartiles et le Tuckey – diff qui discerne les jours présentant des variations atypiques (extrêmes ou moyennes).

Nous avons enfin identifié des jours en rupture dans la série à partir d’un modèle de détection du changement (CPM). L’identification est basée sur la moyenne et l’écart-type dans des fenêtres de temps augmentant au fur et à mesure de l’analyse. Ainsi sur une fenêtre de 30 jours, l’algorithme recherche le jour qui maximise la différence de moyenne et d’écart-type entre deux périodes. Si il existe un jour avec une rupture significative (basée sur un test de Kolmogorov-Smirnov), alors le jour est identifié, l’algorithme se poursuit, un jour supplémentaire est apporté, le test est à nouveau réalisé et ainsi de suite jusqu’à la fin de la série.