• Aucun résultat trouvé

CHAPITRE 3 MÉTHODOLOGIE

3.2 Appropriation des bases de données

3.2.2 Identification des accidents TMD dans la base globale

Afin de pouvoir faire une analyse comparative des accidents en général et des accidents TMD, il est nécessaire d’identifier dans la base globale les accidents de la base TMD, notamment pour des raisons de dépendance de données pour la comparaison statistique, mais cela permettra également de vérifier la compatibilité des données dans les deux bases.

Pour identifier un accident de la base TMD dans la base globale, il a fallu comparer les informations des champs afin de choisir la bonne combinaison permettant de conclure à une correspondance. Si on l’avait fait manuellement, on aurait pu trier par la date puis par la municipalité pour enfin choisir le bon accident, parmi les accidents restants, grâce au code d’impact par exemple. Il n’est cependant pas envisageable de faire ce travail « à la main » pour les quelques 2 400 accidents de la base TMD. En s’inspirant de travaux précédents (Trépanier, et al., 2009) ce travail a été automatisé au maximum.

3.2.2.1 « Simplification » du problème

Pour identifier un accident il faut comparer à un moment ou un autre un accident de la base TMD à tous les accidents de la base globale via la recherche d’une valeur par exemple. Cette opération avec les quelques 250 000 accidents constituant la base globale est particulièrement longue surtout si la recherche porte sur plusieurs champs. Dans un premier temps, nous avons donc cherché à « simplifier » le problème en éliminant les accidents ayant peu de chance de se trouver dans la base TMD. Pour cela les informations des champs date et heure, qui sont toujours remplies, ont été utilisée et que l’on peut supposer être la plupart du temps exactes, selon la logique suivante :

Figure 3.6 : Méthode de simplification des recherches

Le programme VB est disponible dans l’annexe 5. Ainsi tous les accidents de la base globale ayant une date et une heure différentes des accidents TMD ont été marqués de façon à éviter de rechercher dans ces valeurs par la suite.

Ce programme a tout de même été long à exécuter (environ 6 h) mais a permis d’éliminer 236 355 accidents (environ 95% des accidents de la base globale) pour les recherches futures. Le problème simplifié est donc maintenant d’associer les 2 379 accidents de la base TMD parmi les 10 461 accidents restant dans la base globale.

3.2.2.2 Méthode d’identification

Pour associer le plus d’accidents possible, il faut déterminer la combinaison de champ donnant les résultats les plus pertinents et les plus nombreux possible. Pour cela il faut partir d’un accident de la base TMD en essayant de lui trouver une correspondance unique dans la base globale. Mais plus on essaie d’être précis (et donc d’avoir beaucoup de champs communs) moins les résultats sont nombreux et inversement si on n’est pas assez précis les résultats peuvent se révéler non pertinents. Le fait d’avoir simplifié le problème rend les recherches rapides et plusieurs combinaisons de champs ont pu être testées en un temps raisonnable afin de déterminer une méthode de recherche efficace. Voici la méthode d’identification retenue et réalisée sous VB avec les nombres d’accidents TMD correspondant à chaque étape :

Figure 3.7 : Méthodologie d’identification et résultats obtenus

Environ 80% des accidents ont ainsi pu être identifié. La programmation de la première recherche par Date / Heure / Municipalité est fournie dans l’annexe 5.

3.2.2.3 Vérification des associations trouvées

Il n’est cependant pas sûr que les associations trouvées soit toutes pertinentes. Afin de ne vérifier que les accidents « douteux » on peut calculer un indicateur de qualité de l’association. Le nombre de champs communs entre deux accidents associés a été choisi comme indicateur, et a été calculé via un programme VB disponible dans l’annexe 5. 21 champs potentiellement identiques ont été identifié (Date, Heure, Minute, municipalité, N°CRPQ, météo….) et les résultats obtenus varient entre 3 et 19 champs identiques. Les accidents avec une les plus faible valeurs ont donc été vérifié en premier jusqu’à atteindre une valeur suffisamment élevée pour qu’il n’y ait manifestement plus d’erreur.

Afin de vérifier en un coup d’œil une association, un « comparateur » a été réalisé. Basé sur l’outil de visualisation des deux bases de données (cf. §3.2.1.3), ce comparateur permet d’afficher sur une même page toutes les informations concernant les deux accidents associés. Voici comment il se présente :

Figure 3.8 : Comparateur

Une vingtaine d’association manifestement fausses ont de cette façon été identifiées.

3.2.2.4 Recherche « manuelle »

Au final 2086 accidents ont été associés, il reste donc 293 accidents non associés. Nous avons essayé d’élargir la recherche en utilisant d’autres champs mais les résultats n’ont pas été convaincant notamment car la majorité des accidents concernés ont un grand nombre de champs vides. Il a donc été choisi à ce stade de rechercher manuellement les accidents restant. Pour cela la fonction « filtrer » d’Excel ainsi que le comparateur ont été utilisé et nous sommes parvenu à associer des accidents ayant des erreurs de date, d’heure, ou de municipalité en utilisant des tris sur des champs non utilisés dans la recherche VB (ex : la météo, l’état de surface,…). Cependant tous les accidents n’ont pas été identifiés. Par exemple certains accidents de la base MD comportent la mention « Pas accident de la route » (16 accidents), c’est-à-dire qu’après avoir saisi l’accident dans la base, le rapporteur a jugé qu’il ne s’agissait pas d’un accident routier. Par exemple un camion ayant eu une fuite à l’arrêt. Ces accidents étant introuvables dans la base globale, nous en avons déduit qu’ils ne figuraient pas dans la base de façon certaine. Une croix a donc été mise dans la colonne ID afin de bien indiquer qu’aucune association n’est possible.

Cette recherche manuelle à tout de même permis de trouver 194 accidents sur les 293 restants. 99 accidents de la base TMD (≈ 4%) n’ont pas été trouvés dans la base globale.

3.2.2.5 Conclusion

2280 accidents ont au final été identifiés, voici le bilan des associations trouvées :

Figure 3.9 : Bilan des associations

Ces résultats sont tout à fait satisfaisants. Voici pour finir un comparatif de l’efficacité des cinq étapes de la recherche d’association :

Figure 3.10 : Comparaison des résultats de chacune des étapes

2280 95,84% 83 3,49% 16 0,67% Accidents associés Rien trouvé

Pas accident de la route

0 500 1000 1500 2000 2500

D/H/Muni. D/H/Muni./ Code d'impact D/H/CRPQ D/H/Min Manuelle

N o m b re d 'ac ci d e n t TM D

On constate que l’étape 1 a été de loin la plus importante source d’associations pertinentes. Les recherches suivantes ont donné des résultats plus mitigés avec pour les étapes 3 et 4 beaucoup d’échecs dans la recherche, et des valeurs qui ont nécessité des corrections manuelles.

Un champ « matières dangereuses » de type Oui/Non a ainsi pu être ajouté à la base globale, permettant d’indiquer si l’accident se trouve également dans la base TMD, et dans celle-ci un nouveau champ indique l’ID de l’accident dans la base globale.