Nettoyage des données disponibles

7.1 Présentation du contexte de notre étude

0 1 2 3 4 5 6 x 10⁶ 0 50 100 150 200 Durées de vie [km] N o m b re d e r e m p la ce m e n ts

400⁰ 600 800 1000 1200 1400 1600 1800 0.5 1 1.5 2 2.5 3^{x 10} 6

Age du véhicule [jour]

K ilo m é tr a g e d u vé h icu le [ km ]

7.1 Présentation du contexte de notre étude

7.1.3 Nettoyage des données disponibles

Les données doivent être nettoyées pour assurer la pertinence de notre étude. Il s’agit

notamment d’identifier les données aberrantes et de tenir compte des données

incomplètes. Dans cette sous-partie, nous allons expliciter ces problématiques et présenter

les réponses proposées.

Données aberrantes au niveau des kilométrages véhicule

Les premières études de fiabilité ont dévoilé des durées de vie aberrantes pour certains

142

l’ensemble des durées de vie rencontrées. Elles rendent également les modèles statistiques

sous-jacents peu fiables.

L’histogramme présenté à la figure 7.2, illustre les durées de vie en kilomètres obtenues

pour un composant donné. La majorité de ces données est comprise entre 0 et 1 million de

kilomètres. Néanmoins, une durée de vie est enregistrée à plus de 5 millions de kilomètres.

Compte tenu de la fenêtre de temps sur laquelle cette étude est réalisée, ce kilométrage ne

peut décemment pas être observé pour un véhicule. Cette donnée est jugée aberrante et

doit être supprimée de notre étude. Précisons que les kilométrages sont saisis

manuellement par un opérateur lors de l’entrée du véhicule à l’atelier. L’apparition de ces

données aberrantes trouve son origine par des erreurs de saisie lors de cette étape

manuelle.

Figure 7.2: Illustration des valeurs aberrantes rencontrées sur les données disponibles

Pour identifier automatiquement ces données aberrantes et ainsi pouvoir les supprimer,

nous proposons d’utiliser une méthode simple et largement utilisée: le filtre de Tukey

(Tukey, 1977). Cette méthode considère une donnée Ω comme aberrante si:

Ω < (𝑞

− 1.5 × (𝑞

− 𝑞

)) ou Ω > (𝑞

+ 1.5 × (𝑞

− 𝑞

)) (7.1)

avec 𝑞

et 𝑞

respectivement les premier et troisième quartiles calculés à partir de

l’ensemble des données de durées de vie disponibles pour un composant.

Prise en compte des données incomplètes

Rappelons que notre objectif est d’utiliser les données disponibles pour estimer la fonction

de fiabilité (ou de défiabilité) associée aux différents composants du système retenu. La

démarche classique pour estimer cette fonction est de relever la durée de bon

Valeur aberrante

143

fonctionnement de chaque composant sur l’ensemble des véhicules de notre échantillon (cf.

figure 7.3 observation 1). Pour un certain nombre de composants, les durées de bon

fonctionnement, exprimées en kilomètres, sont inconnues. Ceci implique que les données de

survie que l’on collecte sont généralement incomplètes. Dans le contexte de notre étude,

ces données incomplètes peuvent être divisées en deux types.

Tout d’abord, ces données incomplètes peuvent être associées à des véhicules qui

effectuent leurs maintenances hors du réseau Volvo. Dans ce cas, le composant aurait pu

être remplacé dans un atelier non Volvo mais il est actuellement impossible d’accéder à

cette information (cf. figure 7.3 observation 3). Ce type de données incomplètes ne doit pas

être considéré pour la construction des modèles de fiabilité. L’objectif est ainsi de les

identifier et de les supprimer de notre étude pour ne pas fausser les résultats.

Figure 7.3: Illustration des données complètes et incomplètes

A l’inverse, un autre type de données incomplètes fait référence à des données dites

censurées. Cela signifie que le composant suivi n’est pas tombé en panne à la fin de l’étude.

Il est donc impossible de connaitre sa durée de vie exacte mais celle-ci reste supérieure au

kilométrage parcouru entre sa mise en circulation et la fin de l’expérience (cf. figure 7.3

observation 2). Ces données censurées apportent donc de l’information qui doit être prise

en compte pour estimer la fonction de fiabilité. Notons que plusieurs types de censures

existent et qu’ils correspondent chacun à une situation bien particulière. Les différents

mécanismes de censure sont expliqués dans de nombreux ouvrages notamment (Meeker &

Escobar, 1998) (Rausand & Høyland, 2004). Dans le contexte de notre étude, les composants

sont mis en exploitation à des dates différentes comprises entre 2007 et 2008. L’analyse

menée jusqu’à une date prédéterminée, se termine avant que tous les composants ne soient

défaillants. On parle dans ce cas de censures multiples à droite (Berthon, 2008).

01/2007 12/2008 12/2013

Fin de l’étude

?

Défaillance

Censure

?

Observations de

durée de vie

1

2

3

.

.

.