7.1 Présentation du contexte de notre étude
7.1.3 Nettoyage des données disponibles
Les données doivent être nettoyées pour assurer la pertinence de notre étude. Il s’agit
notamment d’identifier les données aberrantes et de tenir compte des données
incomplètes. Dans cette sous-partie, nous allons expliciter ces problématiques et présenter
les réponses proposées.
Données aberrantes au niveau des kilométrages véhicule
Les premières études de fiabilité ont dévoilé des durées de vie aberrantes pour certains
142
l’ensemble des durées de vie rencontrées. Elles rendent également les modèles statistiques
sous-jacents peu fiables.
L’histogramme présenté à la figure 7.2, illustre les durées de vie en kilomètres obtenues
pour un composant donné. La majorité de ces données est comprise entre 0 et 1 million de
kilomètres. Néanmoins, une durée de vie est enregistrée à plus de 5 millions de kilomètres.
Compte tenu de la fenêtre de temps sur laquelle cette étude est réalisée, ce kilométrage ne
peut décemment pas être observé pour un véhicule. Cette donnée est jugée aberrante et
doit être supprimée de notre étude. Précisons que les kilométrages sont saisis
manuellement par un opérateur lors de l’entrée du véhicule à l’atelier. L’apparition de ces
données aberrantes trouve son origine par des erreurs de saisie lors de cette étape
manuelle.
Figure 7.2: Illustration des valeurs aberrantes rencontrées sur les données disponibles
Pour identifier automatiquement ces données aberrantes et ainsi pouvoir les supprimer,
nous proposons d’utiliser une méthode simple et largement utilisée: le filtre de Tukey
(Tukey, 1977). Cette méthode considère une donnée Ω comme aberrante si:
Ω < (𝑞
1− 1.5 × (𝑞
3− 𝑞
1)) ou Ω > (𝑞
3+ 1.5 × (𝑞
3− 𝑞
1)) (7.1)
avec 𝑞
1et 𝑞
3respectivement les premier et troisième quartiles calculés à partir de
l’ensemble des données de durées de vie disponibles pour un composant.
Prise en compte des données incomplètes
Rappelons que notre objectif est d’utiliser les données disponibles pour estimer la fonction
de fiabilité (ou de défiabilité) associée aux différents composants du système retenu. La
démarche classique pour estimer cette fonction est de relever la durée de bon
0 1 2 3 4 5 6 x 106 0 50 100 150 200 Durées de vie [km] N o m b re d e r e m p la ce m e n ts
Valeur aberrante
143
fonctionnement de chaque composant sur l’ensemble des véhicules de notre échantillon (cf.
figure 7.3 observation 1). Pour un certain nombre de composants, les durées de bon
fonctionnement, exprimées en kilomètres, sont inconnues. Ceci implique que les données de
survie que l’on collecte sont généralement incomplètes. Dans le contexte de notre étude,
ces données incomplètes peuvent être divisées en deux types.
Tout d’abord, ces données incomplètes peuvent être associées à des véhicules qui
effectuent leurs maintenances hors du réseau Volvo. Dans ce cas, le composant aurait pu
être remplacé dans un atelier non Volvo mais il est actuellement impossible d’accéder à
cette information (cf. figure 7.3 observation 3). Ce type de données incomplètes ne doit pas
être considéré pour la construction des modèles de fiabilité. L’objectif est ainsi de les
identifier et de les supprimer de notre étude pour ne pas fausser les résultats.
Figure 7.3: Illustration des données complètes et incomplètes
A l’inverse, un autre type de données incomplètes fait référence à des données dites
censurées. Cela signifie que le composant suivi n’est pas tombé en panne à la fin de l’étude.
Il est donc impossible de connaitre sa durée de vie exacte mais celle-ci reste supérieure au
kilométrage parcouru entre sa mise en circulation et la fin de l’expérience (cf. figure 7.3
observation 2). Ces données censurées apportent donc de l’information qui doit être prise
en compte pour estimer la fonction de fiabilité. Notons que plusieurs types de censures
existent et qu’ils correspondent chacun à une situation bien particulière. Les différents
mécanismes de censure sont expliqués dans de nombreux ouvrages notamment (Meeker &
Escobar, 1998) (Rausand & Høyland, 2004). Dans le contexte de notre étude, les composants
sont mis en exploitation à des dates différentes comprises entre 2007 et 2008. L’analyse
menée jusqu’à une date prédéterminée, se termine avant que tous les composants ne soient
défaillants. On parle dans ce cas de censures multiples à droite (Berthon, 2008).
01/2007 12/2008 12/2013
Fin de l’étude
?
Défaillance
Censure
?
Observations de
durée de vie
1
2
3
.
.
.
.
.
Maintenance
hors du
réseau Volvo
144
Rappelons que la durée de vie d’un composant est exprimée dans notre cas d’application en
kilomètres. Ainsi, à la date de censure, il est nécessaire d’estimer le kilométrage du véhicule
pour déterminer cette durée de vie censurée. Pour ce faire, une régression linéaire robuste
est utilisée à partir des kilométrages répertoriés du véhicule. Notons, que le nombre annuel
de kilomètres parcourus par un véhicule évolue tout au long de sa vie. Les études réalisées
sur ce sujet témoignent qu’un changement est souvent opéré à partir de la deuxième année
de roulage. En s’appuyant sur cette remarque, la régression est effectuée sur les
kilométrages du véhicule à partir de la deuxième année. L’évolution linéaire du kilométrage
n’est pas vérifiée pour l’ensemble des véhicules néanmoins cette hypothèse est pertinente
pour la gamme de véhicule utilisée dans notre étude. L’avantage de cette régression,
réalisée à l’aide de la fonction « robustfit » de Matlab, réside dans sa capacité à résister aux
données aberrantes. Cela signifie qu’elle est capable de les identifier et de ne pas en tenir
compte dans la régression (cf. figure 7.4).
Figure 7.4: Régression linéaire robuste appliquée à un véhicule donné
Par la suite, pour estimer la fonction de fiabilité, l’enjeu est de définir si les données
incomplètes proviennent de composants qui ont été remplacés hors du réseau Volvo ou de
composants dont la durée de vie est censurée. Pour réaliser cette distinction, la notion de
fidélité des véhicules va être introduite. L’hypothèse est de considérer qu’un véhicule captif
revient systématiquement dans un atelier Volvo pour réaliser sa maintenance. Ainsi, pour les
véhicules captifs, les données incomplètes sont considérées comme censurées à droite. A
l’inverse, nous supposons que les véhicules dont la fidélité n’est pas démontrée peuvent
aller faire leur maintenance chez un concurrent. Dans ce contexte, les données incomplètes
associées à ces véhicules ne sont pas prises en compte dans l’estimation de la fiabilité. Dans
cette étude, un véhicule est considéré comme captif si le pourcentage de temps passé sous
contrat depuis sa mise en circulation jusqu’à la fin de l’étude est supérieur à 80%. Ce seuil de
4000 600 800 1000 1200 1400 1600 1800 0.5 1 1.5 2 2.5 3x 10 6
Age du véhicule [jour]
K ilo m é tr a g e d u vé h icu le [ km ]