• Aucun résultat trouvé

Mthodologie de conception des familles de produits

4.5 Mthodologie de conception de familles de produits

4.6.1 Principes gnraux

Au cours des dernires dizaines annes avec l'augmentation de l'utilisation d'outils numriques, on observe une grande augmentation du nombre et du volume des bases de donnes. Le but est de conserver un maximum d'informations sur les activits passes et actuelles an de les rutiliser (activits, produits) et/ou dans un but de gestion de la qualit. De nos jours, les industriels sont submergs par une immense quantit de donnes.

Paralllement l'augmentation de la quantit de donnes, celles-ci sont devenues de plus en plus spciques et prcises. Il est alors de plus en plus di cile pour les managers, ingnieurs, commerciaux, ... de dominer tout le contenu de leurs donnes, de les comprendre pour en tirer des dcisions.

Le Data Mining est dni comme tant l'exploration et l'analyse de grandes quantits de donnes an de dcouvrir des formes, des informations et des rgles signicatives, non triviales, implicites, auparavant inconnues, potentiellement utiles et compr-hensibles en utilisant des moyens automatiques ou semi-automatiques (B5chner et al.12]).

Les hypothses du Data Mining sont que les donnes contiennent des informations, et que ces informations peuvent tre utiles l'entreprise.

Pour cela, le Data Mining permet de:

1. produire des modles partir de ces donnes (an de prdire l'avenir, classier, estimer),

2. dcrire les donnes en fournissant des modles et des relations qui permettent de comprendre des donnes larges et complexes.

Le Data Mining se base sur un existant pour en dduire des prvisions, exprimer des lois. Dans le contexte de forte diversit et de grande quantit de production, l'intrt sera d'utiliser les connaissances contenues dans les conceptions passes pour viter les sources de diversit coteuse et non ncessaire.

4.6.1.1 Processus d'utilisation du

Data Mining

Le processus gnral d'utilisation du Data Mining est reprsent sur la gure 4.11 tire de Fayyad et al. 33].

Comme le montre cette gure, le processus est compos de cinq tapes:

1. Slection des donnes en pointant sur un sous ensemble de l'ensemble des don-nes disponibles et senses contenir des connaissances extraire,

2. Preprocessing: nettoyer les donnes, ltrer le bruit, chantillonner, complter les manques dans les donnes,

3. Transformation des donnes pour quelles soient adaptes l'algorithme utilis (entiers, rels, intervalles, ...),

4.6. CONTRIBUTION DU DATA MINING LA DMARCHE 87 Data Knowledge Selection Preprocessing Transformation Mining Evaluation

Target data Processed

data

Transformed data

Patterns

Fig. 4.11 " Processus gnral d'utilisation du Data Mining.

4. Recherche dans les donnes, choix des algorithmes et des paramtres d'utilisa-tion de ceux-ci,

5. Evaluation des modles, interprtation des rsultats, ceci peut (trs souvent) remettre en cause les tapes prcdentes, pour a ner, contredire, corriger. Lorsque le modle convient, valuer la nouvelle connaissance.

4.6.1.2 Tches du

Data Mining

Westphal et Blaxton dans 101] dcrivent les tches du Data Mining. Pour faciliter la comprhension nous considrerons que la base de donnes traiter se compose d'une table dans laquelle les colonnes sont les champs et les lignes correspondent aux dirents enregistrements.

Mod les prdictifs:

Les modles prdictifs ont pour r(le de prdire une sortie

en fonction des entres qui sont fournies. Dans un tableau, une colonne est considre comme la rponse, les algorithmes doivent trouver un modle qui donne la rponse en fonction des autres champs.

Il s'agit d'un apprentissage supervis dans ce sens o& l'on impose le but atteindre (prdire un champ particulier). Si la rponse souhaite est continue, les modles de rgression, rseaux de neurones, arbres de dcision ou rgles de dcision seront utiliss. Si la rponse souhaite est discrte, il faudra se retourner vers les modles de classication ou de dcision.

La classi cation

: il s'agit d'un modle prdictif discret qui consiste pla-cer un attribut sur des enregistrements. Les attributs proviennent de petits ensembles prdnis (bon/mauvais ou rouge/blanc/ros). Le travail des algo-rithmes est de construire un modle qui classiera correctement les enregistre-ments avec le bon attribut.

L'estimation

est un modle prdictif continu, la tche consiste remplir une valeur manquante dans un champ particulier en fonction des autres champs de l'enregistrement. Les techniques usuelles de rgression sont les plus utilises pour l'estimation. L'estimation est aussi une application des rseaux neuro-naux.

88 CHAPITRE 4. MTHODOLOGIE DECONCEPTION.

Segmentation:

Il s'agit d'une mthode d'apprentissage non-supervise qui consiste partager une population en sous-populations partageant des caractristiques communes. On l'appelle aussi Clustering. Les mthodes tentent d'obtenir un maximum d'homognisation dans chaque groupe et un maximum d'htrog-nit entre les groupes. Direntes mesures sont utilises, pour plus de dtails Fayyad et al. 33] fournissent des explications sur les direntes mesures:

" Distances euclidiennes (k-mdian, hirarchique), " Reconnaissances de modles,

" Rseaux de neurones.

Description :

La description a pour but de donner une ide claire de ce qui se passe dans les donnes. Des techniques de visualisation sont utilises pour simplier la comprhension.

Pour cela, des mthodes consistent extraire les modles frquents, c'est--dire extraire toutes les combinaisons de variables dans les donnes qui ont un certain niveau de rgularit, comme par exemple une association A implique B avec deux mesures la con ance et le support.

" La conance mesure la fraction de fois o&

B

existe quand

A

est prsent.

confiance

=

p

(

B

j

A

)=

p

(

A

\

B

)

p

(

A

)

" Le support mesure la fraction de fois que

A

existe dans le nombre total de donnes.

support

=

p

(

A

)

Si une association existe avec un haut support et une grande conance, cette association est dite forte. Les associations fortes sont fournies l'utilisateur, qui devra les analyser pour en tirer des connaissances sur les donnes. On parle parfois des associations sous les appellations regroupement par similitudes ou analyse de panier.

D'autres tches:

consistent par exemple en la dtection d'une dviation dans les donnes. Pour cela, une valuation statistique d'une norme ou d'un comporte-ment est eectue partir d'un ensemble de donnes et les objets qui dvient de la norme sont extraits.

Pour plus de dtails sur les algorithmes utiliss le lecteur pourra consulter l'ouvrage de Fayyad et al. 33] qui fournit des explications trs compltes.

Lorsque le volume de donnes devient trop important pour tre trait par les algo-rithmes de Data Mining actuels dans un temps raisonnable, Kusiak 60] propose deux formes de dcompositions: soit en partitionnant selon les enregistrements (lignes) de la base de donne (Object set decomposition) soit en partitionnant selon les champs (colonnes) de la base de donnes (Feature set decomposition ).

4.6. CONTRIBUTION DU DATA MINING LA DMARCHE 89