• Aucun résultat trouvé

Les classifieurs retenus dans cette thèse pour avoir fait leur preuve dans le domaine de l’ingénierie mécanique sont les réseaux de neurones, les arbres de décision et les ma- chines à vecteur de support. Seuls ces classifieurs seront détaillés par la suite.

4.4.1 Réseaux de neurones

Principe

Les réseaux de neurones [18] (figure 4.3 (b)) sont constitués de plusieurs couches de neu- rones formels.

Un neurone formel (figure 4.5) réalise une fonction de transfert g (x, w ) entre un vecteur

x de n variables d’entrée xi et une variable de sortie y. Un vecteur w de n poids wi est

associé à chaque neurone d’entrée i .

Cette fonction g (x, w ) paramétrée peut être une fonction linéaire, une fonction à seuil ou une fonction sigmoïde ([18]).

Paramètres de configuration

L’architecture générale d’un réseau de neurones est définie par :

— le nombre de couches cachées de neurones (généralement une ou deux) ; — le nombre de neurones par couche ;

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

FIGURE4.5 – Schéma d’un neurone à n entrées x et une sortie y.

Lors de l’apprentissage, les paramètres à définir sont : — les poids wides neurones ;

— le nombre d’itérations avant arrêt de l’apprentissage.

Les poids wi des neurones sont définis afin que la valeur prédite g (x(k), w ) soit la plus

proche de la valeur réelle y(k), c’est à dire pour que la fonction coût J(w ) (équation 4.1) soit minimale. x(k)désigne le vecteur des variables d’entrée pour l’instance (ou exemple)

k et N le nombre d’instances de la base d’apprentissage.

J(w ) =1 2 N X k=1 h y(k)− g (x(k), w )i2 (4.1)

Pour cela, la méthode la plus utilisée est l’algorithme de rétro-propagation (back propa-

gation) du gradient de la fonction coût qui modifie les poids de manière itérative en sens

inverse de la propagation de l’information, c’est à dire de la dernière couche à la première. La rétro-propagation s’arrête lorsque le minimum de la fonction coût est atteint ou lors- qu’un critère arrêt est satisfait [18].

Intérêt et limites

Les réseaux de neurones peuvent être utilisés en association avec d’autres techniques d’intelligence artificielle (systèmes experts, arbres de décision, algorithmes génétiques ou logique floue).

La multitude de choix d’architectures, de paramètres réglables et de méthodes utilisables facilite les chances d’obtenir un algorithme dont la fonction coût est minimale. Cepen- dant, cela rend sa construction difficile et son intégration dans un système d’aide à la décision délicate.

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

4.4.2 Machines à vecteur de support

Principe

Les machines à vecteur de support (support vector machine), ou séparateurs à vastes marges (SVM) sont basés sur le principe de séparation des instances par un hyperplan [50].

On appelle marge la distance entre l’hyperplan (figure 4.6) et les instances les plus proches (vecteurs de support).

Lorsque l’ensemble des instances est linéairement séparable, on recherche, parmi l’infi- nité d’hyperplans valides, à l’aide de la méthode de multiplicateurs de Lagrange, l’hyper- plan optimal d’équation w x + w0 pour lequel la marge est maximale. C’est à dire pour

lequel 1

w est minimal.

FIGURE4.6 – Exemple d’un problème de classification à deux classes y = 1 ou y = −1 avec hyper-

plan optimal de séparation d’équation h(x) = w x + w0

Dans le cas où l’ensemble des instances n’est pas linéairement séparable, les données sont transformées à l’aide d’une fonction nommée noyau (figure 4.7). Un noyau peut être une fonction polynomiale, gaussienne ou sigmoïde.

Paramètres de configuration

Les paramètres à définir lors de la construction du modèle d’apprentissage SVM sont : — la fonction noyau k (polynomial ou gaussien),

— le paramètre de tolérance (compromis biais-variance). Plus ce paramètre est grand, plus la marge est grande et la sensibilité aux bruits est faible .

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

FIGURE4.7 – Exemple de séparation non linéaire. (a) séparation non linéaire. (b) exemple de li-

néarisation par fonction noyau polynomiale.

Intérêt et limites

Le principal intérêt des SVM du point de vue de l’utilisateur est le faible nombre de para- mètres à choisir lors de la construction du modèle ainsi que sa robustesse.

Néanmoins, les espaces des instances ne sont pas visibles. Ce qui a été appris est donc difficile à interpréter. Un système SVM est perçu comme une boite noire dans laquelle il est difficile d’intégrer des connaissances a priori.

4.4.3 Arbres de décision

Principe

Un arbre de décision est constitué de nœuds (branches) réalisant des tests sur les va- riables explicatives xi et de nœuds terminaux (feuilles) indiquant les valeurs d’une ou

plusieurs variables de sortie yi (figure 4.3 (a)).

Les arbres de décisions utilisés en IA sont de type CART (Classification and Regression

Tree) issus des travaux de Breiman et al. [10] et les arbres C4.5 issus des travaux de Quinlan

[44] .

Un arbre de décision est généralement binaire (deux divisions par nœud). La construction d’un arbre consiste tout d’abord à sélectionner à chaque étape le meilleur nœud, puis à définir une condition d’arrêt sur les nœuds terminaux et enfin à affecter une classe ou une valeur à ce nœud terminal.

Les nœuds sont sélectionnés à chaque étape afin que les instances soient divisées de la façon la plus homogène possible. Les critères de sélection des nœuds sont définis à partir d’une mesure d’entropie [44] en minimisant le degré d’hétérogénéité pour les arbres C4.5 ou de l’indice de Gini [10] pour les arbres CART.

Un arbre de grande dimension permettra de classer toutes les instances de la base d’ap- prentissage mais ne les généralisera pas correctement (on parle alors de surapprentissage

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

ou d’over-fitting). Un arbre de décision doit être alors construit pour que les instances soient correctement classées et pour que les règles obtenues soient généralisables. Il faut alors arrêter l’arbre au bon moment ou l’élaguer (pruning).

Paramètres de configuration

Les logiciels offrent des possibilités de construction des arbre de décision à l’aide d’un outil de type "boite noire" qui modélise automatiquement les algorithmes avec peu de paramètres. Seuls le nombre de divisions maximales (de 1 à 5) pour éviter d’avoir un arbre trop long et des paramètres d’élagage sont à renseigner.

Intérêt et limites

Le modèle obtenu est un graphique rapide à exécuter et simple à interpréter. Il permet de formaliser un ensemble de règles. Un grand nombre de variables explicatives peuvent être données en entrée. La sélection des variables déterminantes est intégrée à l’algorithme. Le traitement des variables est facultatif.

Une complexe opération d’élagage est indispensable pour éviter le risque d’over fitting si l’arbre est de grande dimension. Une reconstruction de l’arbre est nécessaire après chaque modification des variables d’entrée. L’arbre peut être profondément modifié par des changements mineurs de variables.

CHAPITRE 4. TECHNIQUES D’INTELLIGENCE ARTIFICIELLE

4.5 Méthodologie de conception d’un modèle d’apprentis-