• Aucun résultat trouvé

Apprentissage artificiel: Arbre de décisions

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage artificiel: Arbre de décisions"

Copied!
19
0
0

Texte intégral

(1)

Apprentissage artificiel: Arbre de décisions

M. Serrurier IRIT, Toulouse, France

December 8,2015

(2)

Arbres de décision

// Exemples

I Les arbres de décision sont des classifieurs pour des instances représentées dans un formalisme attribut/valeur

I

les noeuds de l'arbre testent les attributs

I

Il y a une branche pour chaque valeur de l'attribut testé

I

Les feuilles spécifient les classes (deux ou plus)

exemple

(3)

Arbres de décision

// Exemple

(4)

Arbres de décision

// Exemples

I SI Prévisions= Soleil et Humidité = Forte ALORS Sport=

I SI Prévisions= Couvert ALORS Sport=

I ….

(5)

Arbres de décision

// Exercice

I Transformer cet arbre en un ensemble de règles

I Simplifier l'ensemble de règles

I Peut-on retransformer cet ensemble de règles en un arbre ?

(6)

Arbre de décision

I Méthode de classification et de prédiction

I Les attributs apparaissant dans l’arbre sont les attributs pertinents pour le problème considéré

I Un arbre est équivalent à un ensemble de règles de décision

(7)

Construction d’Arbres de décision

// Algorithme Top-down

I construireNoeud(E)

I

Si tous les exemples de E sont dans la même classe C

i I

affecter l'étiquette C

i

au noeud courant

I

Sinon sélectionner un attribut A avec les valeurs v

1

. . . v

n

Partitionner E selon v

1

. . . v

n

en E

1

, . . . , E

n

I

Pour chacune des branches n construireNoeud(E

j

).

(8)

Choix du meilleur attribut ?

(9)

Entropie

I S est un ensemble d’exemples

I p + proportion d’ex. positifs dans S

I p proportion d’ex. négatifs dans S

I L’entropie mesure l’impureté de S

I Ent(S) = −p + log 2 p + − p log 2 p

I Ent(S) = Nombre de bits nécessaire pour coder la classe(+

ou -) d’un élément tiré au hasard

(10)

Arbre de décision

// Gain

I Gain(S, A) = réduction d’entropie due au test de l’attribut A Gain(S, A) = Ent(s) − X

v∈Valeurs(A)

|S v |

|S| Ent(S v )

I Si on travaille avec plus de 2 classes, la formule d'entropie peut être généralisée

Ent(s) = − X

s

f s log |s| f s

I où fs est la proportion de la classe s Implémentations

I C4.5, ID3 (basé sur l'entropie)

I CART (basé sur le Gini index)

(11)

Gain // Exemple

I Gain(S, Hum.) = 0.940 − 7/14 ∗ 0.985 − 7/14 ∗ 0.592 = 0.151

I Gain(S, Vent) = 0.940 − 8/14 ∗ 0.811 − 6/14 ∗ 1. = 0.048

(12)

Entropie et gain

// Exercice

Soit S = {8 + ; 8 } un ensemble d'exemples Calculer :

I L'entropie de S

I Soit A l'attribut binaire qui sépare les en A 1 {8 + , 0 } et A 2 {0 + , 8 }. Calculer l'entropie de A 1 et de A 2 . Calculer le gain.

I Soit B l'attribut binaire qui sépare les en B 1 {3 + , 3 } et

B 2 {5 + , 5 } . Calculer l'entropie de B 1 et de B 2 Calculer le

gain.

(13)

Arbre de décision

// spam

Exercice

Sachant que le premier attribut sélectionné est type, continuer

la construction de l'arbre de décision correspondant à cette base

(14)

Arbre de décision

// Coups de soleil

Exercice

Construire l'arbre de décision correspondant à cette base

(15)

Arbre de décision

// Limites

I Attributs à valeur continue

I Attributs à facteurs de branchement différents

I Valeurs manquantes

I Sur-apprentissage

I Recherche gloutonne

I Variance des résultats :

I

arbres différents à partir de données peu différentes

(16)

Attributs à valeurs continues

I Créer dynamiquement un attribut binaire à partir des valeurs observées, dans le nœud considéré, pour un attribut A continu

I On trie les valeurs observées pour A

I On cherche une seuil

I

s(A < s ou A > s) ?

I

qui donne le meilleur gain d'information

(17)

Attributs à valeurs continues

// Illustation

(18)

Surajustement de l’arbre de décision

I Surajustement= arbre trop "proche" des données

I Arbre peu performant pour la prédiction Le bruit dans les exemples peut conduire à un surajustement de l ’arbre

I

E15= (Soleil,Chaude,Normale, Fort, NON)

I

Conséquences pour l'arbre construit ?

I Elagage de l'arbre

(19)

Surajustement de l’arbre de décision

// Solution

I Comment éviter le surajustement ?

I

Arrêter de construire l ’arbre quand la séparation des exemples n’est plus significative

I

Construire l ’arbre complet puis l’élaguer

I

Transformer l ’arbre en ensemble de règles et simplifier les

règles

Références

Documents relatifs

Trois petits rats fouineurs pointent leur museau.. Quatre lapins farceurs jouent

FETE DES MERES fête des mères. fête des mères

C’est plus tard que les chimistes comprendront que les atomes de soufre font des liaisons C-S-S-C entre les chaines -(CH 2 -C(CH 3 ) =CH-CH 2 ) n - et donnent au latex une

cette ( cavagne » représentait pour elle, les paniers de terre qu'elle avait portés sur ses épaules de jeune fille lorsqu'il fallait autrefois, au printemps,

- le niveau du test passé (français entrée en CE1) - le score obtenu par l’élève (sur 20 points) - le niveau souhaité pour cet élève (CP ou CE1) - et si possible, le scan

S’il faut fabriquer une série de pièces identiques, il est impossible à une même forme d’avoir toujours exactement les mêmes dimensions (ou cotes) d’une pièce à l’autre..

Compléter l'œuvre en ajoutant des morceaux de coton hydrophile, des chutes de papier de soie blanche ou calque pour faire la neige sur les branches ou au sol ou éventuellement de

Créer de la peinture dans les couleurs secondaires : orange, vert, jaune d'or, rouge, pourpre, à partir de la gouache dans les couleurs primaires : jaune, magenta et cyan puis