• Aucun résultat trouvé

Théorie de l’information et mesures d’entropie

N/A
N/A
Protected

Academic year: 2022

Partager "Théorie de l’information et mesures d’entropie"

Copied!
52
0
0

Texte intégral

(1)

Théorie de l’information et mesures d’entropie

Damien Nouvel

(2)

Quantification de données

Plan

1. Quantification de données

2. Calculs d’entropie 3. Arbres de décision

Damien Nouvel (Inalco) Entropie 2 / 16

(3)

Quantification de données

Mesures sur des corpus

§ Taille pour stocker un corpus

‚ Nombre de fichiers (80jours : 1)

‚ Nombre de documents (80jours : 1)

‚ Nombre de mots (80jours : 85K)

‚ Espace disque requis (80jours : 776Ko) ñ Quelles mesures pour l’ « information » ?

§ Information contenue dans un corpus

‚ Compression de fichier (80jours : zip 192 Ko, bz2 117 Ko...)

‚ Nombre de mots distincts (80jours : 9412)

‚ ... ?

ñ Nombreuses mesurespour quantifier un corpus

§ Lien entre taille et information

‚ Comment stocker un document de manière optimale ?

‚ Combien de temps pourlire et comprendre un texte ? ñ Compromis entre stockageetaccessibilité

(4)

Quantification de données

Mesures sur des corpus

§ Taille pour stocker un corpus

‚ Nombre de fichiers (80jours : 1)

‚ Nombre de documents (80jours : 1)

‚ Nombre de mots (80jours : 85K)

‚ Espace disque requis (80jours : 776Ko) ñ Quelles mesures pour l’ « information » ?

§ Information contenue dans un corpus

‚ Compression de fichier (80jours : zip 192 Ko, bz2 117 Ko...)

‚ Nombre de mots distincts (80jours : 9412)

‚ ... ?

ñ Nombreuses mesurespour quantifier un corpus

§ Lien entre taille et information

‚ Comment stocker un document de manière optimale ?

‚ Combien de temps pourlire et comprendre un texte ? ñ Compromis entre stockageetaccessibilité

Damien Nouvel (Inalco) Entropie 3 / 16

(5)

Quantification de données

Mesures sur des corpus

§ Taille pour stocker un corpus

‚ Nombre de fichiers (80jours : 1)

‚ Nombre de documents (80jours : 1)

‚ Nombre de mots (80jours : 85K)

‚ Espace disque requis (80jours : 776Ko) ñ Quelles mesures pour l’ « information » ?

§ Information contenue dans un corpus

‚ Compression de fichier (80jours : zip 192 Ko, bz2 117 Ko...)

‚ Nombre de mots distincts (80jours : 9412)

‚ ... ?

ñ Nombreuses mesurespour quantifier un corpus

§ Lien entre taille et information

‚ Comment stocker un document de manière optimale ?

‚ Combien de temps pourlire et comprendre un texte ? ñ Compromis entre stockageetaccessibilité

(6)

Quantification de données

Mesures sur des corpus

§ Taille pour stocker un corpus

‚ Nombre de fichiers (80jours : 1)

‚ Nombre de documents (80jours : 1)

‚ Nombre de mots (80jours : 85K)

‚ Espace disque requis (80jours : 776Ko) ñ Quelles mesures pour l’ « information » ?

§ Information contenue dans un corpus

‚ Compression de fichier (80jours : zip 192 Ko, bz2 117 Ko...)

‚ Nombre de mots distincts (80jours : 9412)

‚ ... ?

ñ Nombreuses mesurespour quantifier un corpus

§ Lien entre taille et information

‚ Comment stocker un document de manière optimale ?

‚ Combien de temps pourlire et comprendre un texte ? ñ Compromis entre stockageetaccessibilité

Damien Nouvel (Inalco) Entropie 3 / 16

(7)

Calculs d’entropie

Plan

1. Quantification de données 2. Calculs d’entropie

3. Arbres de décision

(8)

Calculs d’entropie

Théorie de l’information de Shannon

§ Claude Shannon : entropie, th. de l’information (1948)

Damien Nouvel (Inalco) Entropie 5 / 16

(9)

Calculs d’entropie

Entropie de Shannon

§ Mesure thermodynamique adaptée aux télécoms

§ Répandue en sciences (néguentropie)

§ Définition

‚ Formule : H(X) =´ ř

xPX

P(X=x)˚log2(P(X=x))

§ Propriétés

Positive :H(X)ě0

‚ Entropiejointe :H(X,Y)ďH(X) +H(Y)

‚ Entropieconditionnelle :H(X,Y) =H(X) +H(Y|X)

§ Comportement

Augmenteavec lenombre d’évènements équiprobables

Deux évènements (P(X=i) = 0.5) :H(X) = 1

Quatre évènements (P(X=i) = 0.25) :H(X) = 2

Augmenteavec l’équilibredes probabilités

Déséquilibre (P(X= 1) = 0.1,P(X= 2) = 0.9) :H(X) = 0.47

Équilibrée (P(X= 1) = 0.4,P(X= 2) = 0.6) :H(X) = 0.97

(10)

Calculs d’entropie

Entropie de Shannon

§ Mesure thermodynamique adaptée aux télécoms

§ Répandue en sciences (néguentropie)

§ Définition

‚ Formule : H(X) =´ ř

xPX

P(X=x)˚log2(P(X=x))

§ Propriétés

Positive :H(X)ě0

‚ Entropiejointe :H(X,Y)ďH(X) +H(Y)

‚ Entropieconditionnelle :H(X,Y) =H(X) +H(Y|X)

§ Comportement

Augmenteavec lenombre d’évènements équiprobables

Deux évènements (P(X=i) = 0.5) :H(X) = 1

Quatre évènements (P(X=i) = 0.25) :H(X) = 2

Augmenteavec l’équilibredes probabilités

Déséquilibre (P(X= 1) = 0.1,P(X= 2) = 0.9) :H(X) = 0.47

Équilibrée (P(X= 1) = 0.4,P(X= 2) = 0.6) :H(X) = 0.97

Damien Nouvel (Inalco) Entropie 6 / 16

(11)

Calculs d’entropie

Entropie de Shannon

§ Mesure thermodynamique adaptée aux télécoms

§ Répandue en sciences (néguentropie)

§ Définition

‚ Formule : H(X) =´ ř

xPX

P(X=x)˚log2(P(X=x))

§ Propriétés

Positive:H(X)ě0

‚ Entropiejointe :H(X,Y)ďH(X) +H(Y)

‚ Entropieconditionnelle :H(X,Y) =H(X) +H(Y|X)

§ Comportement

Augmenteavec lenombre d’évènements équiprobables

Deux évènements (P(X=i) = 0.5) :H(X) = 1

Quatre évènements (P(X=i) = 0.25) :H(X) = 2

Augmenteavec l’équilibredes probabilités

Déséquilibre (P(X= 1) = 0.1,P(X= 2) = 0.9) :H(X) = 0.47

Équilibrée (P(X= 1) = 0.4,P(X= 2) = 0.6) :H(X) = 0.97

(12)

Calculs d’entropie

Entropie de Shannon

§ Mesure thermodynamique adaptée aux télécoms

§ Répandue en sciences (néguentropie)

§ Définition

‚ Formule : H(X) =´ ř

xPX

P(X=x)˚log2(P(X=x))

§ Propriétés

Positive:H(X)ě0

‚ Entropiejointe :H(X,Y)ďH(X) +H(Y)

‚ Entropieconditionnelle :H(X,Y) =H(X) +H(Y|X)

§ Comportement

Augmenteavec lenombre d’évènements équiprobables

Deux évènements (P(X=i) = 0.5) :H(X) = 1

Quatre évènements (P(X=i) = 0.25) :H(X) = 2

Augmenteavec l’équilibredes probabilités

Déséquilibre (P(X= 1) = 0.1,P(X= 2) = 0.9) :H(X) = 0.47

Équilibrée (P(X= 1) = 0.4,P(X= 2) = 0.6) :H(X) = 0.97

Damien Nouvel (Inalco) Entropie 6 / 16

(13)

Calculs d’entropie

Fonction d’entropie

0 0.2 0.4 0.6 0.8 1

0 0.2 0.4 0.6

x

-x*ln2(x)

(14)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(15)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

(16)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(17)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

(18)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(19)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

(20)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(21)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

(22)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ?

ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(23)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

(24)

Calculs d’entropie

Interprétation de l’entropie

ñ L’entropie comme mesure de...

‚ Incertitude...

‚ Indécidabilité ?!

‚ Désorganisation #§ !/

‚ Chaos :s

‚ Information ?

ñ difficile à interpéter...

§ Intérêt de l’entropie

‚ Mesure laquantité d’information

Un signal peu informatif estredondant

Un signal informatif est trèsdiversifiéetpeu prédictible ñ En télécommunications : bande passante est nécessaire ? ñ Relation entredonnées etmodèle statistique

§ Se mesure en nombre de bits(logarithme base 2)

Damien Nouvel (Inalco) Entropie 8 / 16

(25)

Calculs d’entropie

Calcul de l’entropie en python

ñ Utilisation de la fonction log de la librairie math

import math

probas = [0.2, 0.3, 0.5] entropie = 0

for proba in probas:

entropie -= proba*math.log(proba, 2) print('Entropie:', entropie)

ñ Utilisation de la fonction entropy de la librairie scipy.stats

from scipy import stats

print('Entropie:', stats.entropy([2, 3, 5], base=2))

(26)

Calculs d’entropie

Calcul de l’entropie en python

ñ Utilisation de la fonction log de la librairie math

import math

probas = [0.2, 0.3, 0.5]

entropie = 0

for proba in probas:

entropie -= proba*math.log(proba, 2) print('Entropie:', entropie)

ñ Utilisation de la fonction entropy de la librairie scipy.stats

from scipy import stats

print('Entropie:', stats.entropy([2, 3, 5], base=2))

Damien Nouvel (Inalco) Entropie 9 / 16

(27)

Calculs d’entropie

Calcul de l’entropie en python

ñ Utilisation de la fonction log de la librairie math

import math

probas = [0.2, 0.3, 0.5]

entropie = 0

for proba in probas:

entropie -= proba*math.log(proba, 2) print('Entropie:', entropie)

ñ Utilisation de la fonction entropy de la librairie scipy.stats

from scipy import stats

print('Entropie:', stats.entropy([2, 3, 5], base=2))

(28)

Calculs d’entropie

Information mutuelle

ñ Mesure de la corrélation entre deux variables

§ Formule I(X,Y) = ř

xPX,yPY

P(X=x,Y=y)˚log2

( P(X=x,Y=y) P(X=x)˚P(Y=y)

)

§ Propriétés

Positive :I(X,Y)ě0

‚ En cas d’indépendance :I(X,Y) = 0

‚ Lien / entropie : H(X,Y) =H(X) +H(Y) +I(X,Y)

‚ Lien / entropie conditionnelle :I(X,Y) =H(X)´H(X|Y)

Damien Nouvel (Inalco) Entropie 10 / 16

(29)

Calculs d’entropie

Information mutuelle

ñ Mesure de la corrélation entre deux variables

§ Formule I(X,Y) = ř

xPX,yPY

P(X=x,Y=y)˚log2

( P(X=x,Y=y) P(X=x)˚P(Y=y)

)

§ Propriétés

Positive :I(X,Y)ě0

‚ En cas d’indépendance :I(X,Y) = 0

‚ Lien / entropie : H(X,Y) =H(X) +H(Y) +I(X,Y)

‚ Lien / entropie conditionnelle :I(X,Y) =H(X)´H(X|Y)

(30)

Calculs d’entropie

Information mutuelle

ñ Mesure de la corrélation entre deux variables

§ Formule I(X,Y) = ř

xPX,yPY

P(X=x,Y=y)˚log2

( P(X=x,Y=y) P(X=x)˚P(Y=y)

)

§ Propriétés

Positive:I(X,Y)ě0

‚ En cas d’indépendance :I(X,Y) = 0

‚ Lien / entropie : H(X,Y) =H(X) +H(Y) +I(X,Y)

‚ Lien / entropie conditionnelle :I(X,Y) =H(X)´H(X|Y)

Damien Nouvel (Inalco) Entropie 10 / 16

(31)

Calculs d’entropie

Divergence de Kullback-Leibler

ñ Mesure la perte d’information par approximation d’une loi

§ Formule

DKL(P||Q) = ř

xPX

P(X=x)˚log2

(P(X=x) Q(X =x)

)

§ Propriétés

Positive :DKL(P,Q)ě0

‚ Les lois ne divergent pas si DKL(P||Q) = 0

‚ Comparaison sur lesmêmes données

ñ Aussi : gain d’information, entropie relative

(32)

Calculs d’entropie

Divergence de Kullback-Leibler

ñ Mesure la perte d’information par approximation d’une loi

§ Formule

DKL(P||Q) = ř

xPX

P(X=x)˚log2

(P(X=x) Q(X=x)

)

§ Propriétés

Positive :DKL(P,Q)ě0

‚ Les lois ne divergent pas si DKL(P||Q) = 0

‚ Comparaison sur lesmêmes données

ñ Aussi : gain d’information, entropie relative

Damien Nouvel (Inalco) Entropie 11 / 16

(33)

Calculs d’entropie

Divergence de Kullback-Leibler

ñ Mesure la perte d’information par approximation d’une loi

§ Formule

DKL(P||Q) = ř

xPX

P(X=x)˚log2

(P(X=x) Q(X=x)

)

§ Propriétés

Positive:DKL(P,Q)ě0

‚ Les lois ne divergent pas siDKL(P||Q) = 0

‚ Comparaison sur lesmêmes données

ñ Aussi : gain d’information, entropie relative

(34)

Calculs d’entropie

Divergence de Kullback-Leibler

ñ Mesure la perte d’information par approximation d’une loi

§ Formule

DKL(P||Q) = ř

xPX

P(X=x)˚log2

(P(X=x) Q(X=x)

)

§ Propriétés

Positive:DKL(P,Q)ě0

‚ Les lois ne divergent pas siDKL(P||Q) = 0

‚ Comparaison sur lesmêmes données

ñ Aussi : gain d’information, entropie relative

Damien Nouvel (Inalco) Entropie 11 / 16

(35)

Arbres de décision

Plan

1. Quantification de données 2. Calculs d’entropie

3. Arbres de décision

(36)

Arbres de décision

Critères sur des données

§ Tâche de classification

‚ Recueil et examen desdonnées

‚ Recherche decritères « utiles »

‚ Focalisation sur les sous-ensemblesde données ñ Quelle importance accorder à chaque critère ñ Prise de décision

jour température pluie travail sortir

lundi 27 non oui oui

jeudi 12 oui non non

samedi 10 oui oui oui

mercredi 23 non oui non

lundi 27 oui non oui

mercredi 15 oui non oui

Damien Nouvel (Inalco) Entropie 13 / 16

(37)

Arbres de décision

Critères sur des données

§ Tâche de classification

‚ Recueil et examen desdonnées

‚ Recherche decritères « utiles »

‚ Focalisation sur les sous-ensemblesde données

ñ Quelle importance accorder à chaque critère ñ Prise de décision

jour température pluie travail sortir

lundi 27 non oui oui

jeudi 12 oui non non

samedi 10 oui oui oui

mercredi 23 non oui non

lundi 27 oui non oui

mercredi 15 oui non oui

(38)

Arbres de décision

Critères sur des données

§ Tâche de classification

‚ Recueil et examen desdonnées

‚ Recherche decritères « utiles »

‚ Focalisation sur les sous-ensemblesde données ñ Quelle importance accorder à chaque critère

ñ Prise de décision

jour température pluie travail sortir

lundi 27 non oui oui

jeudi 12 oui non non

samedi 10 oui oui oui

mercredi 23 non oui non

lundi 27 oui non oui

mercredi 15 oui non oui

Damien Nouvel (Inalco) Entropie 13 / 16

(39)

Arbres de décision

Critères sur des données

§ Tâche de classification

‚ Recueil et examen desdonnées

‚ Recherche decritères « utiles »

‚ Focalisation sur les sous-ensemblesde données ñ Quelle importance accorder à chaque critère ñ Prise de décision

jour température pluie travail sortir

lundi 27 non oui oui

jeudi 12 oui non non

samedi 10 oui oui oui

mercredi 23 non oui non

lundi 27 oui non oui

mercredi 15 oui non oui

(40)

Arbres de décision

Critères sur des données

§ Tâche de classification

‚ Recueil et examen desdonnées

‚ Recherche decritères « utiles »

‚ Focalisation sur les sous-ensemblesde données ñ Quelle importance accorder à chaque critère ñ Prise de décision

jour température pluie travail sortir

lundi 27 non oui oui

jeudi 12 oui non non

samedi 10 oui oui oui

mercredi 23 non oui non

lundi 27 oui non oui

mercredi 15 oui non oui

Damien Nouvel (Inalco) Entropie 13 / 16

(41)

Arbres de décision

Critères sur des données

ñ L’arbre de décision évalue les critères pour classifier

§ Structure de l’arbre

‚ Les nœuds contiennent les variables

‚ Les arcs contiennent une décision sur les valeurs

‚ Les feuilles contiennent les données

§ Évaluation de l’apport d’une décision par entropie

‚ Pour chaquefeuille, pour chaquecritèredifférence entre

Entropie du nœudn

´ ř

xPX

P(X=x|n)˚log2(P(X=x|n))

Somme pondérée des entropie des nœuds enfantsePchild(n)

´ ř

ePenfant(n)

|e|

|n| ř

xPX

P(X=x|e)˚log2(P(X=x|e))

ñ Choix du critère quidiminue le plus l’entropie ñ Séquence de décisions guidées par l’entropie

ñ Possibilité de visualiser les décisions sous forme d’arbre

(42)

Arbres de décision

Critères sur des données

ñ L’arbre de décision évalue les critères pour classifier

§ Structure de l’arbre

‚ Les nœuds contiennent les variables

‚ Les arcs contiennent une décision sur les valeurs

‚ Les feuilles contiennent les données

§ Évaluation de l’apport d’une décision par entropie

‚ Pour chaquefeuille, pour chaquecritèredifférence entre

Entropie du nœudn

´ ř

xPX

P(X=x|n)˚log2(P(X=x|n))

Somme pondérée des entropie des nœuds enfantsePchild(n)

´ ř

ePenfant(n)

|e|

|n| ř

xPX

P(X=x|e)˚log2(P(X=x|e))

ñ Choix du critère quidiminue le plus l’entropie ñ Séquence de décisions guidées par l’entropie

ñ Possibilité de visualiser les décisions sous forme d’arbre

Damien Nouvel (Inalco) Entropie 14 / 16

(43)

Arbres de décision

Critères sur des données

ñ L’arbre de décision évalue les critères pour classifier

§ Structure de l’arbre

‚ Les nœuds contiennent les variables

‚ Les arcs contiennent une décision sur les valeurs

‚ Les feuilles contiennent les données

§ Évaluation de l’apport d’une décision par entropie

‚ Pour chaquefeuille, pour chaquecritèredifférence entre

Entropie du nœudn

´ ř

xPX

P(X=x|n)˚log2(P(X=x|n))

Somme pondérée des entropie des nœuds enfantsePchild(n)

´ ř

ePenfant(n)

|e|

|n|

ř

xPX

P(X=x|e)˚log2(P(X=x|e)) ñ Choix du critère quidiminue le plus l’entropie

ñ Séquence de décisions guidées par l’entropie

ñ Possibilité de visualiser les décisions sous forme d’arbre

(44)

Arbres de décision

Critères sur des données

ñ L’arbre de décision évalue les critères pour classifier

§ Structure de l’arbre

‚ Les nœuds contiennent les variables

‚ Les arcs contiennent une décision sur les valeurs

‚ Les feuilles contiennent les données

§ Évaluation de l’apport d’une décision par entropie

‚ Pour chaquefeuille, pour chaquecritèredifférence entre

Entropie du nœudn

´ ř

xPX

P(X=x|n)˚log2(P(X=x|n))

Somme pondérée des entropie des nœuds enfantsePchild(n)

´ ř

ePenfant(n)

|e|

|n|

ř

xPX

P(X=x|e)˚log2(P(X=x|e))

ñ Choix du critère quidiminue le plus l’entropie ñ Séquence de décisions guidées par l’entropie

ñ Possibilité de visualiser les décisions sous forme d’arbre

Damien Nouvel (Inalco) Entropie 14 / 16

(45)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir)

=´4/6˚log(4/6)´2/6˚log(2/6)

= 0.92

(46)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir)

= 1/6˚(´1˚log(1))

+ 5/6˚(´3/5˚log(3/5)´2/5˚log(2/5))

= 0.81

weekend

oui=1 non=0 oui

oui=3 non=2 non

Damien Nouvel (Inalco) Entropie 15 / 16

(47)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir)

= 3/6˚(´2/3˚log(2/3)´1/3˚log(1/3)) + 1/6˚(´1˚log(1))

+ 2/6˚(´1/2˚log(1/2)´1/2˚log(1/2))

= 0.79

temp.

oui=2 non=1

oui=1 non=0

oui

oui=1 non=1 non chaud

oui=1 non=0 doux

oui=1 non=1 froid

(48)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir)

= 4/6˚(´3/4˚log(3/4)´1/4˚log(1/4)) + 2/6˚(´1/2˚log(1/2)´1/2˚log(1/2))

= 0.87

pluie

oui=3 non=1 oui

oui=1 non=1 non

Damien Nouvel (Inalco) Entropie 15 / 16

(49)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir)

= 3/6˚(´2/3˚log(2/3)´1/3˚log(1/3)) + 3/6˚(´2/3˚log(2/3)´1/3˚log(1/3))

= 0.92

travail

oui=2 non=1 oui

oui=2 non=1 non

(50)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir|temp=chaud)

=´2/3˚log(2/3)´1/3˚log(1/3)

= 0.92

temp.

oui=2 non=1

oui=1 non=0

oui

oui=1 non=1 non chaud

oui=1 non=0 doux

oui=1 non=1 froid

Damien Nouvel (Inalco) Entropie 15 / 16

(51)

Arbres de décision

Exemple

weekend temp. pluie travail sortir

non chaud non oui oui

non froid oui non non

oui froid oui oui oui

non chaud non oui non

non chaud oui non oui

non doux oui non oui

H(sortir|temp=chaud)

= 1/3˚(´1˚log(1))

+ 2/3˚(´1/2˚log(1/2)´1/2˚log(1/2))

= 0.67

H(sortir)

= 3/6˚H(sortir|temp=chaud) + 1/6˚(´1˚log(1))

+ 2/6˚(´1/2˚log(1/2)´1/2˚log(1/2))

= 0.66

temp.

pluie

oui=1 non=0

oui

oui=1 non=1 non chaud

oui=1 non=0 doux

oui=1 non=1 froid

(52)

Arbres de décision

Exercice

§ Réalisez un arbre de décision sur le tableau suivant décrivant les mots présents dans des textes et leurs catégories associées :

ballon président euro équipe catégorie

oui non non oui sport

oui non oui oui sport

non oui oui non sport

non oui non non pol

non oui oui oui pol

non non non non eco

oui non oui non eco

non oui oui non eco

Damien Nouvel (Inalco) Entropie 16 / 16

Références

Documents relatifs

Cоветские власти тогда не отреагировали заметным образом на нарушение принципа первенства между братскими республиками, считая, по-видимому, что издание на

Cela peut se faire aussi dans le menu courant avec. la commande : {x 1 ,...,x n } Ñ List 1 On peut l’afficher dans le menu courant en

Íàïðèìåð, åñëè ýòèêåòêà íà óïàêîâêå óêàçûâàåò íà ñîäåðæàíèå 20 ìèëëèãðàìì (ìã) ýëåìåíòàðíîãî öèíêà â òàáëåòêàõ èëè íà òî, ÷òî â ïåðîðàëüíûõ

ﺕﺍﺩﺎﺒﻌﻟﺍﻭ ﻥﺎﳝﻹﺍ ﻦﻣ ﻞﻛ ﺮﺛﺃ ﻥﺎﻴﺑ ﻑﺍﺮﳓﻻﺍﻭ ﺔﳝﺮﳉﺍ ﺔﺤﻓﺎﻜﻣ ﰲ. ﱵﻟﺍ ﺔﻴﻠﺧﺍﺪﻟﺍ ﺓﻮﻘﻟﺍ ﻚﻠﺗ ﻥﺎﳝﻹﺎﺑ ﺪﺼﻘﻳ ﺎﻤﻠﻜﻓ ،ﱃﺎﻌﺗ ﷲﺍ ﺐﻀﻐﻳ

[r]

[r]

- ﺓﺭﺎﻴﺴﻝﺍ ﺕﻼﺠﻋ ﻰﻠﻋ ﻡﻭﺎﻘﻤﻝﺍ ﻙﺎﻜﺘﺤﻻﺍ ﺓﻭﻗ لﺜﻤﻴ

On définit l'union et l'intersection de deux ensembles flous A et B, comme respectivement le plus petit ensemble flou contenant A et B, et le plus grand ensemble flou contenu dans A