Introduction à l'intelligence artificielle et la théorie de jeux. Wieslaw Zielonka

Texte intégral

(1)

Introduction à

l'intelligence artificielle et la théorie de jeux

Wieslaw Zielonka zielonka@irif.fr www.irif.fr/~zielonka

(2)

Identifier les chiffres à partir de code postale écrit à la main

Identifier les spams

Prédire le prix de stock options d'une entreprise dans 6 mois à partir de performances de

l'entreprise et de donnéeséconomiques

Faire une diagnose pour un patient à partir de mesures de testes cliniques

Apprentissage

(3)

apprentissage supervisé

Nous avons un ensemble de caractéristiques (features) et nous voulons soit classé le problème (par exemple classé un email comme spam ou non, classé un chiffre dans une de 10 classes 0,1,…,9, ou prédire une valeur (stock options) sur la base de valeurs de caractéristiques.

Exemples de caractéristiques :

fréquences de certains mots dans le mail

intensité de chaque pixel de l'image d'une chiffre

la courbe de stock options de l'entreprise dans le 5 dernières années plus les paramètres économiques dans ce période

(4)

Apprentissage supervisé

Dans l'apprentissage supervisé nous avons un certain nombre d'exemples d'entrainement:

par exemple 100000 d'images de chiffres écrites à la main et déjà classés par les humains

1000000 de mails déjà classés dans les deux

catégories, spam et non spam, ou peut être pas de mails complets mais juste la fréquence de certains mots ou types de mots en fonction de type de mail

(5)

Exemple d'entrainement : spam ou mail

fréquence de certains mots dans les exemples d'entrainement

geor

ge you your hp free hpl ! our re edu remo ve

spam 0.00 2.26 1.38 0.02 0.52 0.01 0.51 0.51 0.13 0.01 0.28

mail 1.27 1.27 0.44 0.90 0.07 0.43 0.11 0.18 0.42 0.29 0.01

(6)

Apprentissage supervisé mail ou spam (problème de classement)

Les données d'entraiment 4601 messages classés déjà

correctement dans deux classes, mail et spam avec les fréquences relatives de 57 mots (et de signes de ponctuation) le plus fréquents.

Objectif: construire un programme qui fait le classement automatique de nouveau mail.

Le programme d'apprentissage dit décider quelles caractéristiques utiliser et comment le faire.

Exemple de règle :

if( 0.2 %you - 0.3 %george > 0) then spam else email

(7)

Le problème : prédire la valeur de stock options d'une entreprise est un problème de regression (prédire une valeur numérique au lieu de classer dans une classe).

Le problème de regression

(8)

Apprentissage supervisé - classement (exemple)

But : apprendre la classe C "voitures familiales".

Donc deux classes : C - voiture familiales D - autres voitures

Les experts étiquettent chaque voiture dans l'ensemble d'entrainement soit par C soir par D.

Quelles sont les caractéristiques pertinentes?

Supposons qu'il y en a deux : le prix et la puissance moteur

(9)

Chaque voiture dans l'ensemble d'apprentissage

représentée par un couple x=(x1,x2) où x1 le prix et x2 la puissance moteur.

Chaque exemple étiqueté par r, r=0 ou r=1 (r=1 si l'exemple appartient à C).

Supposons l'ensemble d'entrainement contient n exemples (xt,rt), t=1,…,n.

Exemple (suite)

(10)

+ les exemples positifs (r=1) - les exemples négatifs (r=0)

Exemple (suite)

(11)

Quelle est la forme de C?

Supposons que C est un rectangle:

p1 ≤ prix ≤ p2 et e1 ≤ puissance ≤ e2

Ces conditions définissent l'espace des Hypothèses H. Chaque hypothèse est déterminée par 4

paramètres p1, p2, e1, e2.

On cherche l'hypothèse h qui correspond le mieux aux exemples. L'hypothèse avec les paramètres p1, p2, e1, e2

donne la prédiction

h(x1,x2)= 1 si p1≤x1≤p2 et e1≤x2≤e2 et h(x1,x2)=0 sinon.

Exemple (suite)

(12)

L'erreur empirique de l'hypothèse h est le nombre d'exemples d'apprentissage mal classés par h:

où vaut 1 si a ≠ b et 0 si a = b

Exemple (suite)

E(h|X) =

Xn

t=1

1(h(xt) 6= rt)

1(a 6= b)

(13)

une hypothèse avec l'erreur empirique 4 (deux faux positifs et 2 faux négatifs)

Exemple (suite)

(14)

Le problème de généralisation : est-ce que

l'hypothèse fait le bon classement de nouveaux exemples?

L'hypothèse a plus spécifique S : le plus petit

rectangle qui contient tout les exemples positifs et aucun négatif.

L'hypothèse la plus générale G: le plus grand

rectangle qui contient tous les exemples positifs et aucun négatif.

On suppose que C satisfait

exemple (suite)

S ⇢ C ⇢ G

(15)

Hypothèses : la plus spécifique et la plus générale

exemple (suite)

(16)

Exemple (suite)

Si erreur de classement est coûteux alors :

faire classer dans C si x est dans S

faire classer dans D si x n'est pas dans G

demander un expert si x est dans G mais pas dans S

(17)

Apprentissage de classes multiples

K classes C1,C2,…,CK et chaque exemple appartient à une seule classes (les classes disjointes).

L'ensemble d'apprentissage a la forme X = { (xt,rt) | t=1,…,K }

où chaque rt a K dimensions, rt=(rt1,…,rtK) où

rti = 1 si x appartient à Ci, et rti=0 sinon

(18)

Apprentissage de classes multiples

Le classement en K classement peut être vu comme K problème d'apprentissage dans deux classes,

la classe Ci et con complément coCi

Nous formulons K hypothèses h=(h1,….,hK) telle que hi(x) = 1 si x appartient à Ci, et hi(x)=0 sinon.

(19)

Apprentissage de plusieurs classes

L'erreur empirique est le nombre d'exemples mal classé

E(h|X) =

XN

t=1

XK

i=1

1(hi(xt) 6= rit)

(20)

Apprentissage de plusieurs classes

Idéalement on voudrait avoir un seul i tel que hi(x)=1 S'il y a plusieurs i qui satisfont cette condition alors impossible de classer x.

(21)

Regression

Dans la regression nous avons K exemples d'apprentissage

Le but : trouver une fonction telle que X = {(xt, rt) | t = 1, . . . , K}

rt 2 R

f

f (xt) = rt, pour tout t = 1, . . . , K

(22)

Regression

L'interpolation polynomiale consiste à trouver un polynôme de dégrée K-1 qui passe par tous les points de l'ensemble d'apprentissage.

De plus il y a un bruit qui s'ajoute dans notre mesure de r

où f inconnue et un bruit aléatoire.

rt = f (xt) + "

"

(23)

Regression

L'erreur empirique d'un modèle g est

Le but : trouver g qui minimize l'erreur empirique.

E(g|X) = 1 N

XN

t=1

(rt g(xt))2

(24)

Regression

Supposons que l'espace d'hypothèses contient toutes les fonctions linéaires

avec les paramètres réels inconnu.

g(x) = w1x1 + · · · + wdxd + w0 w0, w1, . . . wd

(25)

Regression

Prédire le prix d'une voiture d'occasion en supposant que cela dépend uniquement de l'année.

Le modèle

où inconnus.

g(x) = w1x + w0 w0, w1

(26)

Regression

Il faut minimiser l'erreur empirique:

Pour trouver le minimum:

E(w1, w0|X) = 1 N

XK

t=1

(ri (w1xt + w0))2

@E

@w0 = 0 @E

@w1 = 0

(27)

Regression

On obtient

où et et

w1 =

P

t xtrt x · r · K P

t(xt)2 Kx2

x = (X

t

xt)/N r = (X

t

rt)/N w0 = r w1x

Figure

Updating...

Références

  1. www.irif.fr/~zielonka
Sujets connexes :