• Aucun résultat trouvé

Apprentissage automatique

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage automatique"

Copied!
101
0
0

Texte intégral

(1)

Apprentissage automatique

Damien Nouvel

Damien Nouvel (Inalco) Apprentissage 1 / 31

(2)

Principes de l’apprentissage

Plan

1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives

(3)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

Damien Nouvel (Inalco) Apprentissage 3 / 31

(4)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

(5)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement

ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

Damien Nouvel (Inalco) Apprentissage 3 / 31

(6)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

(7)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

Damien Nouvel (Inalco) Apprentissage 3 / 31

(8)

Principes de l’apprentissage

Généralités sur l’apprentissage

§ Qu’est-ce que l’apprentissage

‚ Pour l’humain, acquisition

Deconnaissances(cognition, par ex. une langue)

D’unsavoir-faire(tâche, par ex. marcher)

‚ Pour l’intelligence artificielle

Prendre une décisionintelligente

Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo

ñ Importance de définirles données et l’objectif

§ Notion d’erreur

‚ Permet de guiderl’apprentissage

Objectif : avoir le moins d’erreurs possible

‚ Lien avec la fonction d’évaluation

(9)

Principes de l’apprentissage

Généralisation vs spécialisation

§ Tendances générales

‚ Généralisation

Prise en compte de données plus diverses

Adaptation aux nouvelles données ñ Perte en précision

ñ Gain en rappel ñ Sous-apprentissage

‚ Spécialisation

Focalisation sur des données spécifiques

Difficulté face aux nouvelles données ñ Gain en précision

ñ Perte en rappel ñ Sur-apprentissage

ñ Plus de données d’entraînement peuvent généraliser ou spécialiser

ñ Attention aux effets de bord (données éparses)

Damien Nouvel (Inalco) Apprentissage 4 / 31

(10)

Principes de l’apprentissage

Généralisation vs spécialisation

§ Tendances générales

‚ Généralisation

Prise en compte de données plus diverses

Adaptation aux nouvelles données ñ Perte en précision

ñ Gain en rappel ñ Sous-apprentissage

‚ Spécialisation

Focalisation sur des données spécifiques

Difficulté face aux nouvelles données ñ Gain en précision

ñ Perte en rappel ñ Sur-apprentissage

ñ Plus de données d’entraînement peuvent généraliser ou spécialiser

ñ Attention aux effets de bord (données éparses)

(11)

Principes de l’apprentissage

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

Données Modèle Application

Damien Nouvel (Inalco) Apprentissage 5 / 31

(12)

Principes de l’apprentissage

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

Données Modèle Application

(13)

Principes de l’apprentissage

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

Données Modèle Application

Damien Nouvel (Inalco) Apprentissage 5 / 31

(14)

Principes de l’apprentissage

Degré de supervision

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception

§ Schématiquement

‚ Conception manuelle (symbolique, à base de règles) :

Données Modèle Application

‚ Conception automatique (statistique, guidé par les données) :

Données Modèle Application

(15)

Principes de l’apprentissage

Méthodologie supervisée

§ Pour un jeu de données

Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

Entraînement (train) : stat. pour les modèles (probabilités)

Développement (dev) : amélioration itérative des modèles

Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

Paramétrer le modèle surD´di

Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

Damien Nouvel (Inalco) Apprentissage 6 / 31

(16)

Principes de l’apprentissage

Méthodologie supervisée

§ Pour un jeu de données

Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

Entraînement (train) : stat. pour les modèles (probabilités)

Développement (dev) : amélioration itérative des modèles

Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

Paramétrer le modèle surD´di

Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

(17)

Principes de l’apprentissage

Méthodologie supervisée

§ Pour un jeu de données

Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

Entraînement (train) : stat. pour les modèles (probabilités)

Développement (dev) : amélioration itérative des modèles

Evaluation(test) : test final (idéalement unique)

ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

Paramétrer le modèle surD´di

Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

Damien Nouvel (Inalco) Apprentissage 6 / 31

(18)

Principes de l’apprentissage

Méthodologie supervisée

§ Pour un jeu de données

Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

Entraînement (train) : stat. pour les modèles (probabilités)

Développement (dev) : amélioration itérative des modèles

Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

Paramétrer le modèle surD´di

Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

(19)

Principes de l’apprentissage

Méthodologie supervisée

§ Pour un jeu de données

Entraîner,développer,évaluerle(s) modèle(s)

‚ Attention au sur-apprentissage!

ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur

§ Jeux de données pour apprentissage supervisé

Entraînement (train) : stat. pour les modèles (probabilités)

Développement (dev) : amélioration itérative des modèles

Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)

‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)

‚ Pour chaque sous-ensemble i:

Paramétrer le modèle surD´di

Evaluer le modèle surdi

§ Méthodes non-supervisées : pas de données d’entraînement !

Damien Nouvel (Inalco) Apprentissage 6 / 31

(20)

Principes de l’apprentissage

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu

Généralement non-ordonné

Chaque exemple est unvecteur(structuré)

Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)

‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu

Résultat attendu associé à chaquexi correspond unyi

Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

(21)

Principes de l’apprentissage

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu

Généralement non-ordonné

Chaque exemple est unvecteur(structuré)

Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)

‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu

Résultat attendu associé à chaquexi correspond unyi

Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

Damien Nouvel (Inalco) Apprentissage 7 / 31

(22)

Principes de l’apprentissage

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu

Généralement non-ordonné

Chaque exemple est unvecteur(structuré)

Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)

‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu

Résultat attendu associé à chaquexi correspond unyi

Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

(23)

Principes de l’apprentissage

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu

Généralement non-ordonné

Chaque exemple est unvecteur(structuré)

Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)

‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu

Résultat attendu associé à chaquexi correspond unyi

Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

Damien Nouvel (Inalco) Apprentissage 7 / 31

(24)

Principes de l’apprentissage

Exploitation des données

§ Formalisation des données

‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu

Généralement non-ordonné

Chaque exemple est unvecteur(structuré)

Caractéristiques,composantes,features xi1. . .xin

ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)

‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu

Résultat attendu associé à chaquexi correspond unyi

Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)

§ Tenir compte des données en entrée X

‚ Telles quelles : apprentissage par cœur, KNN

‚ Extraction de statistiques : TF.IDF, Bayes…

‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…

§ Prise en compte de la sortie Y : degré de supervision

(25)

Principes de l’apprentissage

Noyau, similarité, distance

§ Méthodes à base de noyau (kernel)

§ Similarité [´1,+1]

‚ Valeurs :1 similaires, 0indépendants, ´1contraires)

‚ Calcul interne à l’espace de représentation : kernel trick

§ Distances [0,+8]

‚ Manhattan :D(xi,z) =ř

j|xij´zj|

‚ Euclidienne : D(xi,z) =b ř

j(xij´zj)2

‚ Cosinus : D(xi,z) = xi¨z

∥xi˚∥z∥ = ř

jxij˚zj

jx2ij˚ bř

jz2j

‚ Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

ñ Notions équivalentes : dist= 1´sim (distP [0,2])

Damien Nouvel (Inalco) Apprentissage 8 / 31

(26)

Principes de l’apprentissage

Noyau, similarité, distance

§ Méthodes à base de noyau (kernel)

§ Similarité [´1,+1]

‚ Valeurs :1 similaires, 0indépendants, ´1contraires)

‚ Calcul interne à l’espace de représentation : kernel trick

§ Distances [0,+8]

‚ Manhattan :D(xi,z) =ř

j|xij´zj|

‚ Euclidienne :D(xi,z) =b ř

j(xij´zj)2

‚ Cosinus : D(xi,z) = xi¨z

∥xi˚∥z∥ = ř

jxij˚zj

jx2ij˚ bř

jz2j

‚ Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

ñ Notions équivalentes : dist= 1´sim (distP [0,2])

(27)

Principes de l’apprentissage

Outils pour l’apprentissage automatique

§ Quelques librairies disponibles

‚ Weka :https://www.cs.waikato.ac.nz/~ml/weka

‚ scikit-learn :http://scikit-learn.org

‚ TensorFlow (Google) : https://www.tensorflow.org

‚ Keras : https://keras.io

‚ pytorch : https://pytorch.org

‚ OpenAI :https://openai.com

‚ Azure (MS) :https://azure.microsoft.com

. . .

Damien Nouvel (Inalco) Apprentissage 9 / 31

(28)

Méthodes non-itératives

Plan

1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives

(29)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

Damien Nouvel (Inalco) Apprentissage 11 / 31

(30)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

(31)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

Damien Nouvel (Inalco) Apprentissage 11 / 31

(32)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

(33)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K

ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

Damien Nouvel (Inalco) Apprentissage 11 / 31

(34)

Méthodes non-itératives

K plus proches voisins

§ Les données X sont utilisées sans transformations

§ Pour un nouvel exemple z à classifier

‚ Calcul de la distanceentre zet chaque xi

Distance de Manhattan :D(xi,z) =ř

j|xij´zj|

Distance euclidienne :D(xi,z) =b ř

j(xij´zj)2

Similarité cosinus :D(xi,z) = xi¨z

xi˚z = ř

jxij˚zj

bř

jx2ij˚ bř

jz2j

Distance de Jaccard :D(xi,z) = 1´|xiXz|

|xiYz|

‚ Sélection desKexemples xi les plus proches (distance)

‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK

§ En anglais : K Nearest Neighbours (KNN)

(35)

Méthodes non-itératives

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques xij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|

|txi|xiją0u|)

‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj

§ Pour un nouvel exemple z à classifier

‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj

‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

Damien Nouvel (Inalco) Apprentissage 12 / 31

(36)

Méthodes non-itératives

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques xij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|

|txi|xiją0u|)

‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj

§ Pour un nouvel exemple z à classifier

‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj

‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(37)

Méthodes non-itératives

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques xij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|

|txi|xiją0u|)

‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj

§ Pour un nouvel exemple z à classifier

‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj

‚ Calcul des distances (similarité cosinus) entre zt et chaquexti

ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

Damien Nouvel (Inalco) Apprentissage 12 / 31

(38)

Méthodes non-itératives

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques xij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|

|txi|xiją0u|)

‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj

§ Pour un nouvel exemple z à classifier

‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj

‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents

ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

(39)

Méthodes non-itératives

TF.IDF

§ Algorithme tourné vers la recherche d’informations

‚ Caractéristiques xij :termes dans lesdocuments

‚ Matrice termes / documents (vector space model)

§ Apprentissage du modèle

‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|

|txi|xiją0u|)

‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj

§ Pour un nouvel exemple z à classifier

‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj

‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents

Damien Nouvel (Inalco) Apprentissage 12 / 31

(40)

Méthodes non-itératives

Classifieur bayésien naïf : principe

§ Discret : probabilité de P(yi) dépend des facteurs xij

‚ Formulation mathématique :

P(yi|xi1. . .xinP(xi1. . .xin) =P(xi1. . .xin|yiP(yi) P(yi|xi1. . .xin) =P(yiP(xi1. . .xin|yi)

P(xi1. . .xin)

P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)

P(yi): probabilitéa priori(antérieure)

P(xi1. . .xin|yi):vraisemblance

P(xi1. . .xin):évidence(proba jointe) ñ Trouver le yi qui maximise ce calcul

La quantitéP(xi1. . .xin)estconstante

Calcul deP(yi)sans difficultés

Comment calculerP(xi1. . .xin|yi)?

(41)

Méthodes non-itératives

Classifieur bayésien naïf : principe

§ Discret : probabilité de P(yi) dépend des facteurs xij

‚ Formulation mathématique :

P(yi|xi1. . .xinP(xi1. . .xin) =P(xi1. . .xin|yiP(yi) P(yi|xi1. . .xin) =P(yiP(xi1. . .xin|yi)

P(xi1. . .xin)

P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)

P(yi): probabilitéa priori(antérieure)

P(xi1. . .xin|yi):vraisemblance

P(xi1. . .xin):évidence(proba jointe)

ñ Trouver le yi qui maximise ce calcul

La quantitéP(xi1. . .xin)estconstante

Calcul deP(yi)sans difficultés

Comment calculerP(xi1. . .xin|yi)?

Damien Nouvel (Inalco) Apprentissage 13 / 31

(42)

Méthodes non-itératives

Classifieur bayésien naïf : principe

§ Discret : probabilité de P(yi) dépend des facteurs xij

‚ Formulation mathématique :

P(yi|xi1. . .xinP(xi1. . .xin) =P(xi1. . .xin|yiP(yi) P(yi|xi1. . .xin) =P(yiP(xi1. . .xin|yi)

P(xi1. . .xin)

P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)

P(yi): probabilitéa priori(antérieure)

P(xi1. . .xin|yi):vraisemblance

P(xi1. . .xin):évidence(proba jointe) ñ Trouver le yi qui maximise ce calcul

La quantitéP(xi1. . .xin)estconstante

Calcul deP(yi)sans difficultés

Comment calculerP(xi1. . .xin|yi)?

(43)

Méthodes non-itératives

Classifieur bayésien naïf : hypothèse naïve

ñ Données trop éparses pour l’évènement jointxi1. . .xin

§ Remarque : si les xij étaient indépendants deux à deux :

P(yi|xi1. . .xin) =P(yi)˚ź

j

P(xij|yi) P(xij)

§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)

=P(xi1|yiP(xi2. . .xin|yi,xi1)

=P(xi1|yiP(xi2|yi,xi1P(xi3. . .xin|yi,xi1,xi2)

=P(xi1|yiP(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1) ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1P(xij|yi)

=P(xi1|yiP(xi2|yiP(xi3|yi). . .P(xin|yi)

jP(xij|yi)

Damien Nouvel (Inalco) Apprentissage 14 / 31

(44)

Méthodes non-itératives

Classifieur bayésien naïf : hypothèse naïve

ñ Données trop éparses pour l’évènement jointxi1. . .xin

§ Remarque : si les xij étaient indépendants deux à deux :

P(yi|xi1. . .xin) =P(yi)˚ź

j

P(xij|yi) P(xij)

§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)

=P(xi1|yiP(xi2. . .xin|yi,xi1)

=P(xi1|yiP(xi2|yi,xi1P(xi3. . .xin|yi,xi1,xi2)

=P(xi1|yiP(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1)

ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1P(xij|yi)

=P(xi1|yiP(xi2|yiP(xi3|yi). . .P(xin|yi)

jP(xij|yi)

(45)

Méthodes non-itératives

Classifieur bayésien naïf : hypothèse naïve

ñ Données trop éparses pour l’évènement jointxi1. . .xin

§ Remarque : si les xij étaient indépendants deux à deux :

P(yi|xi1. . .xin) =P(yi)˚ź

j

P(xij|yi) P(xij)

§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)

=P(xi1|yiP(xi2. . .xin|yi,xi1)

=P(xi1|yiP(xi2|yi,xi1P(xi3. . .xin|yi,xi1,xi2)

=P(xi1|yiP(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1) ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1P(xij|yi)

=P(xi1|yiP(xi2|yiP(xi3|yi). . .P(xin|yi)

jP(xij|yi)

Damien Nouvel (Inalco) Apprentissage 14 / 31

Références

Documents relatifs

Cette présentation se positionne dans le cadre de la démarche de « prévention intégrée » qui consiste à appliquer au plus tôt des principes de conception sûre à un

Ensuite, apr`es avoir identifi´e les patrons de conception utilis´es, le travail consiste `a comparer les patrons de conception identifi´es manuellement avec ceux

§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception.

Dans la deuxième partie de l’article, deux cas sont étudiés : le HYVE 3D (Dorta et al., 2016b), utilisé comme outil pédagogique de support de la critique en studio de codesign

Keywords: Software verification and validation, Automotive, Software testing process, Functional simulation, Software quality, Knowledge management, Decision making,

Le fait que le corpus de destinations ne comprenne que peu de documents nous a permis de vérifier manuellement la qualité des assertions de propriétés introduites aussi bien à

− les participants sont dits réguliers quand ils participent à plus du 3 ème quartile du nombre de discussions (Q3=2 dans les discussions de la proposition rejetée sur les

À travers cette recherche, nous montrons que, plus qu’une forme de conception participative ouverte à tous les utilisateurs, conception de logiciels libres et usage sont