Apprentissage automatique
Damien Nouvel
Damien Nouvel (Inalco) Apprentissage 1 / 31
Principes de l’apprentissage
Plan
1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Damien Nouvel (Inalco) Apprentissage 3 / 31
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement
ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Damien Nouvel (Inalco) Apprentissage 3 / 31
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Damien Nouvel (Inalco) Apprentissage 3 / 31
Principes de l’apprentissage
Généralités sur l’apprentissage
§ Qu’est-ce que l’apprentissage
‚ Pour l’humain, acquisition
‚ Deconnaissances(cognition, par ex. une langue)
‚ D’unsavoir-faire(tâche, par ex. marcher)
‚ Pour l’intelligence artificielle
‚ Prendre une décisionintelligente
‚ Construire un modèleautomatiquement ñ Difficile à déterminer ex-nihilo
ñ Importance de définirles données et l’objectif
§ Notion d’erreur
‚ Permet de guiderl’apprentissage
‚ Objectif : avoir le moins d’erreurs possible
‚ Lien avec la fonction d’évaluation
Principes de l’apprentissage
Généralisation vs spécialisation
§ Tendances générales
‚ Généralisation
‚ Prise en compte de données plus diverses
‚ Adaptation aux nouvelles données ñ Perte en précision
ñ Gain en rappel ñ Sous-apprentissage
‚ Spécialisation
‚ Focalisation sur des données spécifiques
‚ Difficulté face aux nouvelles données ñ Gain en précision
ñ Perte en rappel ñ Sur-apprentissage
ñ Plus de données d’entraînement peuvent généraliser ou spécialiser
ñ Attention aux effets de bord (données éparses)
Damien Nouvel (Inalco) Apprentissage 4 / 31
Principes de l’apprentissage
Généralisation vs spécialisation
§ Tendances générales
‚ Généralisation
‚ Prise en compte de données plus diverses
‚ Adaptation aux nouvelles données ñ Perte en précision
ñ Gain en rappel ñ Sous-apprentissage
‚ Spécialisation
‚ Focalisation sur des données spécifiques
‚ Difficulté face aux nouvelles données ñ Gain en précision
ñ Perte en rappel ñ Sur-apprentissage
ñ Plus de données d’entraînement peuvent généraliser ou spécialiser
ñ Attention aux effets de bord (données éparses)
Principes de l’apprentissage
Degré de supervision
§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception
§ Schématiquement
‚ Conception manuelle (symbolique, à base de règles) :
Données Modèle Application
‚ Conception automatique (statistique, guidé par les données) :
Données Modèle Application
Damien Nouvel (Inalco) Apprentissage 5 / 31
Principes de l’apprentissage
Degré de supervision
§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception
§ Schématiquement
‚ Conception manuelle (symbolique, à base de règles) :
Données Modèle Application
‚ Conception automatique (statistique, guidé par les données) :
Données Modèle Application
Principes de l’apprentissage
Degré de supervision
§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception
§ Schématiquement
‚ Conception manuelle (symbolique, à base de règles) :
Données Modèle Application
‚ Conception automatique (statistique, guidé par les données) :
Données Modèle Application
Damien Nouvel (Inalco) Apprentissage 5 / 31
Principes de l’apprentissage
Degré de supervision
§ Effort sur le coût de conception (ingénierie) des logiciels ñ Degré d’intervention de l’humain dans la conception
§ Schématiquement
‚ Conception manuelle (symbolique, à base de règles) :
Données Modèle Application
‚ Conception automatique (statistique, guidé par les données) :
Données Modèle Application
Principes de l’apprentissage
Méthodologie supervisée
§ Pour un jeu de données
‚ Entraîner,développer,évaluerle(s) modèle(s)
‚ Attention au sur-apprentissage!
ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur
§ Jeux de données pour apprentissage supervisé
‚ Entraînement (train) : stat. pour les modèles (probabilités)
‚ Développement (dev) : amélioration itérative des modèles
‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)
‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)
‚ Pour chaque sous-ensemble i:
‚ Paramétrer le modèle surD´di
‚ Evaluer le modèle surdi
§ Méthodes non-supervisées : pas de données d’entraînement !
Damien Nouvel (Inalco) Apprentissage 6 / 31
Principes de l’apprentissage
Méthodologie supervisée
§ Pour un jeu de données
‚ Entraîner,développer,évaluerle(s) modèle(s)
‚ Attention au sur-apprentissage!
ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur
§ Jeux de données pour apprentissage supervisé
‚ Entraînement (train) : stat. pour les modèles (probabilités)
‚ Développement (dev) : amélioration itérative des modèles
‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)
‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)
‚ Pour chaque sous-ensemble i:
‚ Paramétrer le modèle surD´di
‚ Evaluer le modèle surdi
§ Méthodes non-supervisées : pas de données d’entraînement !
Principes de l’apprentissage
Méthodologie supervisée
§ Pour un jeu de données
‚ Entraîner,développer,évaluerle(s) modèle(s)
‚ Attention au sur-apprentissage!
ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur
§ Jeux de données pour apprentissage supervisé
‚ Entraînement (train) : stat. pour les modèles (probabilités)
‚ Développement (dev) : amélioration itérative des modèles
‚ Evaluation(test) : test final (idéalement unique)
ñ Utilisation de validation croisée (cross-validation)
‚ Diviser le jeu de données D enn sous-ensembles (souvent 10)
‚ Pour chaque sous-ensemble i:
‚ Paramétrer le modèle surD´di
‚ Evaluer le modèle surdi
§ Méthodes non-supervisées : pas de données d’entraînement !
Damien Nouvel (Inalco) Apprentissage 6 / 31
Principes de l’apprentissage
Méthodologie supervisée
§ Pour un jeu de données
‚ Entraîner,développer,évaluerle(s) modèle(s)
‚ Attention au sur-apprentissage!
ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur
§ Jeux de données pour apprentissage supervisé
‚ Entraînement (train) : stat. pour les modèles (probabilités)
‚ Développement (dev) : amélioration itérative des modèles
‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)
‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)
‚ Pour chaque sous-ensemble i:
‚ Paramétrer le modèle surD´di
‚ Evaluer le modèle surdi
§ Méthodes non-supervisées : pas de données d’entraînement !
Principes de l’apprentissage
Méthodologie supervisée
§ Pour un jeu de données
‚ Entraîner,développer,évaluerle(s) modèle(s)
‚ Attention au sur-apprentissage!
ñ La connaissance du jeu de données biaisela modélisation ñ Par exemple, apprentissagepar cœur
§ Jeux de données pour apprentissage supervisé
‚ Entraînement (train) : stat. pour les modèles (probabilités)
‚ Développement (dev) : amélioration itérative des modèles
‚ Evaluation(test) : test final (idéalement unique) ñ Utilisation de validation croisée (cross-validation)
‚ Diviser le jeu de données Den n sous-ensembles (souvent 10)
‚ Pour chaque sous-ensemble i:
‚ Paramétrer le modèle surD´di
‚ Evaluer le modèle surdi
§ Méthodes non-supervisées : pas de données d’entraînement !
Damien Nouvel (Inalco) Apprentissage 6 / 31
Principes de l’apprentissage
Exploitation des données
§ Formalisation des données
‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu
‚ Généralement non-ordonné
‚ Chaque exemple est unvecteur(structuré)
‚ Caractéristiques,composantes,features xi1. . .xin
ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)
‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu
‚ Résultat attendu associé à chaquexi correspond unyi
‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)
§ Tenir compte des données en entrée X
‚ Telles quelles : apprentissage par cœur, KNN
‚ Extraction de statistiques : TF.IDF, Bayes…
‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…
§ Prise en compte de la sortie Y : degré de supervision
Principes de l’apprentissage
Exploitation des données
§ Formalisation des données
‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu
‚ Généralement non-ordonné
‚ Chaque exemple est unvecteur(structuré)
‚ Caractéristiques,composantes,features xi1. . .xin
ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)
‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu
‚ Résultat attendu associé à chaquexi correspond unyi
‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)
§ Tenir compte des données en entrée X
‚ Telles quelles : apprentissage par cœur, KNN
‚ Extraction de statistiques : TF.IDF, Bayes…
‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…
§ Prise en compte de la sortie Y : degré de supervision
Damien Nouvel (Inalco) Apprentissage 7 / 31
Principes de l’apprentissage
Exploitation des données
§ Formalisation des données
‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu
‚ Généralement non-ordonné
‚ Chaque exemple est unvecteur(structuré)
‚ Caractéristiques,composantes,features xi1. . .xin
ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)
‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu
‚ Résultat attendu associé à chaquexi correspond unyi
‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)
§ Tenir compte des données en entrée X
‚ Telles quelles : apprentissage par cœur, KNN
‚ Extraction de statistiques : TF.IDF, Bayes…
‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…
§ Prise en compte de la sortie Y : degré de supervision
Principes de l’apprentissage
Exploitation des données
§ Formalisation des données
‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu
‚ Généralement non-ordonné
‚ Chaque exemple est unvecteur(structuré)
‚ Caractéristiques,composantes,features xi1. . .xin
ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)
‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu
‚ Résultat attendu associé à chaquexi correspond unyi
‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)
§ Tenir compte des données en entrée X
‚ Telles quelles : apprentissage par cœur, KNN
‚ Extraction de statistiques : TF.IDF, Bayes…
‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…
§ Prise en compte de la sortie Y : degré de supervision
Damien Nouvel (Inalco) Apprentissage 7 / 31
Principes de l’apprentissage
Exploitation des données
§ Formalisation des données
‚ Ensemble de données enentréeX=tx1,x2,x3. . .xnu
‚ Généralement non-ordonné
‚ Chaque exemple est unvecteur(structuré)
‚ Caractéristiques,composantes,features xi1. . .xin
ñ Formematricielle: matrice (lignesxi˚ / colonnesx˚j)
‚ Ensemble de données ensortieY=ty1,y2,y3. . .ynu
‚ Résultat attendu associé à chaquexi correspond unyi
‚ Généralement une seule valeur (booléenne, entière ou réelle) ñ Prédiction :régression(continu) /classification(discret) ñ Formematricielle: vecteur (une colonne)
§ Tenir compte des données en entrée X
‚ Telles quelles : apprentissage par cœur, KNN
‚ Extraction de statistiques : TF.IDF, Bayes…
‚ Itération sur les données : neurones, logit, SVM, CRF, LSTM…
§ Prise en compte de la sortie Y : degré de supervision
Principes de l’apprentissage
Noyau, similarité, distance
§ Méthodes à base de noyau (kernel)
§ Similarité [´1,+1]
‚ Valeurs :1 similaires, 0indépendants, ´1contraires)
‚ Calcul interne à l’espace de représentation : kernel trick
§ Distances [0,+8]
‚ Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Euclidienne : D(xi,z) =b ř
j(xij´zj)2
‚ Cosinus : D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj bř
jx2ij˚ bř
jz2j
‚ Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
ñ Notions équivalentes : dist= 1´sim (distP [0,2])
Damien Nouvel (Inalco) Apprentissage 8 / 31
Principes de l’apprentissage
Noyau, similarité, distance
§ Méthodes à base de noyau (kernel)
§ Similarité [´1,+1]
‚ Valeurs :1 similaires, 0indépendants, ´1contraires)
‚ Calcul interne à l’espace de représentation : kernel trick
§ Distances [0,+8]
‚ Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Cosinus : D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj bř
jx2ij˚ bř
jz2j
‚ Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
ñ Notions équivalentes : dist= 1´sim (distP [0,2])
Principes de l’apprentissage
Outils pour l’apprentissage automatique
§ Quelques librairies disponibles
‚ Weka :https://www.cs.waikato.ac.nz/~ml/weka
‚ scikit-learn :http://scikit-learn.org
‚ TensorFlow (Google) : https://www.tensorflow.org
‚ Keras : https://keras.io
‚ pytorch : https://pytorch.org
‚ OpenAI :https://openai.com
‚ Azure (MS) :https://azure.microsoft.com
‚ . . .
Damien Nouvel (Inalco) Apprentissage 9 / 31
Méthodes non-itératives
Plan
1. Principes de l’apprentissage 2. Méthodes non-itératives 3. Méthodes itératives
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Damien Nouvel (Inalco) Apprentissage 11 / 31
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Damien Nouvel (Inalco) Apprentissage 11 / 31
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K
ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Damien Nouvel (Inalco) Apprentissage 11 / 31
Méthodes non-itératives
K plus proches voisins
§ Les données X sont utilisées sans transformations
§ Pour un nouvel exemple z à classifier
‚ Calcul de la distanceentre zet chaque xi
‚ Distance de Manhattan :D(xi,z) =ř
j|xij´zj|
‚ Distance euclidienne :D(xi,z) =b ř
j(xij´zj)2
‚ Similarité cosinus :D(xi,z) = xi¨z
∥xi∥˚∥z∥ = ř
jxij˚zj
bř
jx2ij˚ bř
jz2j
‚ Distance de Jaccard :D(xi,z) = 1´|xiXz|
|xiYz|
‚ Sélection desKexemples xi les plus proches (distance)
‚ Choix de la classe la plus fréquente parmi les K ñ Avantages : résultats honorables pour peu de calculs ñ Inconvénients : il faut fixerK
§ En anglais : K Nearest Neighbours (KNN)
Méthodes non-itératives
TF.IDF
§ Algorithme tourné vers la recherche d’informations
‚ Caractéristiques xij :termes dans lesdocuments
‚ Matrice termes / documents (vector space model)
§ Apprentissage du modèle
‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|
|txi|xiją0u|)
‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj
§ Pour un nouvel exemple z à classifier
‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj
‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents
Damien Nouvel (Inalco) Apprentissage 12 / 31
Méthodes non-itératives
TF.IDF
§ Algorithme tourné vers la recherche d’informations
‚ Caractéristiques xij :termes dans lesdocuments
‚ Matrice termes / documents (vector space model)
§ Apprentissage du modèle
‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|
|txi|xiją0u|)
‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj
§ Pour un nouvel exemple z à classifier
‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj
‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents
Méthodes non-itératives
TF.IDF
§ Algorithme tourné vers la recherche d’informations
‚ Caractéristiques xij :termes dans lesdocuments
‚ Matrice termes / documents (vector space model)
§ Apprentissage du modèle
‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|
|txi|xiją0u|)
‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj
§ Pour un nouvel exemple z à classifier
‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj
‚ Calcul des distances (similarité cosinus) entre zt et chaquexti
ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents
Damien Nouvel (Inalco) Apprentissage 12 / 31
Méthodes non-itératives
TF.IDF
§ Algorithme tourné vers la recherche d’informations
‚ Caractéristiques xij :termes dans lesdocuments
‚ Matrice termes / documents (vector space model)
§ Apprentissage du modèle
‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|
|txi|xiją0u|)
‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj
§ Pour un nouvel exemple z à classifier
‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj
‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents
ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents
Méthodes non-itératives
TF.IDF
§ Algorithme tourné vers la recherche d’informations
‚ Caractéristiques xij :termes dans lesdocuments
‚ Matrice termes / documents (vector space model)
§ Apprentissage du modèle
‚ Poids des termes dans la collection d’exemples X : idfj=log( |X|
|txi|xiją0u|)
‚ Vecteur représentant chaque exemple xti :xtij=xij˚idfj
§ Pour un nouvel exemple z à classifier
‚ Vecteurzt représentant le nouvel exemple :ztj =zj˚idfj
‚ Calcul des distances (similarité cosinus) entre zt et chaquexti ñ Avantages : bonne prise en compte des termes spécifiques ñ Inconvénients : fortement dépendant des termes présents ñ LSA (sémantique latente) : termes Ñconcepts Ñ documents
Damien Nouvel (Inalco) Apprentissage 12 / 31
Méthodes non-itératives
Classifieur bayésien naïf : principe
§ Discret : probabilité de P(yi) dépend des facteurs xij
‚ Formulation mathématique :
P(yi|xi1. . .xin)˚P(xi1. . .xin) =P(xi1. . .xin|yi)˚P(yi) P(yi|xi1. . .xin) =P(yi)˚ P(xi1. . .xin|yi)
P(xi1. . .xin)
‚ P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)
‚ P(yi): probabilitéa priori(antérieure)
‚ P(xi1. . .xin|yi):vraisemblance
‚ P(xi1. . .xin):évidence(proba jointe) ñ Trouver le yi qui maximise ce calcul
‚ La quantitéP(xi1. . .xin)estconstante
‚ Calcul deP(yi)sans difficultés
‚ Comment calculerP(xi1. . .xin|yi)?
Méthodes non-itératives
Classifieur bayésien naïf : principe
§ Discret : probabilité de P(yi) dépend des facteurs xij
‚ Formulation mathématique :
P(yi|xi1. . .xin)˚P(xi1. . .xin) =P(xi1. . .xin|yi)˚P(yi) P(yi|xi1. . .xin) =P(yi)˚ P(xi1. . .xin|yi)
P(xi1. . .xin)
‚ P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)
‚ P(yi): probabilitéa priori(antérieure)
‚ P(xi1. . .xin|yi):vraisemblance
‚ P(xi1. . .xin):évidence(proba jointe)
ñ Trouver le yi qui maximise ce calcul
‚ La quantitéP(xi1. . .xin)estconstante
‚ Calcul deP(yi)sans difficultés
‚ Comment calculerP(xi1. . .xin|yi)?
Damien Nouvel (Inalco) Apprentissage 13 / 31
Méthodes non-itératives
Classifieur bayésien naïf : principe
§ Discret : probabilité de P(yi) dépend des facteurs xij
‚ Formulation mathématique :
P(yi|xi1. . .xin)˚P(xi1. . .xin) =P(xi1. . .xin|yi)˚P(yi) P(yi|xi1. . .xin) =P(yi)˚ P(xi1. . .xin|yi)
P(xi1. . .xin)
‚ P(yi|xi1. . .xin): probabilitéa posteriori(postérieure)
‚ P(yi): probabilitéa priori(antérieure)
‚ P(xi1. . .xin|yi):vraisemblance
‚ P(xi1. . .xin):évidence(proba jointe) ñ Trouver le yi qui maximise ce calcul
‚ La quantitéP(xi1. . .xin)estconstante
‚ Calcul deP(yi)sans difficultés
‚ Comment calculerP(xi1. . .xin|yi)?
Méthodes non-itératives
Classifieur bayésien naïf : hypothèse naïve
ñ Données trop éparses pour l’évènement jointxi1. . .xin
§ Remarque : si les xij étaient indépendants deux à deux :
P(yi|xi1. . .xin) =P(yi)˚ź
j
P(xij|yi) P(xij)
§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)
=P(xi1|yi)˚P(xi2. . .xin|yi,xi1)
=P(xi1|yi)˚P(xi2|yi,xi1)˚P(xi3. . .xin|yi,xi1,xi2)
=P(xi1|yi)˚P(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1) ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1)«P(xij|yi)
=P(xi1|yi)˚P(xi2|yi)˚P(xi3|yi). . .P(xin|yi)
=ś
jP(xij|yi)
Damien Nouvel (Inalco) Apprentissage 14 / 31
Méthodes non-itératives
Classifieur bayésien naïf : hypothèse naïve
ñ Données trop éparses pour l’évènement jointxi1. . .xin
§ Remarque : si les xij étaient indépendants deux à deux :
P(yi|xi1. . .xin) =P(yi)˚ź
j
P(xij|yi) P(xij)
§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)
=P(xi1|yi)˚P(xi2. . .xin|yi,xi1)
=P(xi1|yi)˚P(xi2|yi,xi1)˚P(xi3. . .xin|yi,xi1,xi2)
=P(xi1|yi)˚P(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1)
ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1)«P(xij|yi)
=P(xi1|yi)˚P(xi2|yi)˚P(xi3|yi). . .P(xin|yi)
=ś
jP(xij|yi)
Méthodes non-itératives
Classifieur bayésien naïf : hypothèse naïve
ñ Données trop éparses pour l’évènement jointxi1. . .xin
§ Remarque : si les xij étaient indépendants deux à deux :
P(yi|xi1. . .xin) =P(yi)˚ź
j
P(xij|yi) P(xij)
§ Probabilités conditionnelles : P(A,B|C) = P(A|C)˚P(B|C,A) P(xi1. . .xin|yi)
=P(xi1|yi)˚P(xi2. . .xin|yi,xi1)
=P(xi1|yi)˚P(xi2|yi,xi1)˚P(xi3. . .xin|yi,xi1,xi2)
=P(xi1|yi)˚P(xi2|yi,xi1)¨ ¨ ¨ ˚P(xin|yi,xi1. . .xin´1) ñ Hypothèse naïve :P(xij|yi,xi1. . .xij´1)«P(xij|yi)
=P(xi1|yi)˚P(xi2|yi)˚P(xi3|yi). . .P(xin|yi)
=ś
jP(xij|yi)
Damien Nouvel (Inalco) Apprentissage 14 / 31