1Clusteringet k -means ExercicesMQIA

(1)

Exercices MQIA

1 Clustering et k-means

Exercice 1 – Généralités sur le clustering

Q 1.1 Supposons que l’on possède un corpus de N documents, combien de clustering différents peuvent être trouvés si on cherche K clusters ?

Q 1.2 Considérons que lesN exemples appartiennent àK catégories différentes et que l’on connait la fonction d’appartenance (on sait, pour chaque exemple, à quelle catégorie il appartient, comme dans le cas de l’apprentissage supervisé). Proposer une mesure qui permette l’évaluation d’un système de clustering

Exercice 2 – Deux algorithmes de Quantification vectorielle

- Algorithme des K-moyennes - La taille du dictionnaireK est fix´ee, c’est un param`etre de l’algorithme.

• Initialiser al´eatoiremet les K prototypes.

• Répéter jusqu’à (critère d’arrêt) :

– partitionner les exemples en les affectant aux prtotypes dont ils sont le plus proche ; – red´efinir les protoypes (i.e. centres de gravit´e des partitions).

- Algorithme LBG (Linde-Buzo-Gray) -

• y un vecteur initialis´e al´eatoirement de petite norme ;

• le dictionnaire est initialisé à un élément, le centre de gravité des exemples de l’ensemble d’apprentissage ;

• répéter jusqu’à (critère d’arrêt) :

– d´edoubler chaque prototypex du dictionnaire enx+y,x−y;

– partitionner les exemples en les affectant aux prototypes dont ils sont le plus proche ; – red´efinir les prototypes (i.e. centres de gravit´e des partitions).

Q 2.1 Soit l’ensemble d’exemples en dimension 2 :

D={(1,3),(−2,2),(−1,2),(−3,2),(1,5),(1,4),(2,5),(2,6)}

Faire tourner l’algorithme des K-moyennes en prenant pour dictionnaire de départ les deux centres de gravité des 4 premiers et dernièrs exemples.

Q 2.2 Ecrivez le code octave de l’algorithme deK-moyennes.

Q 2.3 Faites tourner l’algorithme LBG sur les donn´ees D et ´ecrivez le code octave de l’algorithme LBG.

Q 2.4 Quels critères d’arrêt préconisez-vous pour les méthodes de QV ?

(2)

Exercice 3 – Carte auto-organisatrice (SOM)

Une carte auto-organisatrice est un r´eseau de neurones con¸cus pour l’apprentissage non-supervis´e.

Dans le cas d’une carte 2D, la carte est une grille de neurones n_i,j tel que chaque neurone possède un vecteur de poids noté wi,j . Nous considérerons une relation de voisinage entre les neurones V : N ×N → vrai, f aux telle que v(n_i,j, n_k,l) = vrai ssi n_i,j et n_k,l sont voisins. Typiquement, les voisins du neurone n_i,j sont les neurones ni−1,j, n_i+1,j, ni,j−1, n_i,j+1. Chaque neurone représente une des classes de notre problème de clustering.

L’algorithme est le suivant :

• initialiser les poids des neurones al´eatoirement.

• R´ep´eter :

– Pour chaque exemple x_k

– choisir le neurone le plus proche :argmin||x_k−wi,j||

– pour tous les neurones du voisinage (y compris lui-mˆeme), actualiser les poids en utilisant la r`egle : ∆w_i,j =ε(t)∗(x_k−w_i,j).

Faire tourner l’algorithme en utilisant une grille de en carré de 4 neuronnes de coordonnées (−1,−1), (1,−1), (−1,1), (1,1) et écrivez le code octave de l’algorithme.

Exercice 4 – TME : Algorithme des k-means

Q 4.1 Implémenter l’algorithme des k-moyennes qui prend en argument un nombrek de clusters à isoler et une base de donnéesX et qui retourne la classe Y des échantillons de la base X.

Cet algorithme est itératif, vous utiliserez dans un premier temps un critère d’arrêt simpliste basé sur le nombre d’itérations. Après avoir vérifier rapidement que votre implémentation est fonctionnelle, vous définirez un critère basé sur la stabilisation de la solution. Afin d’initialiser les moyennes simplement et efficacement, on propose d’affecter aléatoirement une classe à tous les points de la base puis de caluler la moyenne des différentes classes. Par ailleurs, vous utiliserez l’algorithme des k-ppv aveck= 1 pour partitioner la base d’exemple par rapport aux prototypes.

Q 4.2 Conduire des exp´eriences sur des bases jouets classiques et USPS en cachant les ´etiquettes.

Vous tracerez des frontières de décision pour les exemples 2D et comparerez les différents taux de bonne classification des approches supervisées et non-supervisées.

Exercice 5 – TME : Algorithme SOM

La fonction implémentant la méthode SOM vous est donnée : elle prend en paramètre les dimensions de la grille, la base d’apprentissage, le facteurεde mise à jour, la portée de la mise à jour et le nombre d’itérations à effectuer et retourne la grille apprise.

Q 5.1 Construire une fonction de projection des données sur la grille apprise. Vous êtes donc capable de projeter n’importe quelle donnée dans un espace 2D. Cela est pratique pour la visualisation de données de grande dimension.

Q 5.1.1 Utiliser la nouvelle fonction dataset avec l’option ruban afin de construire un exemple

(3)

jouet 3D. (Vous pouvez le visualiser en utilisant plot3d à la place de plot). Projeter ce jeu de données sur une grille SOM et visualiser le résultat.

Q 5.1.2 Si votre problème est bien programmé, vous pouvez passer à l’étape suivante : utiliser un kppv classique pour résoudre le problème de classification ruban puis tenter de représenter la frontière de décision sur la carte SOM.

Q 5.2 Réfléchir sur l’impact de lanormalizationdes données. Que se passe-t-il si les neurones de la grille sont initialisés à des valeurs proches de 0 et que les échantillons sont des images dont les pixels sont codés entre 0 et 2 (cf USPS).

Vous disposez d’une fonction normalisation permettant de remettre une base de données à une moyenne nulle et un écart type de 1.

Q 5.3 Proposer une solution pour visualiser la projection des donn´ees USPS sur une grille 20x20.

Q 5.4 Taux de bonne classificationa posteriori : affecter une classe `a chaque neurone en fonction des

´

eléments majoritairement projetés sur ce neurone. Calculer ensuite le taux de bonne classification des données projetées.

Q 5.5 Alternative : la pureté. On considère qu’un neurone est pur si toutes les données projetées sur ce neurone sont de la même classe. Calculer le taux de pureté moyen sur la grille. Afin de ne pas biaiser le calcul, le taux de pureté d’un neurone sera pondéré par le nombre d’échantillon projeté sur le neurone.

Exercice 6 – TME : Algorithme k-means pour la r´eduction de dimensionnalit´e

Faire tourner l’algorithme des k-ppv sur une base de données importante est très couteux en temps de calcul (c’est par exemple le cas sur les données USPS). Afin de réduire la complexité de méthode, on propose de résumer l’information contenue dans chaque classe. Les k moyennes obtenues sont en fait des représentants pour la classe à décrire.

On propose ensuite de réaliser un k-ppv dans l’espace des représentants (les nouveaux points sont comparés aux moyennes représentatives des différentes classes).

Q 6.1 Construire un script r´ealisant cette exp´erience.

Q 6.2 Quantifier l’intérêt de la stratégie en terme de temps de calcul.

Q 6.3 Quantifier la perte de performance le cas ´ech´eant.

(4)

2 Estimation de densit´ es

Exercice 7 – Estimation de densit´es : crit`eres M V et M AP

On se place dans le cadre de l’apprentissage supervisé. On dispose d’un ensemble de données d’apprentissage E, et on cherche à déterminer par apprentissage les paramètresθ optimaux d’un modèle M (on note le modèle Mθ), représentant au mieux les données.

Q 7.1 Exprimer le lien entre la probabilité de l’ensemble de données E conditionnellement à M_θ et la probabilité du modèle M_θ conditionnellement à l’ensemble des données,E.

Q 7.2 En déduire deux critères d’apprentissage possibles pour les paramètres θdu modèle M.

Q 7.3 A quelles conditions ces deux crit`eres sont-ils ´equivalents ?

Exercice 8 – Clustering et m´elange de lois

On souhaite estimer une densité de probabilité par un modèle de type mélange de gaussiennes. La probabilité d’une observationxest donnée par :p(x) =PL

l=1P_l.p(x|λ_l) où lesP_lsont les probabilités a priori des lois et lesp(x|λ_l) sont des lois gaussiennes caractérisées par leur moyenneµl et leur variance σ_l , i.e.λ_l = (µ_l, σ_l).

Q 8.1 Dessiner la loi de probabilit´e pourL= 2, P1 =P2 = 0.5, etµ1 = 1, µ2 = 3, σ1 = 1, σ2= 10.

Q 8.2 Quelles est la probabilité a posteriori qu’un exemple x aie été produit par la gaussienne l, p(λ_l|x) ?

Q 8.3 Expliquer comment l’apprentissage d’un mélange de lois peut être utilisé pour faire du clustering.

Q 8.4 Ecrire le code octave d’une fonction qui prend en entrée un modèle de type mélange de gaussiennes et un ensemble de données et qui renvoie le résultat du clustering de cet ensemble de données par le modèle.

L’en-tête de la fonction sera le suivant : Function [Clusters]=cluster melange(M, X) où M est une structure stockant les paramètres d’un modèle de mélange, X est une matrice N ∗p stockant un ensemble de données (N individus en dimension p) et Clusters est un tableau de dimension N contenant les numeros de clusters de chacun des exemples deX.

Exercice 9 – Apprentisage d’un m´elange de lois et maximum de vraissemblance

On souhaite apprendre le modèle de l’exerceice précedent avec un critère de maximum de vraisemblance (MV) sur une base d’apprentissageE ={x_i}, i= 1..N.

Q 9.1 Exprimer le logarithme de la vraisemblance des données par le modèle en supposant que les xi sont indépendants.

Q 9.2 Montrer que maximiser ce logarithme ou la vraisemblance directement doit aboutir th´eoriquement

`

a la mˆeme solution.

Q 9.3 On utilise un algorithme dit algorithme EM pour l’estimation de ce m´elange de gaussiennes.

Voici une des variantes de cet algorithme :

• initialiser les param`etres (P_i, µ_i, σ_i)_i=1..L;

(5)

• R´ep´eter :

– d´eterminer pour chaque xi la gaussienne qui l’a poduit avec la plus grande vraisseblance : pour i= 1..N,I(xi) =argmax_l p(λ_l|x_i) ;

– ré-estimer les paramètres des lois à partir des exemples qui lui ont été affectés : pour l = 1..L, ré-estimerλl à partir des{x_i ∈E|I(x_i) =l}

Ecrire un code octave de l’algorithme pr´ec´edent.

Q 9.4 Dans le cas où les matrices de covariance des lois sont fixées à l’identité, montrer que l’algorithme précédent est équivalent à un algorithme des K-Moyennes.

Exercice 10 – TME : m´elange de gaussiennes, EM et clustering

Dans cet exercice (et pour les suivants), pour engendrer des donn´ees de clustering en 2D, vous utiliserez par exemple :

xapp = [];

mu = [1 1; 1 -1; -1 1; -1 -1];

sigma = [0.2 0.4 0.4 0.05];

n = 30;

for i=1:length(sigma)

xtmp = randn(n,2)*sigma(i)+ones(n,1)*mu(i,:);

xapp = [xapp ; xtmp];

endfor

Q 10.1 Implémenter l’algorithme EM basé sur un mélange de gaussiennes (décrit dans l’exercice précedent). Les paramètres de la fonction devront être : k, le nombre de clusters et X la base de données. La fonction retourne la classe de chacun des échantillons dans un vecteur Y. On rappelle qu’une distribution de probabilité gaussienne de dimensiondsuit la loi suivante :

p(x) = 1

(2∗π)^d/2∗(det(Σ))^1/2∗exp

−1

2(x−µ)Σ⁻¹(x−µ)^T

, Σ = 1

NΣ^N_i=1(xi−µ)^T(xi−µ)∈R^d×d Algorithme :

1. Initialisation : afin de partir de valeurs raisonnables pour les (µ_i, σ_i), nous proposons d’affecter aléatoirement une classe à chacun des échantillons et d’identifier les (µ_i, σ_i).

2. Expectation : d´eterminer la classe des ´echantillons de X.

3. Maximisation : Calculer les nouveaux param`etres des gaussiennes (phase d’optimisation du mod`ele)

Q 10.2 Dans un premier temps, vous utiliserez des données artificielles gaussiennes en deux dimensions. Vous ferez tourner l’apprentissage à plusieurs reprise pour juger la stabilité de la méthode et vous comparerez les résultats avec l’algorithme desk-means.

Q 10.3 Afin d’évaluer la qualité des résultats, vous utiliserez les méthodesgenerateGridetplotIsocontours disponibles sur le site web de l’UE.

Q 10.4 Vous utiliserez ensuite le jeu de donn´eesIris.

(6)

Exercice 11 – Vraisemblance et ´evaluation de k en clustering

Dans la fonction précédente, vous ajouterez une variable score à retourner. Cette variable contiendra la log-vraisemblance du modèle : V_log_θ =Pn

i=1lnp(x_i, θ), avec : p(x_i|θ) =Pk j=11

kp(x_i|θ_j)

Vous effectuerez une série d’expériences dans une double bouclefor: vous ferez varierket pour chaque k vous effectuerez n_exp expérience afin de contre-balancer l’initialisation aléatoire. Pour chaque série d’expérience, vous garderez la meilleure vraisemblance. Après avoir justifié le fait de ne garder que la plus forte vraisemblance, vous tracerez la courbe des meilleures vraisemblances en fonction de k.

Exercice 12 – M´elange de gaussiennes et EM vs PMC en apprentissage supervis´e

Dans un problème de classification supervisée comme vous en avez traité dans les semaines passées, l’idée est d’estimer la densité de probabilité de chacune des classes de points. Une fois les modèles construits, il suffit pour chaque nouveau point de trouver la classe la plus probable.

Q 12.1 Pour chaque classej, vous estimerez les param`etresθj ={k,{θ₁,· · ·, θk}}_j en maximisant la vraisemblance : V_log_θ =PⁿCj

i=1lnp(x_i ∈C_j|θ).

Q 12.2 Pour chaque pointx, vous estimerez la probabilité d’appartenance à un modèlej, c’est à dire la probabilité d’appartenance à une classej.

Q 12.3 Vous comparerez les taux de bonne classification sur des problèmes jouets et sur des problèmes réels (données du site web de l’uv).

(7)

3 Chaˆınes de Markov

Une chapine de Markov est un automate à états finis défini par : – un ensemble d’états ;

– un ensemble de probabilit´es d’´etats initiaux ;

– un ensemble de probabilit´es de transitions entre ´etats.

Il s’agit d’un générateur aléatoire de séquences.

On considère des chaˆınes de Markov permettant de modéliser la météo. Une chaˆıne permet de modéliser la météo dans une ville. Un état d’une chaˆıne correspond au climat observé pour un jour donné (Soleil, Nuage ou Pluie) dans la ville. Chaque jour, on change d’état suivant la loi de probabilités de transitions associée à l’état courant. On prendra comme convention que l’état 1 correspond à Soleil, l’état 2 à Nuage, l’état 3 à Pluie.

Exercice 13 – Probabilité d’une séquence, génération aléatoire d’une séquence

On suppose que les param`etres de la chaˆıne de Markov pour Paris sont les suivants (dans l’ordre les observations sont S N P) :

– probabilit´es initiales : Π = [0.2,0.3,0.5]

– probabilit´es de transitions : A=





0.2 0.4 0.4 0.3 0.4 0.3 0.2 0.3 0.5





Q 13.1 Calculez la probabilité de la séquence d’états suivante : N, N, S, N, N, P, P, N, P, S, S, P.

Généralisez au cas quelconque d’une séquence.

Q 13.2 On souhaite utiliser la chaˆıne de Markov précédente pour générer aléatoirement une séquence de climats journaliers.

Pour cela, on utilise la procédure suivante : on considère une distribution de probabilités sur un ensemble fini d’événements E = {e₁, . . . , eN} possibles. Cette distribution est donc définie par des probabilités associées aux événementsp(e₁), . . . p(e_N), avecP

p(e_i) = 1.

Pour tirer un événement au hasard informatiquement avec une distribution de ce type (tirage type roulette), on découpe le segment [0,1] en autant de tranches qu’il y a d’événements, la tranche correspondant àe_i ayant une largeur égale àp(e_i). Ensuite, on utilise un générateur aléatoire uniforme entre 0 et 1, et on regarde dans quelle tranche on tombe. L’événement tiré aléatoirement est celui correspondant à la tranche dans laquelle on tombe . On utilise cette procédure pour tirer au hasard le premier état, puis la transition à partir de cet état, etc ... Les nombres donnés par le générateur aléatoire (entre 0 et 1) sont : 0.21,0.63,0.92,0.87,0.01,0.35,0.01,0.43,0.55. Quelle est la séquence de climats journaliers générée avec ces tirages ?

Q 13.3 Ecrire le code octave d’une fonction prenant en paramètres une chaˆıne de Markov et une longueur de séquence et qui produit une séquence d’observations générée par la chaine.

Q 13.4 Ecrire le code octave d’une fonction prenant en paramètres une chaˆıne de Markov et une séquence d’observations, et qui produit en sortie la probabilité de la séquence par la chaˆıne.

(8)

Exercice 14 – Exemple de classification avec des CMs

On vous donne la séquence de climats journaliers suivante (S, S, P, P, N, S) et on vous demande en quelle ville (Paris ou Marseille) cette séquence a été observée. Pour cela, on dispose de deux chaˆınes de Markov, l’une correspondant au climat de Paris, l’autre au climat de Marseille. Les paramètres de ces deux chaˆınes sont les suivants :

Π = [0.2,0.3,0.5] Π = [0.5,0.3,0.2]

Paris : A=





0.2 0.4 0.4 0.3 0.4 0.3 0.2 0.3 0.5



 Marseille : A=





0.5 0.3 0.2 0.4 0.4 0.2 0.2 0.5 0.3





Exercice 15 – Apprentissage des param`etres d’une chaˆıne de Markov

On observe une séquence d’observations et on souhaite apprendre les paramètres de la chaˆıne de Markov qui a généré cette séquence d’observations. Soit la séquence de symboles suivante : P N S P N S P.

Q 15.1 Déterminez les fréquences d’apparition des symboles et celle des bigrammes (suite de deux symboles). En déduire les paramètres de la chaˆıne de Markov permettant de modéliser le processus sous jacent qui a généré la séquence précédente. Dressez la matrice de transition d’ordre 1.

Q 15.2 Ecrire le code octave d’une fonction d’apprentissage d’une CM qui prend en param`etres une s´equence d’apprentissage et qui produit la CM qui maximise la vraisemblance de cette base.

Q 15.3 Ecrire le code octave d’une fonction d’apprentissage d’une CM qui prend en param`etres une base d’apprentissage de s´equences et qui produit la CM qui maximise la vraisemblance de cette base.

Exercice 16 – Apprentissage des param`etres d’un m´elange de chaˆınes de Markov

On observe des séquences d’observations et on souhaite apprendre les paramètres d’un mélange de chaˆıne de Markov qui a généré cet ensemble de séquences d’observations.

Q 16.1 En vous inspirant de l’algorithme des K-Moyennes imaginer une strat´egie pour r´ealiser un tel apprentissage.

Q 16.2 Ecrire le code octave correspondant.

Exercice 17 – TME : expérimentations sur les données Vélib

Q 17.1Impl´ementation des fonctions vues en TD

Q 17.1.1 Ecrivez le code correspondant à la génération d’un ensemble deN séquences de longueur T par une chaine de Markov passée en paramètre. La chaine est stockée dans un array contenant le vecteurP I et la matriceA.

Q 17.1.2 Ecrivez le code pour l’apprentissage d’une chaˆıne `a partir d’une base d’apprentissage.

On veut tester l’apprentissage d’une chaˆıne de Markov en utilisant les fonctions précédentes pour une chaˆıne de Markov que vous définirez vous même (telle que celle vue en TD).

(9)

Q 17.1.3 Définissez un critère de comparaison entre une chaˆıne génératrice et une chaˆıne apprise.

Q 17.1.4 Tracez l’´evolution du crit`ere en fonction de la taille de la base d’apprentissage.

Q 17.2Pr´esentation des donn´ees

Nous vous fournissons des données correspondant au système de vélos Velib à Paris (www.velib.fr).

On dispose d’informations sur le nombre de v´elos disponibles pour chaque station et pour des relev´es

`

a peu pr`es r´eguliers (environ tous les 1/4 d’heure), pour un jour d’Octobre 2007.

– Les données de la journée vous sont fournies sous la forme d’une matrice. Il y a autant de lignes qu’il y a eu de relevés dans la journée, et autant de colonnes qu’il y a de stations Velib.

– Par ailleurs on vous fournit les coordonnées (longitude et latitude) de chacune des stations, coor- données à partir desquelles vous pouvez déterminer la proximité entre stations (un plot des stations (longitude, latitude) vous affiche la carte des stations).

– Pour terminer, le fichier No Stations vous fournit une table [no, no_reel] permettant d’établir la correspondance entre les numéros de stations dans les données que nous vous fournissons (Les stations ont été renumérotées de 1 à 848 pour faciliter les traitements) et les numéros de stations réels (i.e. ceux que vous pouvez récupérer sur le site de Velib). Le numéro de station réel commence par l’arrondissement (de 1 à 20 ). Pour info, le fichier Liste Stations Avec Nomsvous liste l’ensemble de toutes les stations velib (932), avec leurs numéros réels, coordonnées, et adresses.

– Le nombre de stations (848) ne correspond pas au nombre r´eel de stations (932) certaines stations

´

etant soit en disfonctionnement lors de la collecte des données, et d’autres stations étant trop particulières pour être traitées ici (e.g. mobiles). Il peut être intéressant de ne pas utiliser les données brutes mais de les discrétiser, de les normaliser, etc.

Q 17.3Classification des stations par arrondissement

Q 17.3.1 Créez une base de données des stations du 4ème et du 16ème arrondissements en utilisant un codage brut du nombre de vélos disponibles.

Q 17.3.2 Apprenez une chaˆıne de Markov pour chacun des deux arrondissements en utilisant une partie de la base pour l’apprentissage et le reste pour le test. À quel taux pouvez vous reconnaˆıtre l’arrondissement d’une station à partir de l’évolution des vélos disponibles ?

Q 17.3.3 Essayez en changeant le codage. On utilise maintenant des données différentielles en s’intéressant à l’évolution de la différence entre le nombre de vélos disponibles à un instant donné et

`

a l’instant précédent. Cela change-t-il les résultats ?

Q 17.3.4 Essayez en changeant encore le codage. Par exemple on peut avoir un état pour une paire (tranche horaire, nombre de vélos disponibles) qui permet d’introduire une information temporelle dans le modèle.

Q 17.4Apprentissage d’un m´elange de chaˆınes pour l’ensemble des stations

Q 17.4.1 On souhaite maintenant apprendre un m´elange de chaines de Markov d’ordre 1. Utilisez le code octave vu en TD pour cela.

Q 17.4.2 Utilisez la chaˆıne apprise pour clusteriser les stations.

Q 17.4.3 Tracez la carte des stations avec des couleurs différentes pour chaque cluster. Identifiez- vous des groupes cohérents de stations (stations proche d’une gare, stations en haut d’une côte, stations utilisées pour rentrer le soir après le cinéma, ...) ?

Q 17.4.4 On change le codage et on s’intéresse maintenant à des données différentielles. Cela change-t- il les résultats ?

(10)

4 Mod` eles de Markov Cach´ es

On a étudié précédemment les Chaˆınes de Markov (CMs). Ce sont des modèles aléatoires génératifs de séquences. Les CMs peuvent être utilisées pour faire de la modélisation de séquences, de la prévision, de la classification de séquences, etc. On se propose dans ce TD d”étudier les Modèles de Markov Cachés (MMCs). Ce sont, eux aussi, des modèles aléatoires génératifs, mais plus puissants que les CMs.

Exercice 18 – Exemple de mod´elisation de climat

On a utilisé précédemment une CM pour modéliser des séquences de climats journaliers (Soleil, Nuage, Pluie). Les observations étaient les climats journaliers et correspondaient aux états de la CM. Nous allons maintenant changer de point de vue. On considère que le climat (Soleil, Nuage, Pluie) est une observation qui dépend d’un certain nombre K de facteurs (par exemple la pression atmosphérique, la température, ...).

Dans un souci de simplification on considère que ces facteurs ne peuvent prendre qu’un nombre fini de valeurs (pression forte, modérée, faible par exemple ⇒ 3 valeurs) et on considère toutes les com- binaisons possibles de valeurs des K facteurs. Imaginons qu’il y ait N K-uplets possibles. Alors on modélisera le processus par un MMC à N états. Et, dans chaque état, toutes les observations (Soleil, Nuage, Pluie) pourront être observées mais avec des probabilités variables (on parlera de probabilités d’émission associées aux états).

Dans un MMC, les états sont en nombre fini, et l’enchaˆınement des états est régi par une chaˆıne de Markov d’ordre 1. Par contre les états ne sont pas directement observables, ils caractérisent d’une certaine fa¸con l’état interne du processus. A chaque état est associée une loi de probabilité d’émission, qui correspond aux probabilités d’observer les différentes observations (Soleil, Nuage, Pluie) lorsque l’on est dans cet état.

On suppose qu’on dispose d’un modèle de Markov modélisant la météo. Les observations sont Soleil, Nuage, Pluie. Le modèle possède 2 états modélisant les divers états conditionnant le climat (deux configurations de température / pression etc). A chaque état est associée une loi de probabilité d’émission sur les observations,P(obs|etat).

On suppose que les param`etres de la chaˆıne de Markov sont les suivants :

• probabilit´es initiales : Π = (0.5,0.5)

• probabilit´es de transitions : A=

0.6 0.4 0.1 0.9

• probabilit´es d’´emission :

pour l’´etat 1 :p(o|s₁) = [0.5,0.2,0.3], p(S|s₁) = 0.5,p(N|s₁) = 0.2,p(P|s₁) = 0.3 pour l’´etat 2 :p(o|s₂) = [0.1,0.3,0.7], p(S|s₂) = 0.1,p(N|s₂) = 0.3,p(P|s₂) = 0.6

Q 18.1 Un MMC est un modèle de génération aléatoire de séquences. On peut générer une séquence d’observations aléatoirement de la fa¸con suivante :

• Initialisation :

– niveau état : on tire un état initial au hasard avec la loi de probabilités des probabilités d’états initiaux de la CM. Cet état est l’état courant.

– niveau observation : on tire aléatoirement une observation avec la loi de probabilité d’émission associée à l’état courant.

• It´eration :

(11)

– niveau état : on tire aléatoirement le nouvel état courant avec la loi de probabilité définie par les probabilités de transitions à partir de l’état courant.

– niveau observation : on tire aléatoirement une observation avec la loi de probabilité d’émission associée à l’état courant.

On utilise la même procédure que celle décrite pour les CMs pour tirer au hasard avec une loi de probabilité discrète.

On vous donne la séquence de nombres tirés aléatoirement avec un générateur aléatoire informatique (uniforme entre 0 et 1) : 0.1 0.55 0.45 0.3 0.01 0.23 0.98 0.54 0.78 0.89

Déterminez la séquence d’états et d’observations générées.

NB : En règle générale, on observe un phénomène (séquence de climats journaliers par exemple) mais on ne connaˆıt pas la séquence d’états sous-jacente. C’est pourquoi on dit que ce sont des Modèles de Markov Cachés.

Q 18.2 Ecrire une fonction octave qui produit aléatoirement une séquence pour un modèle donné en paramètre.

Q 18.3Exploitation du modèle : calcul de la probabilité d’une séquence d’observations.

Calculer la probabilité de la séquence N, S, S, P, P. Ecrire le code octave de calcul de la probabilité d’une séquence d’observations.

Q 18.4Exploitation du mod`ele : d´ecodage.

Calculer la séquence d’états la plus probable pour cette séquence d’observations. Ecrire le code octave pour l’algorithme de Viterbi. Ecrire une fonction de calcul approximé de la probabilité d’une séquence qui renvoie le max sur tous les chemins possibles de la probabilité jointe de la séquence d’observations et de la séquence d’états.

Exercice 19 – Modélisation d’expériences avec un dé truqué

Q 19.1 On considère un dé truqué, les probabilités des six faces sont : 0.1,0.1,0.1,0.2,0.2,0.3.

Déterminez un MMC qui permette de modéliser des séquences de tirages avec ce dé : Nombre d’états, probabilités initiales et matrice de probabilités de transitions.

Q 19.2 On considère maintenant deux dés truqués et une pièce truquée. Les dés ont des probabilités de faire apparaˆıtre les faces 1 à 6 égales à [0.1,0.1,0.1,0.2,0.2,0.3] pour le dé 1 et [0.3,0.2,0.1,0.2,0,0.2]

pour le dé 2. La pièce a une probabilité 0.4 de tomber sur Pile et 0.6 sur Face.

Une personne observe la procédure suivante pour générer des séquences de nombres de 1 à 6 (elle ne vous communique que la séquence des faces des dés tirés).

– Elle commence par tirer au hasard avec la pièce (Pile = dé 1 ; Face = dé 2) le dé avec lequel il tirera le prochain nombre.

– Avec ce d´e, il tire un nombre.

– Avec la pièce il détermine avec quel dé il tirera le prochain nombre. Avec ce dé il tire un nombre, etc...

Déterminez un MMC (architecture et paramètres) permettant de modéliser ce processus.

Remarque : les MMCs sont une instance demodèles à états, dont le comportement est donné par les deux équations suivantes : st = f(st−1) +et, ot = g(st) +εt où st désigne l’état du processus, et o_t l’observation générée à cet instant. Les MMcs sont un modèle à états particulier dans lesquels l’état est discrétisé .

(12)

Exercice 20 – Extrait examen juin 2004, Modélisation de séquences d’observations On ne considère que des observations discrètes, i.e. appartenant à un ensemble fini Σ d’observations possibles.

On considère un alphabet à 4 symboles Σ = {a, b, c, d} et une base de données d’apprentissage con- stituée de 4 séquences X={aaba, aabc, aaca, aacb}.

Q 20.1 Dessinez un modèle de Markov caché (en explicitant les probabilités de transition et les lois de probabilités d’émission) qui maximise la vraisemblance de X. Ce modèle est-il unique ? Que vaut la vraisemblance de chacune des séquences calculée par votre modèle ? Que vaut la vraisemblance de X calculée par votre modèle ?

Q 20.2 Donnez des indications succinctes sur la fa¸con de construire un MMC maximisant un ensemble de s´equences X quelconque.

On considère maintenant les ensembles de séquences E₁ = {a^∗b}, E₂ = {(ab)^∗}, E₃ = {(ab^∗)^∗}, E4 ={aⁿbaⁿ, n∈N}, où x^∗ représente l’ensemble des séquences constituées d’un nombre quelconque de répétitions dex, etxⁿreprésente la séquence constituée de n répétitions de x.

On dit qu’un MMC accepte une séquencesparticulière si la probabilité descalculée par le MMC est non nulle.

Q 20.3 Peut-on construire un modèle de Markov (chaˆıne de Markov ou MMC) acceptant l’ensemble de séquences E1? Si la réponse est oui, explicitez le MMC, sinon expliquez succinctement pourquoi.

Q 20.4 Idem pourE2? Idem pourE3? Idem pourE4?

Exercice 21 – Système de reconnaissance de l’écriture manuscrite en ligne par HMM Attention: Les quantités pour lequel le nom est précédé d’un # (par exemple, #NIV, #NE etc), sont susceptibles d’être modifiées lors des tests que vous effectuerez pour mettre au point votre système.

Vous devez donc faire attention, pour ces variables particuli`erement, `a utiliser des noms de variables dans vos programmes.

Q 21.1Acquisition de donn´ees

But :Affichage de trac´es de lettres isol´ees acquis avec une tablette graphique.

On vous fournit des fichiers Lettre Numéro.sig où Lettre est le caractère écrit ( a à z ), Numéroest le numéro du tracé (1 à 10).

Ces fichiers contiennent le signal prétraité de manière à transformer les signaux acquis dans l’étape précédente de fa¸con à les normaliser, avant de les traiter dans le système de reconnaissance. Plusieurs

´

etapes sont n´ecessaires, d´ecrites ci-dessous :

• Il faut d’abord lisser le signal par un filtre interpolateur du type : P oint(t) = [P oint(t−1) + 2∗ P oint(t) +P oint(t+ 1)]/4

• Il faut normaliser le signal par la méthode des boˆıtes englobantes. Pour cela, il faut déterminer les ordonnées minimum et maximum du signal, ymax et ymin, puis déterminer l’échelle de la normalisation pour que le signal après normalisation soit compris entre les ordonnées 0 et 1, enfin mettre à l’échelle le signal en appliquant la mise à échelle sur les points du tracé (en abscisse et en ordonnée).

• Il faut ré-échantillonner le signal spatialement. Cela consiste à sélectionner les points dans le tracé de fa¸con à ce que deux points consécutifs soient distants l’un de l’autre d’une valeur fixe, égale à 1/8. Cela signifie qu’un tracé vertical sera représenté par 9 points.

Le principe est de considérer la trace écrite étirée selon l’axe des x, puis de répartir les points de

(13)

mani`ere uniforme. Si size est la distance entre les points, alors le nombre de segments ´egaux (i.e.

le nouveau nombre de points) est donn´e par : nsteps=ceil(Lmax/size), o`u : Lmax =long(jmax) = Pjmax

i=1 d(Pi, Pi−1) représente la longueur cumulée totale de la trace écrite. Puis on réestime la distance entre deux points à partir de n_steps connaissant L_max :step=L_max/n_steps.

L’algorithme est le suivant :

– Pour chaque nouvelle abscisse (le long de la trace étirée) donnée par : pos = k ∗step, pour k= 0..nsteps−1, chercher le point Pj+1 de la trace le plus proche de cette position et vérifiant pos < long(j+ 1).

– Estimer alors les coordonn´ees du nouveau point P⁰(x⁰, y⁰) ayant la position pos sur l’axe des longueurs, par interpolation lin´eaire :PjP⁰= (long(j+1)−long(j))^P^j^P^j+1 ∗(pos−long(j)).

• Pour finir, on procède à l’extraction de caractéristiques.

Q 21.1.1Discrétisation des angles.Les angles sont codés entre 0 et 360˚. Vous devez quantifier ces angles, ce qui permettra d’utiliser des HMMs discrets beaucoup plus simples à mettre en oeuvre.

On discrétise les angles de 0˚ à 360˚ en #NIV (par exemple 12) niveaux répartis uniformément entre 0 et 360˚. Après cette étape de prétraitements, le signal d’une lettre est représenté par une séquence de numéros (compris entre 1 et #NIV).

Vous pouvez invoquer cette procédure de discrétisation à chaque fois que vous traitez un signal de lettre ou bien réaliser cette étape une fois pour toutes, en sauvegardant tous les signaux discrétisés dans de nouveaux fichiers de nom Lettre Numéro.pre par exemple.

Q 21.1.2 Affichage des tracés. Ecrire une procédure d’affichage d’un tracé, en utilisant le fait que les angles d’un signal correspondent à des angles de la tangente à la courbe en des points

´

equidistants spatialement. Il suffit donc de calculer le sinus et le cosinus d’un angle en un point pour connaˆıtre le d´eplacement en x et en y jusqu’au prochain point. Testez sur quelques trac´es.

Q 21.2Programmation de mod`ele markoviens en inf´erence

On s’intéressera essentiellement à des MMCs de topologie Gauche-Droite, i.e. il existe un état initial, un état final, les transitions autorisées sont d’un état vers lui-même et d’un état vers le suivant. On vous demande d’écrire des fonctions de base d’utilisation de modèles Markoviens cachés de topologie standard et de topologie GD, pour des observations discrètes (la loi d’émission dans un état est une table), ou réelles en dimension 1 (les lois d’émission sont gaussiennes). On vous demande d’écrire les fonctions suivantes pour les différents types de modèles envisagés :

– génération d’une séquence

– de calcul de la probabilité d’une séquence (approximation par le max, travail en log) – de décodage d’une séquence.

Q 21.3Tests avec des modèles définis à la main

Dans un premier temps vous définirez des modèles à la main et chercherez à définir des paramètres probables pour différents caractères. Vous mettrez en place des fonctions permettant le calcul de performances sur vos données.

Evaluer le comportement de votre syst`eme de reconnaissance de lettres isol´ees en testant d’une part sur les signaux appris (#NA premiers exemples par lettre), d’autre part sur les signaux non appris (autres exemples par lettre).

Présentez vos résultats sous la forme d’une matrice de confusion de la forme suivante [C_ij]_i,j où C_ij

(14)

de reconnaissance global, i.e. le pourcentage d’exemples qui sont bien reconnus.

Evaluez l’importance du nombre d’´etats, et du nombre de niveaux de discr´etisation sur le taux de reconnaissance.

Q 21.4Apprentissage de mod`ele de lettres isol´ees.

But : Programmer des Modèles de Markov pour les caractères isolés.

On choisira des MMCs de topologie Gauche-Droite, i.e. il existe un état initial, un état final, les transitions autorisées sont d’un état vers lui-même et d’un état vers le suivant. Le nombre d’états (#NE) est à fixer de fa¸con heuristique, de 3 à 10.

L’apprentissage du système consiste à apprendre indépendamment le modèle de chaque caractère. Le modèle d’un caractère est appris à partir d’un ensemble de tracés d’apprentissage du caractère, les

#NA (5 par exemple) premiers trac´es.

L’apprentissage sera réalisé grâce à un algorithme de type Viterbi, qui est une approximation de l’algorithme standard (Baum-Welch) des MMCs. Pour apprendre le modèle MMC d’une lettre, on utilisera l’algorithme suivant :

• Initialiser le mod`ele MMC

• It´erer (plusieurs passages de la base d’apprentissage) – Pour chaque exemple de la base d’apprentissage

– En utilisant le MMC actuel, segmenter le signal de l’exemple avec le MMC (i.e. assigner chaque trame à un état du MMC). Utiliser l’algorithme de Viterbi. Mémoriser les observations associées

`

a chaque état (i.e. émises dans l’état) ainsi que les transitions entre états et l’état initial.

– Ré-estimer les paramètres de chaque état du MMC, ce qui donne un nouvel MMC.

– On recalcule les probabilit´es de transition par des comptages. La probabilit´e de transition d’un

´

etat e vers un état s est recalculée par le rapport entre le nombre de transitions observées de l’état e vers l’état s et le nombre de stationnements dans l’état e (i.e. le nombre de transitions

`

a partir de e).

– On ré-estime la probabilité d’émission d’un symbole dans un état par le rapport entre le nombre de fois où le symbole est émis par l’état et le nombre total de symboles émis par l’état.

• Jusqu’à critère d’arrêt (stabilisation de la vraisemblance, #itérations maximum atteint, etc)

L’initialisation est une phase essentielle de l’apprentissage de tels modèles. Une bonne fa¸con de faire consiste à faire une première passe en segmentant linéairement les tracés, et à estimer les paramètres du modèle à partir de ces segmentations.

NB : L’initialisation d’un MMC Gauche Droite est généralement réalisée par un alignement linéaire des séquences d’apprentissage sur les états du MMC.

Q 21.5Programmation de mod`ele de lettres isol´ees.

Evaluer le comportement de votre syst`eme de reconnaissance de lettres isol´ees en testant d’une part sur les signaux appris (#A premiers exemples par lettre), d’autre part sur les signaux non appris (autres exemples par lettre).

Evaluez l’importance du nombre d’états, et du nombre de niveaux de discrétisation sur le taux de reconnaissance. Utilisez une procédure de cross-validation pour obtenir des résultats plus fiables. Vous pouvez également relacher la structure gauche-droite des modèles en autorisant des sauts entre deux

´

etats non cons´ecutifs dans un mod`ele.

(15)

5 Mod` eles de Markov Cach´ es - apprentissage

Exercice 22 – Mise en jambe

Q 22.1Formalisation de l’apprentissage d’un MMC.

Généralement on apprend un MMC à partir d’une base de données d’apprentissage non étiquetée, c’est-à-dire constituée d’un ensemble de séquences d’observations, mais sans les séquences d’états associées. On commence par se placer dans ce cadre.

Q 22.1.1 On suppose que l’on dispose d’une base d’apprentissage d’une seule s´equenceBA={O¹}.

Quelle propriété satisfait le modèle λqui maximise la vraisemblance des données d’apprentissage ?

Q 22.1.2 On suppose que l’on dispose d’une base d’apprentissage deN s´equencesBA={O¹, O², ..., O^N}.

Quelle propriété satisfait le modèle λqui maximise la vraisemblance des données d’apprentissage ? Q 22.1.3 On considère maintenant le cas d’une base de données d’apprentissage étiquetée, c’est-

`

a-dire constituée d’un ensemble de couples (séquence d’observations, séquence d’états). On suppose que l’on dispose d’une base d’apprentissage étiquetée deNséquencesBA={(O¹, Q¹),(O², Q²), ...,(O^N, Q^N)}.

Quelle propriété satisfait le modèle λqui maximise la vraisemblance des données d’apprentissage ? Q 22.2Difficulté de l’apprentissage d’un MMC.

On considère le cas d’une base de données d’apprentissage non étiquetée. On vous fournit la séquence d’observations O = (1,2,1,1,3,2) produite par un modèle Markovien, mais on ne vous dit pas par quel type de modèle (nombre d’états etc) cette séquence a été produite, ni la séquence d’états corre- spondante.

Q 22.2.1 Quel modèle Markovien maximise la vraisemblance de la séquence O (nombre d’états, lois de probabilité de transitions et d’émission) ? Quel est son pouvoir de généralisation ?

Q 22.2.2 En supposant que la séquence a été générée par un modèle MMC à 1 état, quels sont les paramètres de ce modèle ?

Q 22.2.3 On suppose que cette séquence a été générée par un MMC à deux états. Proposez des paramètres pour ce modèle. Pouvez-vous prouver que votre modèle est localement optimal ? Vous commencerez par définir ce que signifie localement optimal.

Q 22.3Apprentissage en présence de données étiquetées.

On change de cadre maintenant et on suppose que l’on vous fournit comme corpus d’apprentissage des données étiquetées, c’est-à-dire un ensemble de couples (séquence d’observations, séquence d’états).

On considère une base d’apprentissage constituée d’une séquence BA = {(O = (1,2,1,1,3,2), Q = (1,1,1,2,2,2))}et on vous demande le MMC qui maximise la vraisemblance de cette base d’apprentissage.

Q 22.3.1 Quel est le nombre d’´etats du MMC ?

Q 22.3.2 Quels sont les paramètres du modèle optimal ? Pouvez-vous démontrer son optimalité ? On généralise maintenant en considérant une base d’apprentissage étiquetéeBA={(O¹, Q¹), . . . ,(O^N, Q^N)}.

Q 22.3.3 Comment trouve-t-on le nombre d’´etats du mod`ele optimal ?

Q 22.3.4 Comment détermine-t-on les paramètres de ce modèle optimal ? Décrire l’algorithme pour réaliser cela (sans l’écrire en octave).

(16)

Exercice 23 – Apprentissage de mod`eles de Markov

Q 23.1Par alignement lin´eaire pour les mod`eles gauche-droite.

On considère un modèle Markovien de structure Gauche-Droite (c’est-à-dire dont le seul état initial est le premier, le seul état final est le dernier, et de matrice de probabilités de transitions diagonale supérieure.

Une stratégie simple pour apprendre un tel modèle à partir d’une base non étiquetée consiste à aligner linéairement les séquences d’observations sur le modèle gauche droite, c’est-à-dire que chaque état produit le même nombre d’observations dans une séquence donnée. Et de supposer que ces séquences d’états sont les vraies séquences d’états.

Q 23.1.1 Que donne cette stratégie pour un modèle à 2 états appris sur la base BA = {O = (1,1,1,2), Q= (1,1,1,1,2)}? Le modèle obtenu est-il optimal ?

Q 23.1.2Ecrire un code octave qui impl´emente cette strat´egie d’apprentissage.

Q 23.2Apprentissage par Baum-Welch simplifi´e.

On considère une version simplifiée de l’algorithme classique dit de Baum-Welch qui est utilisé pour maximiser la vraisemblance d’un corpus d’apprentissage non étiqueté. Cet algorithme simplifié consiste

`

a itérer la ré-estimation des paramètres du modèle à l’aide d’un algorithme de type EM (même famille de modèles queK-Moyennes). À une itération donnée, on dispose d’une estimation des paramètres du modèle, et on en cherche de nouveaux, meilleurs. Pour cela, on utilise deux étapes :

– on estime les variables cachées, cad la séquence d’états qui a produit chacune des séquences d’apprentissage par décodage (algorithme de Viterbi réalisé avec les anciens paramètres) ;

– on maximise la vraisemblance avec les données complètes (séquences d’observations et séquences d’états). Cela donne une nouvelle estimation des paramètres du modèle.

On vous demande d’écrire le code octave nécessaire à la mise en œuvre de cet algorithme pour un modèle Gauche-Droite. Pour cela vous pouvez partir de la fonction de haut niveau suivante.

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

% X = base de s´equences (une par ligne)

% K = nb ´etats

% V = Nb symboles

% MMC GD Discret

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

function M=ApprendMMCGD(X, K, V) M=InitMMCGD(X,V,K);

N=size(X)(1); % Nb s´equences app Ite=1;

IteMax=10;

while (Ite<IteMax)

Stats=InitZerosMMC(V, K);

PI=Stats{1};

A=Stats{2};

B=Stats{3};

for i=1:N

StatsTemp=CompteMMC(M, X(i,:),K);

PI = PI + StatsTemp{1};

A = A + StatsTemp{2};

B = B + StatsTemp{3};

(17)

end;

%lissage

M= reestimeMMCGD(A,B,PI);

Pmoy= CalculeProbaBaseMMCGD(M,X);

Ite+=1;

end;

Identifiez le rôle des différentes fonctions et les écrire.

Q 23.3Astuces num´eriques.

L’implémentation de MMC pose souvent des problèmes numériques. C’est notamment le cas pour le calcul des quantités alpha nécessaires pour calculer la vraisemblance d’une séquence par un modèle donné.

Q 23.3.1 Rappelez les formules de r´ecurrences sur les quantit´esαt(i) =p(x^t₁, qt=i)

Q 23.3.2 Imaginez le type de probl`eme que l’on peut rencontrer en calculant ces quantit´es et pourquoi ?

Q 23.3.3 Imaginez des solutions pour remédier à ce problème.

Q 23.4Apprentissage par Baum-Welch.

La simplification dans l’algorithme de l’exercice 6 vient du fait qu’à chaque itération, on estime les variables cachées, cad la séquence d’états qui a produit chacune des séquences d’apprentissage, puis on suppose que ces séquences d’états sont les vraies séquences. En réalité l’algorithme de Baum Welch itère le calcul d’une distribution sur les variables cachées, puis se sert de cette distribution pour déterminer les nouveaux paramètres.

Q 23.4.1 En supposant que vous disposez d’une distribution sur les variables cachées sous la forme de probabilités suivantes : γ_t(i) =p(q_t=i|o^T₁, λ) etγ_t(i, j) =p(q_t=i, q_t+1 =j|o^T₁, λ), déterminez les paramètres du nouveau modèle.

Un algorithme tout à fait semblable à celui permettant de calculer lesα (mais qui part det=T pour remonter àt= 1) permet de calculer des probabilités du type β_t(i) =P(x^T_t+1|q_t=s_i, λ).

Q 23.4.2 Montrez queγ peut s’exprimer en fonction de quantit´esα etβ.

Q 23.4.3 En d´eduire un algorithme pour calculer lesγ.