• Aucun résultat trouvé

2. P D V 1. P T P C M C C S

N/A
N/A
Protected

Academic year: 2022

Partager "2. P D V 1. P T P C M C C S"

Copied!
2
0
0

Texte intégral

(1)

Master M1 UPMC Module MQIA

C

HAINES DE

M

ARKOV POUR LA

C

LASSIFICATION ET LE

C

LUSTERING DE

S

ÉQUENCES

1. P

ROGRAMMATIONET

T

ESTS

P

RÉLIMINAIRES

Codage des fonctions vues en TD.

1. Ecrivez le code correspondant à la génération d'un ensemble de N séquences de longueur T par une chaine de Markov passée en paramètre. La chaine est stockée dans un array

contenant le vecteur Pi et la matrice A.

2. Ecrivez le code pour l'apprentissage d'une chaîne à partir d'une base d'apprentissage.

On veut tester l'apprentissage d'une chaîne de Markov en utilisant les fonctions précédentes pour une chaîne de Markov que vous définirez vous même (telle que celle vue en TD).

3. Définissez un critère de comparaison entre une chaîne génératrice et une chaîne apprise.

4. Tracez l'évolution du critère en fonction de la taille de la base d'apprentissage.

2. P

RÉSENTATION DES

D

ONNÉES

V

ELIB

Nous vous fournissons des données correspondant au système de vélos Velib à Paris (www.velib.fr). On dispose d’informations sur le nombre de vélos disponibles pour chaque station et pour des relevés à peu près réguliers (environ tous les ¼ d’heure), pour un jour d’Octobre 2007.

o Les données de la journée vous sont fournies sous la forme d’une matrice. Il y a autant de lignes qu’il y a eu de relevés dans la journée, et autant de colonnes qu’il y a de stations Velib.

o Par ailleurs on vous fournit les coordonnées (longitude et latitude) de chacune des stations, coordonnées à partir desquelles vous pouvez déterminer la proximité entre stations. (un plot des stations (longitude, latitude) vous affiche la carte des stations.

Matrice Infos_Stations

o Pour terminer, le fichier No_Stations vous fournit une table [no, no_réel] permettant d’établir la correspondance entre les numéros de stations dans les données que nous vous fournissons (Les stations ont été renumérotées de 1 à 848 pour faciliter les traitements) et les numéros de stations « réels » (i.e. ceux que vous pouvez récupérer sur le site de Velib). Le numéro de station « réel » commence par l'arrondissement (de « 1 » à « 20 »). Pour info, le fichier Liste_Stations_Avec_Noms vous liste l’ensemble de toutes les stations velib (932), avec leurs numéros réels, coordonnées, et adresses.

NB : Le nombre de stations (848) ne correspond pas au nombre réel de stations (932) certaines stations étant soit en disfonctionnement lors de la collecte des données, et d’autres stations étant trop particulières pour être traitées ici (e.g. mobiles).

NB : Il peut être intéressanrt de ne pas utiliser les données brutes mais de les discrétiser, de les normaliser, etc.

1

(2)

Master M1 UPMC Module MQIA

3. C

LASSIFICATIONDESSTATIONSPAR ARRONDISSEMENT

1. Créez une base de données des stations du 4ème et du 16ème arrondissements en utilisant un codage brut du nombre de vélos disponibles.

2. Apprenez une chaîne de Markov pour chacun des deux arrondissements en utilisant une partie de la base pour l'apprentissage et le reste pour le test. A quel taux pouvez vous reconnaître l'arrondissement d'une station à partir de l'évolution des vélos disponibles ? 3. Essayez en changeant le codage. On utilise maintenant des données différentielles en

s’intéressant à l’évolution de la différence entre le nombre de vélos disponibles à un instant donné et à « l’instant précédent ». Cela change-t-il les résultats ?

4. Essayez en changeant encore le codage. Par exemple on peut avoir un état pour une paire (tranche horaire, nombre de vélos disponibles) qui permet d'introduire une information temporelle dans le modèle.

4. A

PPRENTISSAGED

UN MÉLANGEDE CHAINESPOURL

ENSEMBLEDESSTATIONS

1. On souhaite maintenant apprendre un mélange de chaines de Markov d’ordre 1. Utilisez le code octave vu en TD pour cela.

2. Utilisez la chaîne apprise pour clusteriser les stations.

3. Plotez la carte des stations avec des couleurs différentes pour chaque cluster. Identifiez-vous des groupes cohérents de stations ?

• stations proche d’une gare ?

• stations en haut d’une côte ?

• stations utilisées pour rentrer le soir après le cinéma.

• Etc.

4. On change le codage et on s’intéresse maintenant à des données différentielles. Cela change-t- il les résultats ?

2

Références

Documents relatifs

[r]

[r]

L'aire de la surface S engendrée par la rotation complète d'une ligne plane autour d'un axe situé dans sont plan est ègale au produit de la longueur de la circonférence décrite par

il faut par contre préciser qu'en régime stationnaire, la température de la résistance restant constante, celle-ci elle transmet au liquide sous forme de chaleur autant

◊ remarque : lors de la transformation interne de l'énergie cinétique, il y a forcément un peu d'interac- tion (frottement) avec les parois intérieures du récipient, donc ce

Paysage et aménagement : propositions pour un plan national d’action - Mission de conseil sur la politique nationale du paysage.. CGEDD - 2014 - rapport –

L’économie sociale représente une grande opportunité pour l’Union européenne de répondre aux exigences de sa stratégie EU 2020 et des défi s à relever pour l’avenir

Elle exprime ainsi une ambition pour une action publique plus inclusive (sur les champs du social, de la géographie et de la culture) grâce à cet espace numérique et par la