• Aucun résultat trouvé

Fouille de Données et Média Sociaux

N/A
N/A
Protected

Academic year: 2022

Partager "Fouille de Données et Média Sociaux"

Copied!
18
0
0

Texte intégral

(1)

Fouille de Données et Média Sociaux

Vincent Guigue UPMC - LIP6

(2)

Organisation de l’UE

Outils pour la fouille de données, application sur des média sociaux

◦ Partie 1 (Vincent Guigue)

Sem. 1 2 3 4

Cours Intro Dataiku Texte avancé reco

TME BOW + classif Dataiku word2vec, lda facto. mat.

Sem. 5 6 7

Cours J. Loncelle (Klesia) TME à définir

◦ Partie 2 (Sylvain Lamprier) - Classification dans les graphes - Diffusion dans les réseaux - Architectures Big Data (Talend)

(3)

Evaluation de l’UE

◦ 25% Rapport 1 (50/50 : travail en TP/rapport)

◦ 25% Rapport 2

◦ 50% Examen

(4)

Manipulation des données textuelles utilisation de Python

Vincent Guigue UPMC - LIP6

(5)

Traitements pour la classification de textes

Les données textuelles sont difficiles à gérer :

1 Les corpus sont volumineux, le vocabulaire est grand : - il faut des algorithmes rapides,

- les données ne sont pas toujours stockables en mémoire.

2 La structure des phrases est difficile à gérer.

3 Les mots peuvent prendre plusieurs formes (pluriels...)

4 Les algorithmes de machine learning ont du mal sur des données de grande dimension

(6)

Traitements pour la classification de textes Les données textuelles sont difficiles à gérer :

1 Les corpus sont volumineux, le vocabulaire est grand : - il faut des algorithmes rapides,

- les données ne sont pas toujours stockables en mémoire.

Perceptron, SVM (en version rapide), Naive Bayes...

Boosting, Bagging

2 La structure des phrases est difficile à gérer.

On supprime la structure...

3 Les mots peuvent prendre plusieurs formes (pluriels...) Plusieurs approches possibles... (cf plus loin)

4 Les algorithmes de machine learning ont du mal sur des données de grande dimension

On cherche des heuristiques pour supprimer les mots inutiles.

(7)

Sacs de mots

Ne sachant pas prendre efficacement en compte la structure des phrases... On l’élimine totalement !

Un document devient alors un comptage des différents mots qui le composent :

Représentationbag of words

SoitV le vocabulaire etd un document :d ∈N|V|

NB :d est (presque toujours) un vecteursparse, c’est à dire composé essentiellement de 0.

(8)

Sur un exemple (crédit Sergio Jimenez)

(9)

Elimination du bruit : mots similaires

Etant donnée la représentation en sac de mots, il est pénalisant de compter les occurrences deprésidentetprésidentsdans deux cases séparées... Nous allons donc traiter les mots du textes pour les ramener à leurs radicaux :

◦ mangeait, mangera, mangeoire,...→ manger

Lemmatisation : approche basée sur un dictionnaire efficace/il faut un dictionnaire...

Exemple d’outil : treetagger (gratuit, récupérable sur internet)

Stemmatisation : approche statistique de suppression des suffixes rapide, facile à utiliser/ parfois approximatif

cf outils fournis dans le projet

(10)

Traitements discriminants : réduction de la dimensionnalité

Les algorithmes de machine learning sont mis en difficulté sur les problèmes de grandes dimensions... Nous cherchons donc à réduire la dimension des données :

Heuristiques :

◦ Elimination des mots peu fréquents

◦ Elimination des mots courts (articles...)

◦ Elimination de tous les éléments inutiles a priori (chiffres...)

(11)

Traitements discriminants

Le codagetf-idf permet de faire apparaître les motssaillants, caractéristiques d’un document.

Soit le documentdj tiré de l’ensembleD,ni,j désigne le nombre d’occurrences du motti dansdj :

tfi,j= ni,j

P

knk,j, idfi=log |D|

|{d :ti ∈d}|

tfi,j : fréquence de ti dans le document j.

idfi : pourcentage des documents oùti apparaît (log de l’inverse).

On remplace le codageni,j par le codage tf−idf(i,j) =tfi,j×idfi http://fr.wikipedia.org/wiki/TF-IDF

(12)

Traitements discriminants : sélection de va- riables

Il est possible d’utiliser des critères discriminants (donnant un score à chaque mot) pour choisir un sous-ensemble du dictionnaire sur lequel travailler.

Parmi les classiques :

◦ Saillance : Stf−idf(i) =

P

jtf−idf(i,j)

|{tf−idf(i,j)6=0}|

◦ Odds ratio : Sodds(i) = pqi/(1−pi)

i/(1−qi) = pqi(1−qi)

i(1−pi).(souvent utilisé en log). Oùpi est la probabilité d’observer le mot ti dans la classe 1 etqi est la probabilité d’observer ti dans la classe 2.

(13)

Présentation des données

Données d’apprentissage :

<100:1:C> Quand je dis chers amis, ...

<100:2:C> D’abord merci de cet ...

...

<100:14:M> Et ce sentiment ...

Le format est le suivant : <ID-Discours :ID-phrase :Etiquette>, C

→Chirac, M → Mitterrand

Données de test, sans les étiquettes :

<100:1> Quand je dis chers amis, ...

<100:2> D’abord merci de cet ...

...

(14)

Deuxième base de données (Pour s’entrainer)

Crédit : Sergio Jimenez

(15)

Deuxième base de données (Pour s’entrainer)

(16)

Deuxième base de données (Pour s’entrainer)

Crédit : Sergio Jimenez

(17)

Comment évaluer les performances ?

◦ Métriques d’évaluation

- Taux de reconnaissance NNcorrect

tot

- Précision (dans la classe c) NNcorrectcc predits

- Rappel (dans la classe c) (=couverture) NNcorrectcc tot

- F1 (1+β2)precision·rappel β2precision+rappel

- ROC (faux posVS vrai pos) / AUC

◦ Procédures

- Apprentissage/test

- Validation croisée - Leave-one-out

(18)

Analyse qualitative

Regarder les poids des mots du classifieur :

annoying 37.2593

another -8.458

any 3.391

anyone -1.4651

anything -15.5326

anyway 29.2124

apparently 12.5416

...

attention -1.2901

audience 1.7331

audiences -3.7323

away -14.9303

awful 30.8509

Références

Documents relatifs

La commission Cohen (1978) élargit cette définition en tenant compte de la différence entre les attentes et les besoins des utilisateurs et ce que l’auditeur peut

L’application de notre approche sur des tâches de classification automatique de données textuelles montre d’une part, que le passage à l’échelle est amélioré en mémoire et

Figure 3.14: Derivative estimation error with the signal corrupted by distrib- uted uniform noise, sampled period of 0.001 and quantization of 0.02... Figure 3.15: Derivative

D’après notre modeste travail, nous constatons que comme tous les algériens, les commerçants à Mostaganem surtout ceux qui vendent les vêtements et le tissu

A mod- ified MUSIC with interpolated spatial smoothing is proposed for jointly estimating the time delay and the interface roughness, which can take into account several

La présence d'air ou de produit de contraste extra digestif ou d'un abcès en tomodensitométrie [14]a été associée à un plus fort risque d'une part d'échec du

We study the laser-induced standing spin waves in bis- muth iron garnet with high in-plane magnetic anisotropy.. We show that femtosecond laser pulses trigger high- frequency even

Placée, par délégation du Premier ministre, sous l’autorité des ministres chargés du travail et de l’emploi, la DILTI assume un rôle de coordination des actions de lutte contre