Traitement Automatique de la Langue Examen 2015, premi`ere session

(1)

Traitement Automatique de la Langue Examen 2015, premi` ere session

1 heure 45 - formulaire recto autorisé - barème donné à titre indicatif

Exercice I - Classification de textes (∼ 6 points)

Question 1

Comment coder l’information textuelle pour faire du machine learning ? Donner la solution la plus classique.

Question 2

Donner la formulation d’un classifieur lin´eaire type SVM (`a deux classes) utilisant un tel codage de l’information :

– quelles sont les dimensions des données en entrée ? – combien de paramètres y a-t-il dans le modèle ? – comment interpréter les poids du modèle linéaire ? Question 3

Donner des exemples de pré-traitements possibles et leur incidence sur la dimensionnalité des données.

Question 4

Comment ´evaluer les performances d’un classifieur de document ? Quel dilemme se pose entre l’apprentissage et l’´evaluation ?

Question 5

Qu’est ce que le sur-apprentissage ? Y a-t-il un lien entre la dimension des données en entrée et les phénomènes de sur-apprentissage ? Quel genre de caractéristique risque d’induire un classifieur en erreur ?

Question 6

Donner des exemples de classifieurs usuels utilisés pour le texte (SVM, MaxEnt, NB,...). Donner en quelques lignes les principes de fonctionnement et d’apprentissage de ces algorithmes et identifier les hyper-paramètres des modèles. Isoler 1 avantage/inconvénient pour chaque modèle.

Question 7

Dans un classifieur linéaire, rappeler la formulation de la fonction de décision. Comment passer à un classifieur multi-classes ?

Question 8

Comment combiner des outils d’analyse morphologique avec un classifieur lin´eaire ? Dans quel type d’application cela peut-il ˆetre utile ?

1

(2)

Master M1 - TAL Traitement Automatique de la Langue - Examen

Exercice II - Clustering vs classification supervis´ ee de textes (∼

4 points)

Question 1

Expliquer la différence entre clustering et classification supervisée de textes. Donner des exemples d’applications et de modèles pour les deux approches.

Question 2

Imaginer une une application d’analyse de sentiments dont le cahier des charges serait le suivant : – récupération d’un corpus de données,

– analyse des sentiments liés à différentes entités nommées, – mise en évidence des thèmes présent dans le corpus,

– extraction des mots clés associés à chaque thème et chaque polarité.

Comment construire un tel système ? Quelles bibliothèques utiliser, dans quel ordre... Décrire un système réalisant ce cahier des charges.

Exercice III - Word2Vec et repr´ esentation latente (∼ 4 points)

Question 1

Quel est le principal défaut des représentations en sacs de mots ? Qu’appelle-t-on le fossé sémantique ? Question 2

L’algorithme PLSA (probabilistic latent semantic analysis) permet de générer une représentation latente des mots. Comment fonctionne cet algorithme ? Qu’est ce qu’il modélise ? Quelles sont les dimensions des 2 matrices de paramètres sur lesquelles reposent PLSA ?

Note : PLSA et LDA reposent sur les mˆemes matrices de param`etres.

Question 3

Comment peut-on exploiter la repr´esentation latente issue de PLSA ? Quelles possibilit´es offre cet espace ?

Question 4

Sur quel principe repose Word2Vec, en quoi se distingue-t-il de PLSA ? Question 5

Comment ´evaluer des algorithmes comme PLSA ou Word2Vec ? Distinguer les ´evaluations qualita- tives et quantitatives.

Exercice IV - Approches s´ equentielles (∼ 4 points)

Question 1

Qu’apportent les méthodes séquentielles Conditional Random Field (CRF)/Hidden Markov Models (HMM) par rapport aux modèles liés aux sacs de mots ?

Question 2

Comment fonctionnent les HMM, quels sont les diff´erents probl`emes qui se posent ? Question 3

Qu’est ce qui distinguent les HMM et les CRF ? Question 4

Quelles applications de TAL requi`erent ce type d’approche ? Comment sont appris les mod`eles CRF sur ces applications ?

Exercice V - Ouverture (∼ 2 points)

Question 1

Proposer une idée de startup à créer sur la base des algorithmes vus en TAL

2