Traitement Automatique de la Langue Examen 2015, premi` ere session
1 heure 45 - formulaire recto autoris´e - bar`eme donn´e `a titre indicatif
Exercice I - Classification de textes (∼ 6 points)
Question 1
Comment coder l’information textuelle pour faire du machine learning ? Donner la solution la plus classique.
Question 2
Donner la formulation d’un classifieur lin´eaire type SVM (`a deux classes) utilisant un tel codage de l’information :
– quelles sont les dimensions des donn´ees en entr´ee ? – combien de param`etres y a-t-il dans le mod`ele ? – comment interpr´eter les poids du mod`ele lin´eaire ? Question 3
Donner des exemples de pr´e-traitements possibles et leur incidence sur la dimensionnalit´e des donn´ees.
Question 4
Comment ´evaluer les performances d’un classifieur de document ? Quel dilemme se pose entre l’ap- prentissage et l’´evaluation ?
Question 5
Qu’est ce que le sur-apprentissage ? Y a-t-il un lien entre la dimension des donn´ees en entr´ee et les ph´enom`enes de sur-apprentissage ? Quel genre de caract´eristique risque d’induire un classifieur en erreur ?
Question 6
Donner des exemples de classifieurs usuels utilis´es pour le texte (SVM, MaxEnt, NB,...). Donner en quelques lignes les principes de fonctionnement et d’apprentissage de ces algorithmes et identifier les hyper-param`etres des mod`eles. Isoler 1 avantage/inconv´enient pour chaque mod`ele.
Question 7
Dans un classifieur lin´eaire, rappeler la formulation de la fonction de d´ecision. Comment passer `a un classifieur multi-classes ?
Question 8
Comment combiner des outils d’analyse morphologique avec un classifieur lin´eaire ? Dans quel type d’application cela peut-il ˆetre utile ?
1
Master M1 - TAL Traitement Automatique de la Langue - Examen
Exercice II - Clustering vs classification supervis´ ee de textes (∼
4 points)
Question 1
Expliquer la diff´erence entre clustering et classification supervis´ee de textes. Donner des exemples d’applications et de mod`eles pour les deux approches.
Question 2
Imaginer une une application d’analyse de sentiments dont le cahier des charges serait le suivant : – r´ecup´eration d’un corpus de donn´ees,
– analyse des sentiments li´es `a diff´erentes entit´es nomm´ees, – mise en ´evidence des th`emes pr´esent dans le corpus,
– extraction des mots cl´es associ´es `a chaque th`eme et chaque polarit´e.
Comment construire un tel syst`eme ? Quelles biblioth`eques utiliser, dans quel ordre... D´ecrire un syst`eme r´ealisant ce cahier des charges.
Exercice III - Word2Vec et repr´ esentation latente (∼ 4 points)
Question 1
Quel est le principal d´efaut des repr´esentations en sacs de mots ? Qu’appelle-t-on le foss´e s´emantique ? Question 2
L’algorithme PLSA (probabilistic latent semantic analysis) permet de g´en´erer une repr´esentation latente des mots. Comment fonctionne cet algorithme ? Qu’est ce qu’il mod´elise ? Quelles sont les dimensions des 2 matrices de param`etres sur lesquelles reposent PLSA ?
Note : PLSA et LDA reposent sur les mˆemes matrices de param`etres.
Question 3
Comment peut-on exploiter la repr´esentation latente issue de PLSA ? Quelles possibilit´es offre cet espace ?
Question 4
Sur quel principe repose Word2Vec, en quoi se distingue-t-il de PLSA ? Question 5
Comment ´evaluer des algorithmes comme PLSA ou Word2Vec ? Distinguer les ´evaluations qualita- tives et quantitatives.
Exercice IV - Approches s´ equentielles (∼ 4 points)
Question 1
Qu’apportent les m´ethodes s´equentielles Conditional Random Field (CRF)/Hidden Markov Models (HMM) par rapport aux mod`eles li´es aux sacs de mots ?
Question 2
Comment fonctionnent les HMM, quels sont les diff´erents probl`emes qui se posent ? Question 3
Qu’est ce qui distinguent les HMM et les CRF ? Question 4
Quelles applications de TAL requi`erent ce type d’approche ? Comment sont appris les mod`eles CRF sur ces applications ?
Exercice V - Ouverture (∼ 2 points)
Question 1
Proposer une id´ee de startup `a cr´eer sur la base des algorithmes vus en TAL
2