• Aucun résultat trouvé

Traitement Automatique de la Langue Examen 2015, premi`ere session

N/A
N/A
Protected

Academic year: 2022

Partager "Traitement Automatique de la Langue Examen 2015, premi`ere session"

Copied!
2
0
0

Texte intégral

(1)

Traitement Automatique de la Langue Examen 2015, premi` ere session

1 heure 45 - formulaire recto autoris´e - bar`eme donn´e `a titre indicatif

Exercice I - Classification de textes (∼ 6 points)

Question 1

Comment coder l’information textuelle pour faire du machine learning ? Donner la solution la plus classique.

Question 2

Donner la formulation d’un classifieur lin´eaire type SVM (`a deux classes) utilisant un tel codage de l’information :

– quelles sont les dimensions des donn´ees en entr´ee ? – combien de param`etres y a-t-il dans le mod`ele ? – comment interpr´eter les poids du mod`ele lin´eaire ? Question 3

Donner des exemples de pr´e-traitements possibles et leur incidence sur la dimensionnalit´e des donn´ees.

Question 4

Comment ´evaluer les performances d’un classifieur de document ? Quel dilemme se pose entre l’ap- prentissage et l’´evaluation ?

Question 5

Qu’est ce que le sur-apprentissage ? Y a-t-il un lien entre la dimension des donn´ees en entr´ee et les ph´enom`enes de sur-apprentissage ? Quel genre de caract´eristique risque d’induire un classifieur en erreur ?

Question 6

Donner des exemples de classifieurs usuels utilis´es pour le texte (SVM, MaxEnt, NB,...). Donner en quelques lignes les principes de fonctionnement et d’apprentissage de ces algorithmes et identifier les hyper-param`etres des mod`eles. Isoler 1 avantage/inconv´enient pour chaque mod`ele.

Question 7

Dans un classifieur lin´eaire, rappeler la formulation de la fonction de d´ecision. Comment passer `a un classifieur multi-classes ?

Question 8

Comment combiner des outils d’analyse morphologique avec un classifieur lin´eaire ? Dans quel type d’application cela peut-il ˆetre utile ?

1

(2)

Master M1 - TAL Traitement Automatique de la Langue - Examen

Exercice II - Clustering vs classification supervis´ ee de textes (∼

4 points)

Question 1

Expliquer la diff´erence entre clustering et classification supervis´ee de textes. Donner des exemples d’applications et de mod`eles pour les deux approches.

Question 2

Imaginer une une application d’analyse de sentiments dont le cahier des charges serait le suivant : – r´ecup´eration d’un corpus de donn´ees,

– analyse des sentiments li´es `a diff´erentes entit´es nomm´ees, – mise en ´evidence des th`emes pr´esent dans le corpus,

– extraction des mots cl´es associ´es `a chaque th`eme et chaque polarit´e.

Comment construire un tel syst`eme ? Quelles biblioth`eques utiliser, dans quel ordre... D´ecrire un syst`eme r´ealisant ce cahier des charges.

Exercice III - Word2Vec et repr´ esentation latente (∼ 4 points)

Question 1

Quel est le principal d´efaut des repr´esentations en sacs de mots ? Qu’appelle-t-on le foss´e s´emantique ? Question 2

L’algorithme PLSA (probabilistic latent semantic analysis) permet de g´en´erer une repr´esentation latente des mots. Comment fonctionne cet algorithme ? Qu’est ce qu’il mod´elise ? Quelles sont les dimensions des 2 matrices de param`etres sur lesquelles reposent PLSA ?

Note : PLSA et LDA reposent sur les mˆemes matrices de param`etres.

Question 3

Comment peut-on exploiter la repr´esentation latente issue de PLSA ? Quelles possibilit´es offre cet espace ?

Question 4

Sur quel principe repose Word2Vec, en quoi se distingue-t-il de PLSA ? Question 5

Comment ´evaluer des algorithmes comme PLSA ou Word2Vec ? Distinguer les ´evaluations qualita- tives et quantitatives.

Exercice IV - Approches s´ equentielles (∼ 4 points)

Question 1

Qu’apportent les m´ethodes s´equentielles Conditional Random Field (CRF)/Hidden Markov Models (HMM) par rapport aux mod`eles li´es aux sacs de mots ?

Question 2

Comment fonctionnent les HMM, quels sont les diff´erents probl`emes qui se posent ? Question 3

Qu’est ce qui distinguent les HMM et les CRF ? Question 4

Quelles applications de TAL requi`erent ce type d’approche ? Comment sont appris les mod`eles CRF sur ces applications ?

Exercice V - Ouverture (∼ 2 points)

Question 1

Proposer une id´ee de startup `a cr´eer sur la base des algorithmes vus en TAL

2

Références

Documents relatifs

D´ eduire des questions pr´ ec´ edentes que, pour tout n ≥ 1, le syst` eme consid´ er´ e admet au moins un point p´ eriodique de p´ eriode primitive n.. Un peu de th´

[r]

Lorsque c’est possible, il est permis de r´ epondre ` a une question en ayant admis le r´ esultat des questions pr´ ec´ edentes..

D’apr` es le cours l’espace caract´ eristique d’une valeur propre a pour dimension la multiplicit´ e alg´ ebrique de cette valeur propre..7. On suppose que la famille (v, w)

Lorsque c’est possible, il est permis de r´ epondre ` a une question en ayant admis le r´ esultat des questions pr´ ec´ edentes..

Lorsque det(A) ∈ {−1, 1}, alors la formule pr´ ec´ edente montre que tous les coefficients de A −1 sont (au signe pr` es) des cofacteurs de A, donc des entiers4.

Soit φ une application bilin´ eaire sym´ etrique sur un R espace vectoriel E de dimension finie, et soit Q sa forme quadratique.. Calculer le polynome caract´ eristique de A, donner

Les trois fa¸ cons principales de calculer des ´ ecarts types et les intervalles de confiance pour les changements pr´ edits : par l’utilisation de la matrice variance-covariance