8.3 R´esultats th´eoriques ?
8.4.4 Classification de po`emes ?
Le pouvoir de discrimination de la d2 et son utilisation imm´ediate — sans probl`eme
de lissage, permet d’envisager de l’utiliser pour de nombreuses tˆaches en classifica- tion. Depuis quelques ann´ees, quelques grands sp´ecialistes linguistiques se penchent sur l’´eventualit´e que Corneille puisse avoir ´ecrit des œuvres de Moli`ere[Lab03]. Loin de vouloir rentrer dans le d´ebat `a l’heure actuelle, nous proposons simplement dans cette partie d’apprendre des mod`eles de langages sur des recueils de po`emes de La- martine et Hugo, et de classer en aveugle des po`emes d’autres recueils des mˆemes auteurs.
Le protocole exp´erimental est le suivant : nous disposons de quatre recueils de po`emes, deux de chaque auteurs (cf. tables 8.3 et 8.4 pour une description succincte des donn´ees). Nous d´efinissons comme unit´e lexicale un vers de chaque po`eme, c.-`a-d. que les ´el´ements de Σ∗sont les vers, et les ´el´ements de l’alphabet Σ sont les mots. Nous apprenons sur chacun des recueils un mod`ele de langage en fixant simplement le para- m`etre α de l’algorithme Alergia, la qualit´e de l’apprentissage n’est pas le point que nous voulons mettre en avant. Nous notons M1, M2 et H1, H2 les mod`eles appris sur
les premiers et seconds recueils de po`emes de, respectivement Lamartine et Hugo. De la mˆeme mani`ere, nous notons Mij et Hij les jespo`emes des iesrecueils des auteurs
correspondants.
Nous calculons ensuite la distance entre les po`emes de la fa¸con suivante : les couples repr´esentent (table 8.5) les distances compar´ees pour classifier les po`emes. Ainsi, nous comptabilisons comme un succ`es de classification le fait que la distance par rapport au mod`ele du mˆeme auteur est plus faible que celle par rapport au mod`ele de l’autre auteur. Nous en d´eduisons ensuite un taux de succ`es en classification. C’est ce taux qui est pr´esent´e en table 8.6. La premi`ere colonne de la table 8.6 donne le recueil o`u les po`emes sont choisis pour les comparer suivant les r`egles pr´esent´ees dans la table 8.5. Nous pouvons voir que les r´esultats en classification sont d´esastreux pour les collections Hi:
un tirage al´eatoire aurait ´et´e meilleur. Pourquoi? La distance d2 mesure l’´eloignement
entre les mod`eles de langages d´efinis sur les vers des po`emes. Une analyse approfondie montre que tr`es peu de vers entiers sont employ´es plusieurs fois par le mˆeme auteur. Rappelons que la distance euclidienne se d´efinit suivant les probabilit´es de co-´emission de chaˆınes du langage, sur (A , A), (B , B) ou (A , B). Or, la co-´emission conjointe sur (A , B) est ici tr`es proche de z´ero, la classification repose donc uniquement sur le fait qu’une des deux co-´emissions (A , A) ou (B , B) est plus grande que l’autre, ce qui
8.4. Exp´erimentations ? 93
Lamartine Hugo
Recueil Harmonies po´etiques et reli- gieuses
Les contemplations I
Titre Aux chr´etiens dans les temps d’´epreuves
La coccinelle
Extrait Pourquoi vous troublez-vous, enfants de l’Evangile?
`
A quoi sert dans les cieux ton tonnerre inutile,
Disent-ils au Seigneur, quand ton Christ insult´e,
Comme au jour o`u sa mort fit trembler les collines,
Un roseau dans les mains et le front ceint d’´epines,
Au si`ecle est pr´esent´e?
Elle me dit: -Quelque chose -Me tourmente.- Et j’aper¸cus Son cou de neige, et dessus, Un petit insecte rose.
Recueil M´editations po´etiques Les contemplations II
Titre Le soir Au fils d’un po¨ete
Extrait Le soir ram`ene le silence. Assis sur ces rochers d´eserts, Je suis dans le vague des airs Le char de la nuit qui s’avance.
Enfant, laisse aux mers in- qui`etes
Le naufrag´e, tribun ou roi; Laisse s’en aller les po¨etes ! La po´esie est pr`es de toi.
Tab. 8.3 – Exemples de po`emes
implique un classement de la quasi-totalit´e des exemples vers ce mod`ele.
L’unit´e lexicale est sˆurement mal choisie : une analyse linguistique pourrait peut- ˆetre guider le choix de la bonne unit´e de base. Deux po`emes d’un mˆeme auteur, hormis le vocabulaire (les ´el´ements de Σ), doivent avoir des constructions grammaticales en commun. En consid´erant le calcul de la distance euclidienne, nous nous apercevons que nous disposons aussi d’une fonction de probabilit´e pr´efixielle. L’id´ee est donc de calculer une mesure, similaire `a la d2, avec la fonction de probabilit´e pr´efixielle `a la place de la
probabilit´e du mot (ici le vers) lui mˆeme. Nous d´efinissons formellement cette mesure d’´eloignement.
D´efinition 8.5 (Distance euclidienne pr´efixielle) Soient deux distributions de pro- babilit´e D et D0, nous d´efinissons la distance euclidienne pr´efixielle entre ces deux en- tit´es comme : d2p(D,D 0 ) = s X w∈Σ∗ πD(w)− πD0(w)2
Recueil Nb. po`emes Nb. vers Nb. mots
H1 87 2381 46686
H2 68 3067 61322
M1 15 1079 27243
M2 30 1398 26483
Tab.8.4 – Informations sur les donn´ees de classification comparer `a
d2(M1j,M2) d2(M1j,H2)
d2(M2j,M1) d2(M2j,H1)
d2(H1j,H2) d2(H1j,M2)
d2(H2j,H1) d2(H2j,M1)
Tab. 8.5 – Couples de distances calcul´ees pour classifier les po`emes
soientA , B, deux DPFA d´efinis sur cet unique alphabet, nous d´efinissons la probabilit´e de co-´emission pr´efixielle ainsi :
CoEmPref(A , B) = X
w∈Σ∗
πA(w). πB(w)
Remarque : Nous pouvons remarquer que cette derni`ere grandeur est directe- ment li´ee aux coefficients η d´efinis pour le calcul de la d2. En effet :
CoEmPref(A , B) = X w∈Σ∗ πA(w). πB(w) = X q∈QA X q0∈QB X w∈Σ∗: δA(q0A,w)=q δB(q0B,w)=q0 πA(w). πB(w) = X q∈QA X q0∈Q B ηqq0
En reprenant les travaux men´es sur la distance euclidienne d2, nous ´enon¸cons un
th´eor`eme similaire.
Th´eor`eme 8.2 La mesure d2p d´efinie sur les distributions de probabilit´e est finie, est
une vraie distance, et est calculable sur les DPFA.
Preuve : Les preuves des diff´erents points sont d´evelopp´ees en annexe 2. De la mˆeme fa¸con que pour la d2, les r´esultats suivent si l’on remarque que l’on
peut r´e´ecrire cette mesure sous la forme suivante :
d2p(A , B) =pCoEmPref(A , A) + CoEmPref(B , B) − 2. CoEmPref(A , B)
u t
8.5. Conclusion ? 95
Recueil de base Taux de succ`es de la d2
H1 2,30 %
H2 8,82 %
M1 100,00 %
M2 100,00 %
Tab.8.6 – Taux de succ`es en classification avec la d2 - unit´e lexicale : le vers
L’utilisation de la langue par les po`etes nous fait penser que les facteurs des mots (sous-chaˆınes) seraient une bonne unit´e lexicale de base. Malheureusement, aucun d´eve- loppement ne nous permet de calculer une distance directement sur les facteurs contrai- rement aux pr´efixes. De mani`ere pratique, nous estimons une mesure sur les facteurs, par le calcul de la d2p sur l’ensemble des suffixes des vers des po`emes. Le protocole
exp´erimental reste inchang´e, les donn´ees sont les mˆemes, seuls changent les calculs de distances. Les r´esultats sont donn´ees dans la table 8.7. Les r´esultats obtenus ainsi sur-
Recueil de base Taux de succ`es d2p d2p sur les suffixes
H1 70,1 % 81,6 %
H2 75,0 % 89,4 %
M1 73,3 % 73,3 %
M2 53,3 % 93,3 %
Tab. 8.7 – Taux de succ`es en classification avec la d2p - unit´e lexicale : les pr´efixes et
facteurs des vers
passent de beaucoup les pr´ec´edents. Cela appuie l’hypoth`ese que les vers entiers ne sont pas repr´esentatifs de l’auteur, mais les constructions internes, l’assemblage des mots deux par deux, trois par trois, etc., est propre `a chacun. La diff´erence est cepen- dant moins marqu´ee entre les pr´efixes et les facteurs.
Par cons´equent, nous montrons empiriquement, sur les donn´ees artificielles et r´eelles, que la distance euclidienne de mod`eles de langage est int´eressante, et ceci aussi bien pour les fonctions de parit´e, qu’en classification de texte. De plus, le fait que la distance euclidienne ne n´ecessite aucun lissage des mod`eles la rend facilement utilisable.
8.5
Conclusion ?
Nous avons d´efini dans ce chapitre une nouvelle mesure entre mod`eles de langages. Nous en avons donn´e des r´esultats th´eoriques en terme de distance math´ematique et observ´e son comportement int´eressant dans les exp´erimentations. Cette distance permet l’´evaluation des mod`eles appris sans qu’un lissage perturbateur ne soit n´ecessaire. Son pouvoir discriminant et sa vitesse de convergence ´elev´ee la rendent parfaitement adapt´ee `
Ce chapitre concernant les distances conclut la partie consacr´ee `a l’inf´erence gram- maticale, dans la suite nous pr´esentons des s´eries d’exp´erimentations o`u nous nous servons des diff´erents m´ethodes d´evelopp´ees dans les parties extractions de donn´ees web et inf´erence grammaticale.
T roisièm e partie
Applications aux donn´ees web ?
Les travaux pr´esent´es dans cette partie ont donn´e lieu `a deux communications en conf´e- rences internationales :
[MJ05] T. Murgue et P. Jaillon, Data Preparation and Structural Models for Web Usage Mining, Sciences of Electronic, Technologies of Information and Telecommunica- tions (SETIT’05) (Sousse, Tunisie), 2005.
[Mur05b] T. Murgue, Log Pre-Processing and Grammatical Inference for Web Usage Mining, Workshop on Machine Learning for User Modeling: Challenges – UM 2005, 2005.
No amount of experimentation can ever prove me right; a single experiment can prove me wrong. A. Einstein
9
Présentation ?
Sommaire
9.1 Introduction ?
9.2 Description des donn´ees artificielles ?