• Aucun résultat trouvé

8.3 R´esultats th´eoriques ?

8.4.4 Classification de po`emes ?

Le pouvoir de discrimination de la d2 et son utilisation imm´ediate — sans probl`eme

de lissage, permet d’envisager de l’utiliser pour de nombreuses tˆaches en classifica- tion. Depuis quelques ann´ees, quelques grands sp´ecialistes linguistiques se penchent sur l’´eventualit´e que Corneille puisse avoir ´ecrit des œuvres de Moli`ere[Lab03]. Loin de vouloir rentrer dans le d´ebat `a l’heure actuelle, nous proposons simplement dans cette partie d’apprendre des mod`eles de langages sur des recueils de po`emes de La- martine et Hugo, et de classer en aveugle des po`emes d’autres recueils des mˆemes auteurs.

Le protocole exp´erimental est le suivant : nous disposons de quatre recueils de po`emes, deux de chaque auteurs (cf. tables 8.3 et 8.4 pour une description succincte des donn´ees). Nous d´efinissons comme unit´e lexicale un vers de chaque po`eme, c.-`a-d. que les ´el´ements de Σ∗sont les vers, et les ´el´ements de l’alphabet Σ sont les mots. Nous apprenons sur chacun des recueils un mod`ele de langage en fixant simplement le para- m`etre α de l’algorithme Alergia, la qualit´e de l’apprentissage n’est pas le point que nous voulons mettre en avant. Nous notons M1, M2 et H1, H2 les mod`eles appris sur

les premiers et seconds recueils de po`emes de, respectivement Lamartine et Hugo. De la mˆeme mani`ere, nous notons Mij et Hij les jespo`emes des iesrecueils des auteurs

correspondants.

Nous calculons ensuite la distance entre les po`emes de la fa¸con suivante : les couples repr´esentent (table 8.5) les distances compar´ees pour classifier les po`emes. Ainsi, nous comptabilisons comme un succ`es de classification le fait que la distance par rapport au mod`ele du mˆeme auteur est plus faible que celle par rapport au mod`ele de l’autre auteur. Nous en d´eduisons ensuite un taux de succ`es en classification. C’est ce taux qui est pr´esent´e en table 8.6. La premi`ere colonne de la table 8.6 donne le recueil o`u les po`emes sont choisis pour les comparer suivant les r`egles pr´esent´ees dans la table 8.5. Nous pouvons voir que les r´esultats en classification sont d´esastreux pour les collections Hi:

un tirage al´eatoire aurait ´et´e meilleur. Pourquoi? La distance d2 mesure l’´eloignement

entre les mod`eles de langages d´efinis sur les vers des po`emes. Une analyse approfondie montre que tr`es peu de vers entiers sont employ´es plusieurs fois par le mˆeme auteur. Rappelons que la distance euclidienne se d´efinit suivant les probabilit´es de co-´emission de chaˆınes du langage, sur (A , A), (B , B) ou (A , B). Or, la co-´emission conjointe sur (A , B) est ici tr`es proche de z´ero, la classification repose donc uniquement sur le fait qu’une des deux co-´emissions (A , A) ou (B , B) est plus grande que l’autre, ce qui

8.4. Exp´erimentations ? 93

Lamartine Hugo

Recueil Harmonies po´etiques et reli- gieuses

Les contemplations I

Titre Aux chr´etiens dans les temps d’´epreuves

La coccinelle

Extrait Pourquoi vous troublez-vous, enfants de l’Evangile?

`

A quoi sert dans les cieux ton tonnerre inutile,

Disent-ils au Seigneur, quand ton Christ insult´e,

Comme au jour o`u sa mort fit trembler les collines,

Un roseau dans les mains et le front ceint d’´epines,

Au si`ecle est pr´esent´e?

Elle me dit: -Quelque chose -Me tourmente.- Et j’aper¸cus Son cou de neige, et dessus, Un petit insecte rose.

Recueil M´editations po´etiques Les contemplations II

Titre Le soir Au fils d’un po¨ete

Extrait Le soir ram`ene le silence. Assis sur ces rochers d´eserts, Je suis dans le vague des airs Le char de la nuit qui s’avance.

Enfant, laisse aux mers in- qui`etes

Le naufrag´e, tribun ou roi; Laisse s’en aller les po¨etes ! La po´esie est pr`es de toi.

Tab. 8.3 – Exemples de po`emes

implique un classement de la quasi-totalit´e des exemples vers ce mod`ele.

L’unit´e lexicale est sˆurement mal choisie : une analyse linguistique pourrait peut- ˆetre guider le choix de la bonne unit´e de base. Deux po`emes d’un mˆeme auteur, hormis le vocabulaire (les ´el´ements de Σ), doivent avoir des constructions grammaticales en commun. En consid´erant le calcul de la distance euclidienne, nous nous apercevons que nous disposons aussi d’une fonction de probabilit´e pr´efixielle. L’id´ee est donc de calculer une mesure, similaire `a la d2, avec la fonction de probabilit´e pr´efixielle `a la place de la

probabilit´e du mot (ici le vers) lui mˆeme. Nous d´efinissons formellement cette mesure d’´eloignement.

D´efinition 8.5 (Distance euclidienne pr´efixielle) Soient deux distributions de pro- babilit´e D et D0, nous d´efinissons la distance euclidienne pr´efixielle entre ces deux en- tit´es comme : d2p(D,D 0 ) = s X w∈Σ∗ πD(w)− πD0(w)2

Recueil Nb. po`emes Nb. vers Nb. mots

H1 87 2381 46686

H2 68 3067 61322

M1 15 1079 27243

M2 30 1398 26483

Tab.8.4 – Informations sur les donn´ees de classification comparer `a

d2(M1j,M2) d2(M1j,H2)

d2(M2j,M1) d2(M2j,H1)

d2(H1j,H2) d2(H1j,M2)

d2(H2j,H1) d2(H2j,M1)

Tab. 8.5 – Couples de distances calcul´ees pour classifier les po`emes

soientA , B, deux DPFA d´efinis sur cet unique alphabet, nous d´efinissons la probabilit´e de co-´emission pr´efixielle ainsi :

CoEmPref(A , B) = X

w∈Σ∗

πA(w). πB(w)



Remarque : Nous pouvons remarquer que cette derni`ere grandeur est directe- ment li´ee aux coefficients η d´efinis pour le calcul de la d2. En effet :

CoEmPref(A , B) = X w∈Σ∗ πA(w). πB(w)  = X q∈QA X q0∈QB X w∈Σ∗: δA(q0A,w)=q δB(q0B,w)=q0 πA(w). πB(w) = X q∈QA X q0∈Q B ηqq0

En reprenant les travaux men´es sur la distance euclidienne d2, nous ´enon¸cons un

th´eor`eme similaire.

Th´eor`eme 8.2 La mesure d2p d´efinie sur les distributions de probabilit´e est finie, est

une vraie distance, et est calculable sur les DPFA.

Preuve : Les preuves des diff´erents points sont d´evelopp´ees en annexe 2. De la mˆeme fa¸con que pour la d2, les r´esultats suivent si l’on remarque que l’on

peut r´e´ecrire cette mesure sous la forme suivante :

d2p(A , B) =pCoEmPref(A , A) + CoEmPref(B , B) − 2. CoEmPref(A , B)

u t

8.5. Conclusion ? 95

Recueil de base Taux de succ`es de la d2

H1 2,30 %

H2 8,82 %

M1 100,00 %

M2 100,00 %

Tab.8.6 – Taux de succ`es en classification avec la d2 - unit´e lexicale : le vers

L’utilisation de la langue par les po`etes nous fait penser que les facteurs des mots (sous-chaˆınes) seraient une bonne unit´e lexicale de base. Malheureusement, aucun d´eve- loppement ne nous permet de calculer une distance directement sur les facteurs contrai- rement aux pr´efixes. De mani`ere pratique, nous estimons une mesure sur les facteurs, par le calcul de la d2p sur l’ensemble des suffixes des vers des po`emes. Le protocole

exp´erimental reste inchang´e, les donn´ees sont les mˆemes, seuls changent les calculs de distances. Les r´esultats sont donn´ees dans la table 8.7. Les r´esultats obtenus ainsi sur-

Recueil de base Taux de succ`es d2p d2p sur les suffixes

H1 70,1 % 81,6 %

H2 75,0 % 89,4 %

M1 73,3 % 73,3 %

M2 53,3 % 93,3 %

Tab. 8.7 – Taux de succ`es en classification avec la d2p - unit´e lexicale : les pr´efixes et

facteurs des vers

passent de beaucoup les pr´ec´edents. Cela appuie l’hypoth`ese que les vers entiers ne sont pas repr´esentatifs de l’auteur, mais les constructions internes, l’assemblage des mots deux par deux, trois par trois, etc., est propre `a chacun. La diff´erence est cepen- dant moins marqu´ee entre les pr´efixes et les facteurs.

Par cons´equent, nous montrons empiriquement, sur les donn´ees artificielles et r´eelles, que la distance euclidienne de mod`eles de langage est int´eressante, et ceci aussi bien pour les fonctions de parit´e, qu’en classification de texte. De plus, le fait que la distance euclidienne ne n´ecessite aucun lissage des mod`eles la rend facilement utilisable.

8.5

Conclusion ?

Nous avons d´efini dans ce chapitre une nouvelle mesure entre mod`eles de langages. Nous en avons donn´e des r´esultats th´eoriques en terme de distance math´ematique et observ´e son comportement int´eressant dans les exp´erimentations. Cette distance permet l’´evaluation des mod`eles appris sans qu’un lissage perturbateur ne soit n´ecessaire. Son pouvoir discriminant et sa vitesse de convergence ´elev´ee la rendent parfaitement adapt´ee `

Ce chapitre concernant les distances conclut la partie consacr´ee `a l’inf´erence gram- maticale, dans la suite nous pr´esentons des s´eries d’exp´erimentations o`u nous nous servons des diff´erents m´ethodes d´evelopp´ees dans les parties extractions de donn´ees web et inf´erence grammaticale.

T roisièm e partie

Applications aux donn´ees web ?

Les travaux pr´esent´es dans cette partie ont donn´e lieu `a deux communications en conf´e- rences internationales :

[MJ05] T. Murgue et P. Jaillon, Data Preparation and Structural Models for Web Usage Mining, Sciences of Electronic, Technologies of Information and Telecommunica- tions (SETIT’05) (Sousse, Tunisie), 2005.

[Mur05b] T. Murgue, Log Pre-Processing and Grammatical Inference for Web Usage Mining, Workshop on Machine Learning for User Modeling: Challenges – UM 2005, 2005.

No amount of experimentation can ever prove me right; a single experiment can prove me wrong. A. Einstein

9

Présentation ?

Sommaire

9.1 Introduction ?

9.2 Description des donn´ees artificielles ?