• Aucun résultat trouvé

4.5 Mesure de similarit´e

4.5.2 Exp´erimentations

L’´evaluation de la mesure de similarit´e est effectu´ee sur deux exemples traditionnels en ILP : Ancˆetres et Mutag´en`ese.

Exemple 3 : Ancˆetres

Cet exemple a ´et´e propos´e initialement dans [41]. On cherche `a apprendre le concept ancˆetre, `a partir d’une base de connaissances contenant les symboles de pr´edicat p`ere, m`ere, masculin et f´eminin, sur une famille constitu´ee de 19 personnes produisant 361 exemples dont 56 positifs. Une d´efinition habituelle de ce concept correspond aux 4 clauses suivantes :

1 : ancˆetre(X,Y)← m`ere(X,Y).

2 : ancˆetre(X,Y)← m`ere(X,Z), ancˆetre(Z,Y). 3 : ancˆetre(X,Y)← p`ere(X,Y).

4 : ancˆetre(X,Y)← p`ere(X,Z), ancˆetre(Z,Y).

correspondant aux 4 sous-concepts usuels : “m`ere”, “ancˆetre f´eminin”, “p`ere” et “ancˆetre masculin”.

Pour calculer la similarit´e entre deux exemples, on consid`ere le langage contenant toutes les clauses ayant ancˆetre(X,Y) comme tˆete et au plus deux litt´eraux dans le corps. Ce langage est fini et de taille raisonnable (532 clauses) : toutes les clauses sont donc g´en´er´ees. La matrice de similarit´e est pr´esent´ee en figure 4.4 : chaque ligne (resp. colonne) correspond `a un exemple positif. Pour observer les r´egularit´es dans cette matrice, les lignes (resp. colonnes) sont organis´ees de fa¸con `a grouper dans la matrice, les exemples associ´es `a un mˆeme sous-concept.

Dans la matrice (figure 4.4), les valeurs sup´erieures `a un seuil (que l’on fera varier) sont gris´ees ; ces valeurs correspondent aux couples d’exemples similaires. Si ce seuil est r´eduit, la proportion gris´ee augmente, comme le montre la figure 4.5 (le seuil dans la matrice (a) est sup´erieur au seuil de la matrice (b), lui mˆeme sup´erieur au seuil de la matrice (c)). Dans cette figure, on peut voir clairement que la similarit´e obtenue entre les exemples d’un mˆeme sous-concept de r´ef´erence est ´elev´ee et que les exemples des deux sous-concepts “ancˆetre f´eminin” et “ancˆetre masculin” sont assez similaires. Ces observations correspondent `a la d´ecomposition obtenue avec PoBOC.

Fig. 4.4 – Matrice de similarit´e avec valeurs ´elev´ees gris´ees.

(a) (b)

(c)

Exemple 4 : Mutag´en`ese

Le probl`eme associ´e `a la base de donn´ees Mutag´en`ese16 est la pr´ediction du caract`ere mutag`ene de compos´es, d´ecrits en logique du premier ordre. Dans ce probl`eme, on ne connaˆıt pas de d´ecomposition naturelle en sous-concepts. Nous choisissons alors d’´evaluer la mesure de similarit´e en observant le taux d’exemples bien class´es par une approche “1-Plus Proche Voisin” (1-PPV).

Les r´esultats que nous pr´esentons sont obtenus par validations crois´ees. Pour une va-lidation crois´ee, l’ensemble des exemples est scind´e en 10 ´echantillons ´egaux (contenant chacun 10% de la base totale), chaque ´echantillon est choisi succ´essivement comme en-semble de test. L’´evaluation sur un ´echantillon consiste `a affecter chaque exemple `a la classe de son plus proche voisin, parmi les exemples d’entraˆınement (90% restant). De plus, cet exemple se place dans le cadre des langages infinis, pr´esent´es en section 4.5.1. Nous recherchons empiriquement les param`etres appropri´es pour g´en´erer ce langage.

75 80 85 90 95 10 25 50 100 250 500 1000 3000 10000 % classification correcte Nombre de termes

% precision sur Mutageneses

Fig. 4.6 – Performance du classifieur 1-PPV, pour des langages de tailles diff´erentes. Taille du langage : La premi`ere exp´erimentation permet d’observer l’influence de la

taille du langage sur la pr´ecision du classifieur 1-PPV. Dans ce test, Pdomcorrespond `a la probabilit´e uniforme, Plit et Pcontr sont d´efinis par :

Plit(#litt´eraux = 1) = Plit(#litt´eraux = 2) = 0.5 Plit(#litt´eraux > 2) = 0

Pcontr(#contraintes = 0) = Pcontr(#contraintes = 1) = 0.5

Pcontr(#contraintes > 1) = 0

Les r´esultats suivants sont obtenus en effectuant une moyenne sur 10 ex´ecutions de validations-crois´ees (figure 4.6). La pr´ecision augmente rapidement et les meilleurs

16La base de donn´ee Mutagenesis [176] est une base de r´ef´erence dans le domaine de la programmation logique inductive.

r´esultats (90.43% de bonne classification) sont obtenus avec des langages contenant au moins 3000 clauses. Le r´esultat (90.11%) obtenu pour 1000 clauses est proche du r´esultat pr´ec´edent. Dans un soucis de rapidit´e, nous choisirons par la suite de consid´erer des langages constitu´es de 1000 clauses.

88 88.5 89 89.5 90 90.5 91 0 1 2 3 4 % precision

Nombre de contraintes additionnelles 1 atome 2 atomes 3 atomes 4 atomes

Fig. 4.7 – Performance du classifieur 1-PPV, pour diff´erentes complexit´es de clauses. Complexit´e des clauses. Ce test concerne la complexit´e (syntaxique) des clauses

uti-lis´ees pour d´efinir la similarit´e. Rappelons que cette complexit´e est principalement contrˆol´ee par les distributions de probabilit´e Plitet Pcontrpermettant de sp´ecifier res-pectivement le nombre de litt´eraux et de contraintes additionnelles (ou unifications) dans la clause. Dans chacun des tests suivants, on g´en`ere des clauses `a partir des sch´emas de distribution suivants : Plit(#litt´eraux = i) = 1, Plit(#litt´eraux 6= i) =

0, Pcontr(#contraintes = j) = 1 et Pcontr(#contraintes6= j) = 0 pour i = 1 . . . 4 et

j = 0 . . . 4.

Ces exp´erimentations (figure 4.7) montrent que quelque soit le nombre de litt´eraux dans le corps de la clause, la pr´ecision du classifieur est optimale quand 2 contraintes additionnelles sont ajout´ees. Le meilleur score (90.48%) est obtenu avec 2 litt´eraux et 2 contraintes additionnelles.

Il est ´egalement int´eressant de noter que lorsque les clauses du langage ne sont pas toutes de mˆeme complexit´e17, les r´esultats obtenus sur la classification sont meilleurs que lorsque toutes les clauses du langage suivent un mˆeme sch´ema de construction (ce qui est le cas dans l’exp´erimentation actuelle). Dans les tests portant sur la taille du langage, les clauses construites pouvaient avoir : (1 litt´eral et 0 contrainte), (1 litt´eral et 1 contrainte), (2 litt´eraux et 0 contrainte) ou encore (2 litt´eraux et 1 contrainte). En consid´erant un seul sch´ema de clause, la pr´ecision est inf´erieure `a 90% tandis qu’en autorisant un m´elange des configurations pr´ec´edentes, nous avons pu obtenir 90.43% de bonne classification.

17Dans l’exp´erimentation pr´ec´edente portant sur la taille du langage, les complexit´es syntaxiques va-riaient d’une clause `a une autre, pour un mˆeme langage.

Distribution de probabilit´es sur les domaines. Nous proposons `a pr´esent de tester l’influence des diff´erents domaines apparaissant dans la base de donn´ees Mutag´en`ese. Nous modifions les poids de chaque domaine ind´ependamment dans Pdom et com-parons la pr´ecision du classifieur 1-PPV, par rapport `a la distribution par d´efaut (distribution uniforme). Pour chaque domaine, on ´evalue le classifieur avec un poids nul sur le domaine (ce qui revient `a effectuer la classification sans ce domaine) puis un poids de 0.25 (les autres poids sont identiques et ´egaux `a 0.075, le domaine consid´er´e poss`ede alors une plus grande influence sur la classification).

Fig. 4.8 – Performance du classifieur 1-PPV, pour diff´erentes pond´erations des domaines. Cette exp´erience montre (figure 4.8) que certains domaines sont importants (comme par exemple logp, Ind1, charge) puisque la pr´ecision est plus faible lorsque le poids est nul et plus ´elev´ee lorsque le poids est de 0.25, par rapport `a la distribution uniforme. En revanche, le domaine elem r´eduit la pr´ecision du classifieur. Enfin, pour d’autres domaines (lumo, Inda), la pr´ecision est plus faible dans les deux cas : on ne peut alors pas conclure sur leur importance ind´ependamment.

Pour conclure cette exp´erience, on teste le classifieur avec une distribution sp´ecifique Pdom telle que les poids des domaines logp, Ind1 et charge sont les plus ´elev´es, le poids du domaine elem est le plus faible et les autres domaines ont des poids (interm´ediaires) iden-tiques. Ce param´etrage correspond `a la configuration “optimale” d´egag´ee empiriquement des quelques exp´erimentations pr´ec´edentes.

On obtient alors, sur les 10 validations crois´ees, une moyenne de 91.915% de bonne classification. Ce r´esultat montre que la mesure de similarit´e que nous proposons est per-formante et que la pr´ecision du classifieur par plus proche voisin, pourrait sans doute

encore ˆetre am´elior´ee en recherchant, de fa¸con plus pr´ecise, les param`etres appropri´es (distributions de probabilit´es).