Exp´erimentations - Mesure de similarit´e

4.5 Mesure de similarit´e

4.5.2 Exp´erimentations

L’évaluation de la mesure de similarité est effectuée sur deux exemples traditionnels en ILP : Ancêtres et Mutagénèse.

Exemple 3 : Ancˆetres

Cet exemple a été proposé initialement dans [41]. On cherche à apprendre le concept ancêtre, à partir d’une base de connaissances contenant les symboles de prédicat père, mère, masculin et féminin, sur une famille constituée de 19 personnes produisant 361 exemples dont 56 positifs. Une définition habituelle de ce concept correspond aux 4 clauses suivantes :

1 : ancˆetre(X,Y)← m`ere(X,Y).

2 : ancêtre(X,Y)← mère(X,Z), ancêtre(Z,Y). 3 : ancêtre(X,Y)← père(X,Y).

4 : ancêtre(X,Y)← père(X,Z), ancêtre(Z,Y).

correspondant aux 4 sous-concepts usuels : “mère”, “ancêtre féminin”, “père” et “ancêtre masculin”.

Pour calculer la similarité entre deux exemples, on considère le langage contenant toutes les clauses ayant ancêtre(X,Y) comme tête et au plus deux littéraux dans le corps. Ce langage est fini et de taille raisonnable (532 clauses) : toutes les clauses sont donc générées. La matrice de similarité est présentée en figure 4.4 : chaque ligne (resp. colonne) correspond à un exemple positif. Pour observer les régularités dans cette matrice, les lignes (resp. colonnes) sont organisées de fa¸con à grouper dans la matrice, les exemples associés à un même sous-concept.

Dans la matrice (figure 4.4), les valeurs supérieures à un seuil (que l’on fera varier) sont grisées ; ces valeurs correspondent aux couples d’exemples similaires. Si ce seuil est réduit, la proportion grisée augmente, comme le montre la figure 4.5 (le seuil dans la matrice (a) est supérieur au seuil de la matrice (b), lui même supérieur au seuil de la matrice (c)). Dans cette figure, on peut voir clairement que la similarité obtenue entre les exemples d’un même sous-concept de référence est élevée et que les exemples des deux sous-concepts “ancêtre féminin” et “ancêtre masculin” sont assez similaires. Ces observations correspondent à la décomposition obtenue avec PoBOC.

Fig. 4.4 – Matrice de similarité avec valeurs élevées grisées.

(a) (b)

(c)

Exemple 4 : Mutag´en`ese

Le problème associé à la base de données Mutagénèse¹⁶ est la prédiction du caractère mutagène de composés, décrits en logique du premier ordre. Dans ce problème, on ne connaˆıt pas de décomposition naturelle en sous-concepts. Nous choisissons alors d’évaluer la mesure de similarité en observant le taux d’exemples bien classés par une approche “1-Plus Proche Voisin” (1-PPV).

Les résultats que nous présentons sont obtenus par validations croisées. Pour une va-lidation croisée, l’ensemble des exemples est scindé en 10 échantillons égaux (contenant chacun 10% de la base totale), chaque échantillon est choisi succéssivement comme en-semble de test. L’évaluation sur un échantillon consiste à affecter chaque exemple à la classe de son plus proche voisin, parmi les exemples d’entraˆınement (90% restant). De plus, cet exemple se place dans le cadre des langages infinis, présentés en section 4.5.1. Nous recherchons empiriquement les paramètres appropriés pour générer ce langage.

75 80 85 90 95 10 25 50 100 250 500 1000 3000 10000 % classification correcte Nombre de termes

% precision sur Mutageneses

Fig. 4.6 – Performance du classifieur 1-PPV, pour des langages de tailles différentes. Taille du langage : La première expérimentation permet d’observer l’influence de la

taille du langage sur la précision du classifieur 1-PPV. Dans ce test, P_domcorrespond à la probabilité uniforme, P_lit et P_contr sont définis par :

P_lit(#littéraux = 1) = P_lit(#littéraux = 2) = 0.5 P_lit(#littéraux > 2) = 0

P_contr(#contraintes = 0) = P_contr(#contraintes = 1) = 0.5

P_contr(#contraintes > 1) = 0

Les résultats suivants sont obtenus en effectuant une moyenne sur 10 exécutions de validations-croisées (figure 4.6). La précision augmente rapidement et les meilleurs

16La base de donnée Mutagenesis [176] est une base de référence dans le domaine de la programmation logique inductive.

résultats (90.43% de bonne classification) sont obtenus avec des langages contenant au moins 3000 clauses. Le résultat (90.11%) obtenu pour 1000 clauses est proche du résultat précédent. Dans un soucis de rapidité, nous choisirons par la suite de considérer des langages constitués de 1000 clauses.

88 88.5 89 89.5 90 90.5 91 0 1 2 3 4 % precision

Nombre de contraintes additionnelles 1 atome 2 atomes 3 atomes 4 atomes

Fig. 4.7 – Performance du classifieur 1-PPV, pour différentes complexités de clauses. Complexité des clauses. Ce test concerne la complexité (syntaxique) des clauses

uti-lisées pour définir la similarité. Rappelons que cette complexité est principalement contrôlée par les distributions de probabilité P_litet P_contrpermettant de spécifier res-pectivement le nombre de littéraux et de contraintes additionnelles (ou unifications) dans la clause. Dans chacun des tests suivants, on génère des clauses à partir des schémas de distribution suivants : P_lit(#littéraux = i) = 1, P_lit(#littéraux 6= i) =

0, P_contr(#contraintes = j) = 1 et P_contr(#contraintes6= j) = 0 pour i = 1 . . . 4 et

j = 0 . . . 4.

Ces expérimentations (figure 4.7) montrent que quelque soit le nombre de littéraux dans le corps de la clause, la précision du classifieur est optimale quand 2 contraintes additionnelles sont ajoutées. Le meilleur score (90.48%) est obtenu avec 2 littéraux et 2 contraintes additionnelles.

Il est également intéressant de noter que lorsque les clauses du langage ne sont pas toutes de même complexité¹⁷, les résultats obtenus sur la classification sont meilleurs que lorsque toutes les clauses du langage suivent un même schéma de construction (ce qui est le cas dans l’expérimentation actuelle). Dans les tests portant sur la taille du langage, les clauses construites pouvaient avoir : (1 littéral et 0 contrainte), (1 littéral et 1 contrainte), (2 littéraux et 0 contrainte) ou encore (2 littéraux et 1 contrainte). En considérant un seul schéma de clause, la précision est inférieure à 90% tandis qu’en autorisant un mélange des configurations précédentes, nous avons pu obtenir 90.43% de bonne classification.

17Dans l’expérimentation précédente portant sur la taille du langage, les complexités syntaxiques va-riaient d’une clause à une autre, pour un même langage.

Distribution de probabilités sur les domaines. Nous proposons à présent de tester l’influence des différents domaines apparaissant dans la base de données Mutagénèse. Nous modifions les poids de chaque domaine indépendamment dans P_dom et com-parons la précision du classifieur 1-PPV, par rapport à la distribution par défaut (distribution uniforme). Pour chaque domaine, on évalue le classifieur avec un poids nul sur le domaine (ce qui revient à effectuer la classification sans ce domaine) puis un poids de 0.25 (les autres poids sont identiques et égaux à 0.075, le domaine considéré possède alors une plus grande influence sur la classification).

Fig. 4.8 – Performance du classifieur 1-PPV, pour différentes pondérations des domaines. Cette expérience montre (figure 4.8) que certains domaines sont importants (comme par exemple logp, Ind1, charge) puisque la précision est plus faible lorsque le poids est nul et plus élevée lorsque le poids est de 0.25, par rapport à la distribution uniforme. En revanche, le domaine elem réduit la précision du classifieur. Enfin, pour d’autres domaines (lumo, Inda), la précision est plus faible dans les deux cas : on ne peut alors pas conclure sur leur importance indépendamment.

Pour conclure cette expérience, on teste le classifieur avec une distribution spécifique P_dom telle que les poids des domaines logp, Ind1 et charge sont les plus élevés, le poids du domaine elem est le plus faible et les autres domaines ont des poids (intermédiaires) iden-tiques. Ce paramétrage correspond à la configuration “optimale” dégagée empiriquement des quelques expérimentations précédentes.

On obtient alors, sur les 10 validations croisées, une moyenne de 91.915% de bonne classification. Ce résultat montre que la mesure de similarité que nous proposons est per-formante et que la précision du classifieur par plus proche voisin, pourrait sans doute

encore être améliorée en recherchant, de fa¸con plus précise, les paramètres appropriés (distributions de probabilités).

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 130-135)