Langage infini - Mesure de similarit´e - Une méthode de classification non-supervisée pour l'ap

4.5 Mesure de similarit´e

4.5.1 Langage infini

Dans certains cas, on peut être amené à considérer un langage infini, ou trop grand pour être complètement évalué sur tous les exemples. Dans cette situation, on considère un échantillon fini du langage : les clauses sont générées stochastiquement à l’aide de paramètres, spécifiés à l’avance, et permettant de contrôler la taille du langage (|L|), la complexité des clauses (P_lit., P_contr.) et les poids des domaines (P_dom).

Pour mieux comprendre l’utilité de ces paramètres, nous construisons un exemple ad-hoc. On considère dans ce qui suit, un langage constitué de trois prédicats p, q et r, d’arités respectives 1,3 et 3. Pour les arguments de chaque prédicat, on pose les domaines suivants :

p(D₁) ; q(D₁, D₂, D₃) ; r(D₂, D₄, D₅)

Ainsi, les premiers arguments des pr´edicats, respectivement p et q, sont de mˆeme domaine, tout comme le second argument de q et le premier de r.

Supposons que p(X) représente le concept cible à définir. Le langage de description que nous allons construire est alors constitué de clauses de la forme :

p(X)← l1, l₂, . . . , l_n, c₁, . . . , c_m

Dans cette clause, les littéraux l_i sont de la forme q(X, Y, Z) ou r(Y, T, U ) et les c_j correspondent à des contraintes du type T = v, où v est une valeur choisie dans le domaine de T13.

Sp´ecification de la taille des clauses du langage

Le paramètre P_lit. permet de contrôler le nombre de littéraux qui seront ajoutés à une clause. Par exemple, la spécification P_lit.(#littéraux = 2) = 1 force toutes les clauses du langage à contenir exactement deux littéraux dans leur corps. De même, la spécification

P_lit.(#littéraux = 1) = P_lit.(#littéraux = 2) = P_lit.(#littéraux = 3) = ¹ 3

12La précision par rapport à un concept cible est calculée par le rapport du nombre d’exemples positifs de ce concepts couverts par la clause sur le nombre total d’exemples.

13On peut ´egalement envisager d’autres formes de contraintes, suivant la nature du domaine (T6= v, T ≥ v, etc).

entraˆınera la construction d’un langage de description dans lequel il devrait y avoir sensi-blement autant de clauses constituées de 1 littéral dans le corps, que de clauses constituées de 2 ou de 3 littéraux.

Sp´ecification des domaines et ajout de contraintes

L’ajout de contraintes permet de spécialiser une clause et de la rendre ainsi plus dis-criminante. Par exemple, si l’on considère la clause p(X₁) ← q(X2, Y, Z) il est probable que cette clause soit peu discriminante pour un ensemble quelconque d’exemples positifs et négatifs du concept cible. En revanche, la clause p(X₁) ← q(X1, Y, Z), Z = v est une clause spécifique pouvant avoir un intérêt pour distinguer des exemples.

Par défaut, nous choisissons d’associer systématiquement une contrainte, à chaque nouveau littéral ajouté. On distingue deux types de contraintes, possibles à ajouter : les contraintes de liaison (ou unifications) ou les contraintes génériques (numériques ou symboliques). Ces contraintes portent sur des variables et dépendent donc du type de domaine des variables. On décline alors trois types de domaines : les domaines de liaison forcée, les domaines de liaison possible et les domaines de contrainte générique.

Supposons, dans notre exemple, que :

– D₁ soit un domaine de liaison forc´ee (on le note alors D^{f orce}₁ ), – D₂ un domaine de liaison possible (D₂^poss.),

– D₃, D₄ et D₅ des domaines de contrainte générique (D^gener.₃ , D^gener.₄ , D^gener.₅ ). Nous rappelons ici les typages des prédicats, en utilisant cette nouvelle notation :

p(D₁^{f orce}) ; q(D^{f orce}₁ , D^poss.₂ , D₃^gener.) ; r(D₂^poss., D^gener.₄ , D^gener.₅ )

Domaine de liaison forcée : L’ajout d’un littéral dont le domaine de l’une des riables est du type “domaine de liaison forcée”, entraˆıne une unification de la va-riable concernée avec une vava-riable de même domaine déjà présente dans la clause. Par exemple, partant de la clause p(X1)←, si on choisit d’ajouter le littéral q(X2, Y, Z)¹⁴, on oblige l’unification des variables X₁et X₂ qui sont toutes deux du même domaine de liaison forcée D^{f orce}₁ . Dans un premier temps, la clause est alors de la forme

p(X₁)← q(X1, Y, Z)

Cette première contrainte est systématiquement complétée par une seconde contrainte, parmi les deux autres types de contraintes, associées aux deux autres types de do-maines (liaison possible et contrainte générique).

Domaine de liaison possible : une contrainte d’unification peut être ajoutée, sur une variable d’un domaine de liaison possible. Cette contrainte consiste, lorsque c’est possible, à unifier cette variable avec une variable déjà présente dans la clause en construction. Par exemple, étant donnée la clause obtenue précédemment (p(X1)← q(X₁, Y, Z)), aucune contrainte de ce type ne peut être ajoutée. En effet, la seule variable possible à unifier est Y (de domaine D^poss.₂ ), mais aucune autre variable de son domaine n’est présente.

Par contre, si l’on consid`ere la clause suivante en construction : p(X₁)← q(X1, Y₁, Z), Z = v

et que l’on choisisse d’ajouter le littéral r(Y2, T, U ), la variable Y2(de domaine D₂^poss.) peut être unifiée à la variable Y₁ de même domaine et déjà présente, pour former la clause

p(X1)← q(X1, Y1, Z), r(Y1, T, U ), Z = v

Domaine de contrainte générique : une contrainte peut porter sur une variable de domaine de contrainte générique. Ces contraintes correspondent aux cj de la forme Z = v, Z6= v, Z ≤ v, etc. avec v appartenant au domaine de Z.

Pour résumer, lorsqu’un littéral est ajouté à une clause en construction, on regarde d’abord si une unification est possible sur deux variables d’un même domaine de liai-son forcé. Si tel est le cas, l’unification est effectuée. Dans tous les cas, une contrainte d’unification ou une contrainte générique est ensuite ajoutée.

Pour choisir d’ajouter plutôt l’une ou l’autre des deux types de contraintes, ainsi que la variable sur laquelle elle doit porter, on se réfère aux types et aux poids des domaines. En effet, à chaque domaine D_i est associé une probabilité P_dom.(D_i), pouvant être considéré comme un poids. Le choix du type de contrainte dépend du type de domaine sélectionné (contrainte d’unification pour un domaine D^poss. et contrainte générique pour un domaine

Dgener.) et la s´election du domaine est effectu´ee en fonction de la distribution P_dom..

Consid´erons, par exemple, la distribution suivante sur les domaines de notre exemple¹⁵ :

P_dom.(D^poss.₂ ) = 0.25 ; P_dom.(D^gener.₃ ) = 0.5

P_dom.(D^gener.₄ ) = 0.125 ; P_dom.(D₅^gener.) = 0.125

Supposons que p(X₁) ← q(X1, Y₁, Z), Z = v soit la clause en construction et r(Y₂, T, U ) le littéral à ajouter. Aucune des variables Y2, T ou U n’appartient à un domaine de liai-son forcée, il n’y a donc pas d’unification “forcée” à effectuer. Par contre, par défaut, une contrainte doit être ajoutée sur l’une des trois variables Y₂, T ou U , de domaines respectifs

D^poss.₂ , D₄^gener. et D₅^gener.. Étant donnée la distribution de probabilité proposée ci-dessus,

le domaine de Y₂ a deux fois plus de chance d’être choisi que les domaines de T ou de U , ainsi, l’une des trois clauses suivantes est construite, avec les probabilités associées :

P (p(X1)← q(X1, Y1, Z), r(Y1, T, U ), Z = v) = 2/3 (choix du domaine D^poss.₂ ),

P (p(X₁)← q(X1, Y₁, Z), r(Y₂, T, U ), Z = v₁, T = v₂) = 1/3 (choix du domaine D^gener₃ ), P (p(X₁)← q(X1, Y₁, Z), r(Y₂, T, U), Z = v₁, U = v₂) = 1/3 (choix du domaine D₄^gener).

Contraintes additionnelles

Un dernier paramètre influant pour la construction des clauses du langage de descrip-tion est le nombre de contraintes addidescrip-tionnelles. En effet, une fois les littéraux ajoutés (en nombre spécifié), k contraintes sont ajoutées. Ces contraintes sont générés de la même fa¸con que précédemment, en choisissant un domaine relativement à la distribution P_dom. puis en ajoutant la contrainte liée au domaine (unification ou générique). Le nombre k est, quant à lui, défini par une nouvelle distribution P_contr..

15Notons qu’il est inutile de poser un poids pour les domaines de liaison forc´ee, pour lesquels l’unification est syst´ematique (e.g. D^poss.₁ ).

Par exemple, si on choisit la distribution

P_contr.(#contraintes = 0) = P_contr.(#contraintes = 1) = 0.5,

les clauses du langage contiendront au plus 1 contrainte additionnelle et il y aura approxi-mativement autant de clauses qui ne contiennent pas de contrainte additionnelle que de clauses qui en contiennent une.

Nous proposons dans la section suivante, des expérimentations avec différents lan-gages sur la base de données Mutagénèse. Nous observons à cette occasion l’influence des différents paramètres|L|, Pdom. et P_lit. du langage, sur la qualité de la mesure induite.

Dans le document Une méthode de classification non-supervisée pour l'apprentissage de règles et la recherche d'information (Page 127-130)