Similarité binaire, différents cas de figure

3.3 Proposition d’une mesure de comparaison robuste

3.3.1 Similarité binaire, différents cas de figure

Les deux cas problématiques soulevés en section 3.2.2 résultent du fait que les arêtes sont considérées indépendamment les unes des autres. En effet, GED suppose qu’un graphe n’est qu’un ensemble de jugements binaires indépendants : soit deux sommets sont en relation, soit ils ne le sont pas. Or, comme nous l’avons vu en sous- section3.2.2, deux sommets peuvent être proches sans être adjacents. Intuitivement, s’il existe beaucoup de chemins courts entre deux sommets, la situation n’est pas la même que s’il n’existe que peu de chemins (longs) entre ces sommets. Pourtant ces deux situations sont considérées comme équivalentes avec une mesure de type GED.

Pour comprendre ces différents cas, supposons que l’on dispose d’une mesure binaire évaluant si deux sommets sont « proches » (i.e. similaires) d’après la topologie du graphe, et ce indépendamment du fait qu’ils soient adjacents ou non. Pour chaque paire de sommets, quatre cas sont possibles :

• adjacente et similaire (on note « 11 »), • adjacente mais non-similaire (« 10 »),

• non-adjacente mais similaire (« 01 »), • non-adjacente et non-similaire (« 00 »).

On comprend que les situations qui posaient problème jusque là correspondent au cas où une paire est adjacente (et a priori similaire) dans un graphe et non-adjacente mais similaire dans l’autre, et au cas où une paire est non-adjacente (et a priori non-similaire) dans un graphe et adjacente mais non-similaire dans l’autre.

Les tableaux 3.1 montrent le changement de perspective qui s’opère lorsque l’on considère une similarité binaire, en plus de la notion d’adjacence. Quand on ne considère que l’adjacence, le tableau3.1a présente les quatre cas possibles pour une paire donnée. Le tableau3.1bprésente les seize cas existant lorsque l’on considère, en plus, une telle similarité binaire. Sur le tableau3.1ales interprétations (ok = accord, ko = désaccord) des quatre cas sont peu discutables. Par contre, pour évaluer les seize cas du tableau 3.1b des choix doivent être faits. Les qualifications présentées correspondent aux choix suivants :

• priorité de l’adjacence sur la similarité,

• un conflit sur l’adjacence est « résolu » s’il n’y a pas de conflit sur la similarité. Une façon de comprendre ces choix est de considérer que la similarité vient soit confirmer soit mettre en doute l’adjacence. Ainsi on a pour une paire :

• adjacente mais non-similaire (10) : doute sur l’adjacence (noté 1?), • non-adjacente mais similaire (01) : doute sur la non-adjacence (0?), • adjacente et similaire (11) : certitude sur l’adjacence (1!),

• non-adjacente et non-similaire (00) : certitude sur la non-adjacence (0!). Ainsi, tant qu’une arête est présente (ou absente) dans les deux graphes, peu importe si il y a un doute ou non, il n’y a pas de conflit (ok+ou ok−). Aussi lors d’un conflit

Table 3.1 – Différents cas possibles lors de la comparaison d’une paire de sommets

entre deux graphes et proposition de qualification des conflits.En (a) on ne considère que l’adjacence (1 : la paire est adjacente, 0 : elle ne l’est pas). En (b) on considère l’adjacence et une similarité binaire entre sommets (11 : paire adjacente et similaire, 10 : adjacente mais non similaire, 10 : non adjacente mais similaire, 00 : non adjacente et non similaire).

(a) on ne considère que l’adjacence.

1 0

1 ok+ _ko

0 ko ok−

(b) on considère l’adjacence et une similarité bi-

naire. 11 10 01 00 1! 1? 0? 0! 11 1! ok+ _ok+ _[ok+_] _ko 10 1? ok+ _ok+ _ko? _[ok−_] 01 0? [ok+_] _ko? _ok− _ok− 00 0! ko [ok−] ok− ok−

(paire adjacente d’un coté seulement) si la paire est en doute sur l’un des graphes mais confirmée sur l’autre alors le conflit est évité (cas [ok+_{] et [ok}−_{]). Il reste alors}

deux cas de conflit :

• ko : 11 face à 00 (i.e. 1! face à 0!) on parle de conflit fort, • ko? _{: 10 face à 01 (i.e. 1? face à 0?) on parle de conflit faible.}

Notons qu’il peut être pertinent de ne pas considérer comme désaccord les conflits faibles. En effet, avec l’interprétation proposée, ce cas correspond au fait que les deux graphes présentent un doute. On ne sait donc pas s’il doit y avoir une arête ou non, mais les deux graphes sont prêts à « faire la concession ».

Il faut remarquer que l’interprétation inverse consistant à considérer la simila- rité prioritaire sur l’adjacence amène au même résultat. Deux paires similaires de la même manière dans les deux graphes ne seraient pas en conflit et l’adjacence vien- drait résoudre les conflits entre paires similaires seulement dans un des graphes. Une dernière solution serait de ne considérer que la similarité en ignorant l’adjacence. Le problème qui se pose alors est que le désaccord de similarité entre les paires non- adjacentes peut « écraser » tout le reste. En effet le nombre de paires non-adjacentes est souvent de plusieurs ordres de grandeur plus grand que le nombre d’arêtes. Les conflits de structure qui peuvent apparaître sur l’ensemble de ces paires, même peu nombreux en proportion, dominent complètement la comparaison. Il faudrait sinon reprendre la mesure pour la normaliser par le nombre total de paires de sommets.

Ainsi en considérant une similarité binaire, qui vient confirmer ou remettre en cause l’adjacence, on observe que les deux exemples problématiques illustrés en section 3.2.2 peuvent être résolus. En effet le premier cas (figure 3.1) correspond à une comparaison où beaucoup des paires sont dans la situation 1! face à 0?. Alors que dans le second cas, la comparaison est faussée par un nombre important de paires 1! face à des paires 0?. Une similarité binaire peut donc être utilisée de la sorte pour proposer une comparaison robuste entre graphes. C’est le travail qui a été proposé dans [Navarro et al.,2012a]. Nous nous limitons ici à exploiter cette idée pour comprendre le problème, nous proposons en effet dans la suite une méthode utilisant une similarité continue plutôt que binaire.

Similarité seulement pour les paires non-adjacentes ? Il est possible de choi- sir de ne considérer la similarité que pour les paires non-adjacentes (ou symétrique- ment seulement sur les paires adjacentes). Cela revient à s’interdire de remettre en question les arêtes (ou les non-arêtes). Les tableaux 3.2 présentent ces deux situations. Dans certains cas spécifiques, il peut être intéressant de limiter la considération d’une similarité aux seules paires adjacentes, mais en pratique c’est surtout la mise en cause des paires non-adjacentes qui est intéressante. Il peut y avoir plusieurs rai- sons à cela. Tout d’abord on peut disposer d’une connaissance extérieure qui indique

Table 3.2 – Comparaison d’une paire de sommets entre deux graphes quand une

similarité est considérée seulement sur les paires non-adjacentes ou seulement sur les paires adjacentes.

(a) Seules les paires non-adjacentes peuvent

être mises en doute par la similarité.

1 01 00

1! 0? 0!

1 1! ok+ [ok+] ko 01 0? [ok+_] _ok− _ok−

00 0! ko ok− ok−

(b) Seules les paires adjacentes peuvent être

mises en doute par la similarité.

11 10 0

1! 1? 0!

11 1! ok+ ok+ ko 10 1? ok+ _ok+ _[ok−_]

0 0! ko [ok−] ok−

que les arêtes sont toutes correctes, et que donc les conflits ne peuvent être minimisés même lorsque c’est une arête entre deux sommets éloignés qui pose problème. Une autre raison, plus pragmatique, est que ces cas (paire 1? face à 0!) sont rares. En effet les graphes réels contiennent peu d’arêtes mises en doute par la topologie, et peu de celles-ci correspondent à des paires non-adjacentes dans l’autre graphe. Enfin pour résoudre le premier problème présenté en section 3.2.2, il suffit de prendre en compte une similarité seulement pour les paires non-adjacentes. Dans la pratique, ce problème est plus fréquent que le second. Notons qu’alors il n’existe plus de conflit faible. Dans la suite nous nous limiterons donc à calculer une similarité sur les paires non-adjacentes lors d’un conflit.

Une autre façon de comprendre ces approches « partielles » est de considérer que les graphes sont corrects mais incomplets ou complets mais incorrects. En effet si l’on considère qu’un graphe est un ensemble d’arêtes, alors dire qu’un graphe est correct signifie que toutes ses arêtes sont justes et ne peuvent être remises en cause, par contre il est possible qu’il en manque. À l’inverse dire qu’un graphe est complet signifie que toutes les arêtes sont bien présentes, par contre il peut y en avoir « en trop ». Quand on ne considère la similarité que pour les paires non-adjacentes, alors on autorise la topologie à remettre en cause seulement des paires non-adjacentes. Les arêtes sont considérées comme correctes dans tout les cas.

Dans le document Métrologie des graphes de terrain, application à la construction de ressources lexicales et à la recherche d'information (Page 94-97)