Définition d’une mesure d’appariement spécifique

4.2 Appariement sémantique entre une requête en langage naturel et une base

4.2.2 Comparaison sémantique de réseaux d’instances conceptuelles

4.2.2.4 Définition d’une mesure d’appariement spécifique

Etant données les heuristiques d’appariement de graphe présentées ainsi que la mesure de similarité locale entre deux instances, nous pouvons alors définir une mesure de proxi- mité globale Proxtot(req, doc)entre le graphe de la requête24et celui représentant le document comparé. Comme la structure du graphe de requête est déjà prise en compte à la fois dans l’appariement (on part des instances centrales pour aligner le reste des instances à celles du document via les relations origine et destination de celles-ci) et dans le calcul de similarité locale, il est inutile de la prendre en compte autrement dans le calcul final de la proximité totale des graphes. Nous décidons donc de mesurer Proxtot(req, doc)en calculant l’ensemble des similarités locales en rapport avec les nœuds centraux :

– si le graphe de requête contient une ou plusieurs instances centrales, elles sont toutes prises en compte dans le calcul global au niveau des différentes similarités locales possibles selon les appariements,

– dans le cas où le graphe ne contient aucune instance centrale, on utilise tout nœud origine ou destination d’une relation obligatoire.

Une fois les différentes configurations d’appariement explorées, Proxtot(req, doc)correspond alors à la plus grande des moyennes calculées.

Cependant, nous introduisons une contrainte supplémentaire, à savoir un seuil numé- rique lié aux instances centrales de la requête. Si la similarité locale entre chaque instance centrale de la requête et l’instance de concept la plus proche présente dans le document ne dépasse pas ce seuil, nous considérons que l’instance centrale en question n’a pas été 24_{Si la requête contient plusieurs graphes indépendants, le calcul est le même sur chacun d’entre eux, et} Proxtot(req, doc)correspond à la moyenne des proximités maximales pour chaque graphe, pondérées par la

retrouvée dans le document, et qu’il est donc inutile de retourner le document comparé à l’utilisateur.

Figure 4.10 —Illustration du calcul de proximité totale

Deux exemples sont donnés sur la figure 4.10. Nous signalons dès le départ que toutes les instances appariées sont nécessairement comparables. Dans le premier exemple, avec la configuration d’appariement décrite et i2en nœud central, nous obtenons, pour trois nœuds à apparier (i2, i3 et i4), deux similarités locales Simloc(i2, i02)et Simloc(i3, i30). En effet, l’appariement (i7, i60)n’est pas issu d’une relation obligatoire (rel6) mais il est indirectement pris en compte dans les calculs de Simloc(i2, i20)et Simloc(i3, i30)(voir plus haut). Comme i4 n’est pas apparié, ce phénomène baissera la valeur finale de proximité totale à travers la valeur de Sim_loc(i3, i30). On a donc la formule finale suivante :

Proxtot(req, doc) =Simloc(i2, i02)

Notons que si aucune instance centrale n’était indiquée, nous obtiendrions une proximité totale moyennée sur quatre instances (de i1à i4) :

Proxtot(req, doc) = 1₄∗ [Simloc(i2, i02) +Simloc(i3, i03)]

Pour le second exemple, la proximité globale se calcule à partir des meilleurs apparie- ments de similarité locale de i3et i5. L’absence, dans cette configuration, d’un appariement pour le nœud i5permet de déduire, en amont des calculs de similarité locale, que le document ne semble pas pertinent pour la requête. Si aucune configuration d’appariement ne

permet de trouver de correspondance simultanée pour i3et i5dans le document (ou que les similarités locales sont inférieures au seuil fixé), le document comparé sera définitivement abandonné vis-à-vis de la requête donnée.

4.3 Bilan

Dans ce chapitre, nous nous sommes appliqué à mettre en place un processus complet de RI sémantique capable de gérer une étape de maintenance de la RTO sur laquelle se fondent les étapes d’indexation et de formulation de requêtes. Dans nos travaux, l’ensemble des phases du cycle d’utilisation de la RTO pour la RI ne sont pas toutes abordées avec le même degré de granularité. En effet, nous avons cherché en priorité à en fournir un enchaînement cohérent, quitte à ce que le mode de fonctionnement envisagé reste relativement simple pour certaines étapes.

Nous avons toutefois voulu approfondir plusieurs points qui ne nous semblaient pas traités de façon satisfaisante dans la littérature. Dans un premier temps, nous nous sommes intéressé aux moyens qui permettraient d’indiquer à l’ontographe quand (et - dans une cer- taine limite - comment) réaliser une opération de maintenance sur une RTO utilisée dans un processus de RI. Nous avons à cette occasion émis et développé l’idée d’utiliser des critères prédéfinis par l’utilisateur pour mesurer automatiquement la qualité des annotations produites et ainsi repérer les limites de la RTO dans sa version courante. Les critères présentés mettent notamment en jeu les notions de termes et de concepts retrouvés et exploitent les liens de dénotation existant entre eux, ce qui nous a permis de réutiliser la principale contri- bution du chapitre 3, à savoir un méta-modèle de RTO en OWL. Concernant l’impact que peuvent avoir les modifications de la RTO sur les annotations produites, nous avons déjà eu en 2.2.3 un aperçu de l’intérêt et de la profondeur d’un tel sujet. Par choix, nous avons pré- féré résoudre le problème en créant plusieurs heuristiques selon l’opération de modification et la nature de l’entité ontologique modifiée.

Nous avons ensuite abordé la problématique d’appariement sémantique entre une re- quête et un document. A la différence de la plupart des approches de la littérature, nous envisageons une structure relativement riche pour les annotations sémantiques : chaque document est indexé par un (ou plusieurs) groupe(s) d’instances de concepts reliées entre elles par des relations sémantiques transverses. Dans ce paradigme, il devient vite difficile d’estimer numériquement la similarité sémantique entre requête et document : quelles instances apparier ? Quelles informations à leur sujet prendre en compte dans les calculs ? Par rapport aux quelques travaux existants, nous introduisons deux notions supplémentaires, la comparabilité de deux concepts et le caractère nécessaire / facultatif d’une relation. Ceci nous permet de réduire fortement le nombre et la complexité des calculs de similarité sé- mantique entre deux instances de concepts. Au niveau de cette mesure locale, nous nous proposons, par un calcul récursif, de prendre en compte un maximum d’informations sur les instances : le type des concepts, les valeurs d’attributs en commun, mais aussi la nature des instances auxquelles chacune d’elle est reliée. A notre connaissance, aucun travail de recherche n’avait pour l’instant proposé d’utiliser autant d’informations dans un calcul de similarité entre instances.

Dans le chapitre suivant, nous implémenterons l’ensemble de nos contributions théo- riques au sein d’un seul et unique prototype : TextViz. A travers son utilisation dans le cadre d’un protocole d’évaluation à définir, nous pourrons ainsi apprécier la qualité et l’in- térêt pratique de nos apports.

Troisième partie

5

Le projet OBIR

Dans ce chapitre, nous allons présenter une mise en pratique et une évaluation des contributions théoriques des chapitres 3 et 4. Nous mettons particulièrement l’accent sur les points suivants :

– le cycle en parallèle de maintenance de RTO / indexation sémantique,

– la mesure d’appariement sémantique entre une requête exprimée en langue naturelle et un document textuel,

– l’utilisation conjointe du méta-modèle en OWL-DL pour la formalisation explicite des différents éléments d’une RTO,

Du fait de l’ampleur de chacune des tâches et de contraintes temporelles, nous avons dû adapter nos contributions spécifiquement au domaine visé, à savoir le diagnostic automobile. Pour une mise à l’épreuve optimale de nos approches, il aurait alors fallu tester nos apports théoriques sur différents domaines avec pour seul point commun un objectif applicatif de RI. Nous nous sommes pour l’instant cantonné au domaine du diagnostic automobile, jugeant que le critère capital consistait en la satisfaction des utilisateurs en termes d’effica- cité : facilité d’utilisation, meilleurs résultats sans effort supplémentaire par rapport à une approche de RI classique . . . Toutefois, nous envisageons également d’évaluer nos contributions sur des domaines différents dans le cadre de travaux ultérieurs liés au projet Dynamo1_. Dans ce chapitre, nous décrivons en premier lieu l’implémentation de nos différentes contributions théoriques dans le cadre du projet OBIR (section 5.1). Nous nous attachons ensuite à mettre en place et à appliquer un protocole d’évaluation relatif à nos apports scien- tifiques (section 5.2).

5.1 Implémentation

Nous décrivons dans cette section les deux principales composantes de notre système, à savoir Textviz, l’outil qui assure à la fois la maintenance supervisée de RTO par évaluation des résultats d’indexation sémantique et le calcul de cette indexation, ainsi que l’outil de recherche sémantique. Nous commençons par exposer comment nous avons construit une RTO adaptée au contexte industriel à partir des documents de la base de recherche.

Dans le document Modélisation de connaissances à partir de textes pour une recherche d'information sémantique (Page 143-150)