• Aucun résultat trouvé

Partie 3 Annexes

6.4 Adaptabilité

6.4.2 Adaptabilité de la carte et gestion des préférences

6.4.2.2 Autres pondérations

Nous avons présenté deux pondérations : une première est structurelle (ou topologique) et une seconde est liée { l’utilisation des données et aux interactions de l’utilisateur. D’autres critères peuvent être utilisés pour pondérer l’intérêt de certains éléments dans carte. Nous les regroupons dans trois catégories :

- les critères distributionnels, - les critères de pertinence,

- les critères de fiabilités et de qualité reconnus.

Les critères distributionnels sont obtenus à partir des procédures de fouille décrites dans le chapitre 5 (section 5.5 page 150). Par exemple, TF.IDF1 est une pondération proposée par Salton dont l’intérêt a été montré par le passé [Salton and Buckley 1987; Manning and Schütze 1999].

L’évaluation de la pertinence consiste à représenter une adéquation sémantique entre le contenu et le contexte. On peut par exemple pour cela utiliser des représentations vectorielles [Rocchio 1971; Lafourcade, Prince et al. 2002] complémentaires des approches à base de liens en recherche d’information [Bianchini, Gori et al. 2005].

Enfin, les derniers critères sont des critères relatifs à la réputation d’une partie des données dans la communauté. Certaines ressources sont considérées comme plus fiables ou plus précises du point de vue des données, annotations, etc. Ce critère permet de décrire qu’une donnée provenant de RefSeq est plus fiable qu’une donnée uniquement présente dans GenBank, ou encore qu’une annotation issue de PlasmoDB serait plus fiable qu’une annotation générée automatiquement par une méthode d’alignement.

A quoi s’appliquent ces critères ?

Les critères structuraux s’appliquent essentiellement aux nœuds. Ils sont obtenus par la propagation de poids entre les nœuds et au travers des liens. Nous n’avons pas perçu d’intérêt { la propagation de poids entre des métadonnées (type, source, etc.). En revanche, il est intéressant d’agréger les valeurs des ces critères en fonction de certaines métadonnées, ou de limiter la propagation en fonction des ces données (sources, preuve, type, etc.). Par exemple, dans le contexte d’une étude de réseaux sociaux des auteurs de PubMed, on peut souhaiter limiter cette pondération à des auteurs, et la propagation à des relations de co-écriture d’article (chemins acycliques de longueur 2 dans le sous-graphe composé des auteurs et des documents). Cela permet par exemple d’utiliser des mesures de centralité courantes dans ce domaine. Dans le cadre de l’ingénierie ontologique, on peut souhaiter consulter au niveau d’une ressource complète le cumul ou la moyenne des valeurs afin de comparer l’utilité de différentes ressources entre elles.

Les critères distributionnels s’appliquent aux nœuds. Une valeur correspond à l’occurrence répétée d‘un terme dans un ou plusieurs documents. A nouveau, il peut être souhaitable pour diverses raisons d’agréger les valeurs { l’échelle d’une ressource : quelles sont les sources les plus fréquemment utilisées ? Dans quelle mesure sont-elles généralistes ou spécialistes ? Lesquelles apparaissent dans des contextes similaires ? La propagation entre des métadonnées ne nous parait pas utile.

Les critères de pertinence proposent une mesure de similarité entre des nœuds et un contexte. L’application de ce critère se fait { l’instar des deux précédents : elle s’effectue { l’échelle des données et non des métadonnées ; on peut, dans un but introspectif, agréger les valeurs relatives à certaines métadonnées.

Au contraire, les critères de fiabilité et de réputation s’appliquent essentiellement { des métadonnées. Un concept d’UMLS par exemple est plus fiable qu’une chaîne de caractères extraite de façon répétée dans le corpus. Les données de RefSeq ou de PlasmoDB sont plus fiables a priori que celle de GenBank ou Entrez Gene respectivement. Une annotation manuelle peut être considérée comme plus sûre qu’une annotation automatique. Enfin, on peut souhaiter s’intéresser aux connaissances sur plusieurs espèces : dans le contexte médical humain par exemple, il peut être souhaitable de privilégier l’information issue d’expérimentation sur des cellules humaines { celle provenant d’expériences réalisées sur des souris.

On peut discuter l’application de ce type de critères pour certains types de nœuds : la réputation d’un auteur est exploitée quotidiennement, celle d’une revue ou d’une conférence aussi (« impact factor », etc.). Cependant, la cotation d’une revue est généralement réalisée par une institution de référence (ISIKnowledge par exemple), on peut représenter cette valeur comme un attribut du journal ou de la conférence. Le calcul de la cote d’un journal, d’un article ou d’un auteur est généralement basé sur leur référencement : un article est d’autant mieux coté qu’il est publié dans une revue cotée, et qu’il est référencé par des articles eux mêmes cotés. Un journal a d’autant plus d’intérêt qu’il contient des articles bien cotés (et par conséquent bien référencés). Un auteur est d’autant plus réputé qu’il publie des articles référencés fréquemment dans des journaux prestigieux. Ce principe de calcul rejoint en fait les méthodes d’analyse de liens regroupées dans les critères structurels.

Enfin, les critères d’utilisation des données s’appliquent aux deux niveaux indépendamment : nous avons déj{ montré comment l’action porte directement sur des gènes, des concepts, des regroupements, et leur voisinage. Ces actions peuvent aussi avoir en parallèle des répercutions

sur des métadonnées : lorsque l’utilisateur s’intéresse { certains attributs plus qu’{ d’autres, cela permet d’adapter la vue, de réordonner ces attributs, de masquer ceux qui paraissent inutiles, etc. De la même façon, si l’utilisateur ne s’intéresse pas aux publications, aux locus et aux protéines, mais uniquement aux gènes et { leurs annotations, il est possible d’adapter la vue. Lorsqu’il privilégie systématiquement une définition ou un terme provenant d’une même source, le logiciel peut prendre en compte cette préférence automatiquement, { l’échelle d’une ressource.