• Aucun résultat trouvé

Mise en œuvre de l’interface multi-facettes proposée

5.5 N AVI : améliorer l’accès à l’information

6.1.3 Mise en œuvre de l’interface multi-facettes proposée

La mise en œuvre de l’interface multi-facettes d’accès au capital organisationnel nécessite de modéliser les données sources à partir desquelles les similarités sur le contenu et sur l’usage sont

calculées. Nous considérons les données issues du SI de l’organisation, incluant de ce fait les EPA. Ces données peuvent alors être représentées au sein des facettes composant les quatre vues.

6.1.3.1 Modélisation des composants du SI nécessaires à notre approche

L’interface proposée ne vise pas à constituer une nouvelle source d’information, mais plutôt à explorer les EPA gérés par les membres organisationnels. Notre approche est de ce fait basée sur l’exploitation du SI pour extraire des données relatives aux personnes et aux documents de l’organisation. Comme recommandé par la CNIL, nous ne tenons pas compte des répertoires et fichiers personnels afin de respecter la vie privée des membres organisationnels1. Ces éléments sont identifiables grâce à leur nom, qui contient une chaîne de caractères spécifique telle que « perso ». De telles chaînes peuvent être définies au niveau de l’organisation. Ainsi, seuls les réper- toires et fichiers non personnels sont exploités. Nous reprenons dans la figure II.6.5 les éléments du modèle unifié que nous considérons dans ce chapitre, en introduisant les attributs nécessaires à la compréhension.

Usager login: String nom: String prénom: String simC(p: Usager): Real simU(p: Usager): Real

Répertoire nom: String création: Date

simC(r: Répertoire): Real simU(r: Répertoire): Real racine Groupe nom: String rassemble > * 2..* Ressource titre: String url: String hachage: Long taille: Long

simC(d: Ressource): Real simD(d: Ressource): Real stocke > * * Terme terme: String getIdf(): Real contient > * * Index nb: Integer getTf(): Real sous-groupes * hiérarchie* AnnotationAncrée titre: String création: Date

Figure II.6.5 – Diagramme des classes UML représentant les données exploitées par l’interface.

Chaque membre est modélisé par la classeUsager, il est caractérisé par sonloginet son identité (nometprénom). Il fait éventuellement partie deGroupes, généralement explicités dans l’organi- gramme de l’organisation ou bien constitués pour des activités spécifiques telles que des projets. Une personne possède et gère son EPA (hiérarchie deRépertoires). Chaque répertoire peut conte- nir des sous-répertoires et des AnnotationsAncrées sur desDocuments. Nous avons représenté cette classe par une classe d’association pour ne pas faire figurer la classeAncrageintermédiaire. UneAnnotationAncréeest caractérisée par sa date decréationet letitreattribué par son proprié- taire. L’attributtitred’unDocumentaccessible à uneurldonnée correspond au titre extrait de ses méta-données. Un même document n’est indexé qu’une seule fois même s’il est annotaté plu- sieurs fois. Le résultat de son indexation (classesTermeetIndex) est mis à jour lorsqu’une modifi- cation de son contenu est détectée. Pour ce faire, nous comparons une valeur de hachage calculée 1. « un message envoyé ou reçu depuis le poste du travail [...] revêt un caractère professionnel, sauf indication manifeste dans l’objet du message ou dans le nom du répertoire où il pourrait avoir été archivé par son destinataire qui lui conférerait alors le caractère et la nature d’une correspondance privée protégée par le secret des correspon- dances. » (Bouchet, 2004, p. 25)

6.1. Interface multi-facettes d'accès au capital organisationnel

suite à la visite du document par un usager avec l’attributhachagecalculé lors de l’insertion du document ou de sa dernière mise à jour. En complément de cet attribut hachage, la donnée de latailledes documents permet de limiter le problème des collisions de hachage (deux contenus différents possédant une valeur de hachage identique).

La section suivante décrit l’exploitation du contenu des documents représenté par les classes TermeetIndex(resp. de l’organisation des documents représentée par la classeRépertoire) et le calcul d’une mesure de similarité thématique (resp. liée à l’usage des documents) correspondant à la méthodesimC(resp.simU).

6.1.3.2 Mesures de similarité sur le contenu et sur l’usage des documents

Les informations présentées dans diverses facettes de l’interface sont basées sur le calcul de si- milarités thématique et d’usage. C’est pourquoi nous détaillons ces similarités avant d’en montrer l’exploitation par des techniques de visualisation adaptées.

Similarité basée sur le contenu des documents indexés Évaluer la similarité entre deux docu- ments est une opération fondamentale dans le domaine de la RI (Baeza-Yates et Ribeiro-Neto, 1999, ch. 2). Une telle similarité est classiquement fonction du contenu textuel des documents in- dexés (section II.2.2.2). Plusieurs modèles mathématiques ont été proposés, le plus répandu étant le modèle vectoriel (Salton et al., 1975) où chaque document est représenté par un vecteur dans l’espace vectoriel des termes distincts du corpus. Ainsi, un document diaura pour représentation

~

di= (wi1, . . . , win) où chaque wij ∈ R+ correspond au poids du jeterme dans le document di, sa- chant que le corpus comprend n termes. Classiquement, son poids dépend de deux facteurs : sa fréquence relative dans le document tfij et l’inverse de sa fréquence dans le corpus idfj. Le pre- mier facteur, correspondant à la fonctiongetTf, est d’autant plus élevé que le terme est fréquent dans le document. Le second facteur, correspondant à la fonctiongetIdf, est d’autant plus élevé que le terme est rare dans le corpus car, dans ce cas, il a un fort pouvoir discriminant pour les documents qui le contiennent. Baeza-Yates et Ribeiro-Neto (1999, ch. 2) synthétisent les variantes proposées dans la littérature pour calculer ces deux facteurs, que nous ne détaillons pas ici. La combinaison des deux facteurs selon wij= tfij· idfj fournit alors une valeur d’autant plus élevée que le terme est fréquent dans le document et globalement rare dans le corpus. Par la suite, le calcul de la similarité entre deux documents d1et d2repose sur une fonction appliquée aux deux vecteurs qui les représentent, par exemple cos( ~d1, ~d2).

Pour évaluer la similarité entre deux répertoires, nous exploitons l’approche du « méga- document » proposée par Klas et Fuhr (2000). Elle consiste à représenter un répertoire comme un document unique, créé en concaténant le contenu textuel des documents qu’il contient. Nous utilisons le même principe pour évaluer la similarité entre personnes, où une personne est repré- sentée par un document unique créé en concaténant tous les documents de son EPA.

Dans la vue 1, la facettevDocsThéest construite à partir des valeurs de similarité calculées pour les documents pris deux à deux. Quant aux thématiques listées dans la facettelThé, elles cor- respondent aux termes issus de l’indexation, classés par fréquence décroissante. Enfin, la facette vPersde la vue 3 repose sur le calcul des similarités entre personnes prises deux à deux.

Similarité basée sur l’usage des documents classés dans les EPA Contrairement à la similarité de contenu basée sur le résultat de l’indexation, la similarité d’usage définie dans le chapitre II.4 repose uniquement sur la structure des EPA. Cette mesure n’évalue pas à quel point deux docu- ments contiennent des termes identiques, mais plutôt à quel point ils sont utilisés ensemble par les individus.

Le calcul de similarités inter-documents sur l’usage est restitué dans les facettesvDocsUde la vue 1 etlDocsReliésde la vue 2. Concernant la similarité inter-personnes, elle figure dans la facette lPers.

6.1.3.3 Techniques de visualisation utilisées pour représenter documents et personnes

Comme le souligne la section I.2.4.2 (p. 19), pléthore de techniques et outils de visualisation ont été proposés dans la littérature (Herman et al., 2000; Chen, 2006; Yang et al., 2008). Or, nous devons sélectionner des visualisations adaptées à notre objectif : offrir une vue globale du capital organisationnel. Deux critères de choix primordiaux sont à considérer. Premièrement, la visuali- sation doit permettre de représenter des éléments en fonction de leur similarité (de thématique ou d’usage). Deuxièmement, elle doit permettre l’affichage d’un nombre d’éléments d’autant plus important que l’organisation considérée comprend de nombreux membres, ce qui a trait au pro- blème du passage à l’échelle. En tout état de cause, la contribution de ce chapitre ne repose pas sur les choix effectués en matière de techniques de visualisation, mais plutôt sur l’exploitation conjointe des similarités de thématique et d’usage dans l’interface multi-facettes proposée. De ce fait, les choix que nous présentons dans cette section peuvent être remis en question en fonction de critères propres à l’organisation.

Pour représenter les liens d’usage entre les documents et entre les personnes, nous avons retenu une visualisation sous forme de graphe. Cette représentation favorise l’identification de groupes de documents utilisés ensemble, formant des sous-graphes connexes. Les nœuds repré- sentent les documents ou personnes, ils sont reliés par des arcs dont la longueur est inversement proportionnelle à leur similarité. Les arcs entre les documents sont étiquetés avec les chemins ab- solus issus des EPA qui les contiennent. La construction du graphe tenant compte des similarités d’usage calculées est réalisée par l’application d’un algorithme de placement dirigé par les forces d’attraction-répulsion (Eades, 1984; Fruchterman et Reingold, 1991). Le graphe de la figure II.6.6 a été ainsi obtenu pour l’expérimentation rapportée dans (Cabanac et al., 2007a).