• Aucun résultat trouvé

Pour éviter les biais liés à la longueur du document on peut calculer le TF de t par le nombre d’occurrences de t dans d normalisé par la somme totale des occurrences de tous les termes k dans d (formule ( 2.2 )).

!" #, % = '(()*+,(+ (#, %) '(()*+,(+

0 (1, %)

( 2.2 )

On peut également utiliser la fonction logarithmique d’occurrence suivante (formule ( 2.3 )) :

!" #, % = 1 + 4'5 '(()*+,(+ #, %

( 2.3 )

Cette formule peut être appliquée pour réduire l’écart entre les termes qui apparaissent le plus souvent et les termes qui apparaissent le moins souvent dans le

document : le terme t1 qui apparait 10 fois dans le document est plus pertinent par

rapport au terme t2 qui n’apparait qu’une seule fois. Cependant le terme t1 n’est pas

forcement 10 fois plus pertinent que le terme t2.

La fréquence inverse du document, notée IDF (Inverse Document Frequency), mesure l’importance d’un terme dans toute la collection, ce qui représente la pondération globale du terme dans la collection. L’idée de cette mesure est que les termes qui apparaissent dans peu de documents de la collection sont plus représentatifs que ceux qui apparaissent dans tous les documents de la collection. Cette mesure peut être calculée par la formule ( 2.4 ) suivantes :

67" #, 7 = 4'5 (7 ,8)

( 2.4 )

Ou bien par la formule ( 2.5 ) suivante :

67" #, 7 = 4'5 ( 7 ,8+ 1)

( 2.5 ) D représente l’ensemble des documents de la collection et ,8 représente le nombre de document de D dans lesquels le terme # apparait.

Finalement, la fonction TF*IDF (Robertson et Sparck Jones, 1988) est le produit des deux mesures TF et IDF. Cette fonction permet de palier à la limite de la mesure TF au niveau de la pertinence globale.

La fonction TF*IDF trouve ses limites dans le cas d’un document qui comporte beaucoup de termes. Dans ce cas, des solutions dérivées telles que TF*IDF réduction et LSA (Latent Semantic Analysis) (Landauer, Foltz et Laham, 1998) peuvent être utilisées. Les techniques d’apprentissage telles que les machines à vecteurs de support (SVM) peuvent également être exploitées (Isozaki et Kazawa, 2002). La pondération probabiliste qui consiste à pondérer chaque terme via sa probabilité de pertinence pour l’utilisateur peut être également appliquée (Joachims, 1997). Pour terminer, soulignons que même si les modèles de représentation ensembliste permettent de traduire une multiplicité d’intérêts de l’utilisateur, cette représentation manque parfois de structuration, de cohérence, de niveaux de généralités/spécificités et de relations de corrélation entre les divers intérêts de l’utilisateur. Toutefois, la représentation ensembliste du profil utilisateur possède l’avantage d’être simple à mettre en œuvre. De ce fait, elle est souvent utilisée et appliquée sur de grandes collections de documents.

2.2.2.2. Construction d’un profil utilisateur basé sur les réseaux sémantiques

Ce type de représentation consiste à enregistrer les intérêts de l’utilisateur dans un réseau sémantique dont les nœuds représentent un terme traduisant un intérêt de l’utilisateur et les liens entre les nœuds représentent la proximité sémantique entre les nœuds.

Cette représentation permet de résoudre le problème de la polysémie des termes (que l’on peut rencontrer dans la représentation ensembliste) en mettant en place des relations de corrélation sémantique entre les termes. La relation entre les nœuds peut être traduite par leur nombre de co-occurrences.

La technique de construction du profil par réseau sémantique, repose sur le même principe d’extraction de termes que celui de l’approche de construction du profil ensembliste. Ce qui différencie ces deux approches est la façon de représenter les termes. Au lieu d’ajouter des termes extraits dans un vecteur, on les ajoute sur le réseau des nœuds. Un nœud peut représenter un seul terme ou un concept et ses termes associés (par exemple le concept « Programmation » et ses termes associés : « Coder », « Développer », …).

2.2.2.3. Construction d’un profil utilisateur basé sur une représentation conceptuelle

La représentation conceptuelle d’un profil utilisateur, consiste à représenter les intérêts de l’utilisateur, par un réseau de nœuds conceptuels décrivant un domaine d’intérêts de l’utilisateur et de les relier entre eux en respectant la topologie des liens, définie dans des hiérarchies (essentiellement basée sur l’utilisation d’une l’ontologie). On obtient, un profil représenté sous forme d’une hiérarchie de concepts, grâce à l’association des intérêts de l’utilisateur aux concepts des domaines de l’ontologie (Gauch et al., 2007).

La représentation conceptuelle est similaire à la représentation par réseau sémantique, dans le sens où ces deux types de représentation sont basés sur des nœuds de termes reliés par des relations. Cependant, dans la représentation conceptuelle, les nœuds représentent des domaines abstraits plutôt que des termes spécifiques ou des ensembles de mots relatifs comme dans la représentation par réseau sémantique. De plus, les liens entre les concepts sont explicitement induits de l’ontologie concernée et le profil résultant inclura des relations informationnelles plus diverses et spécifiques. La représentation conceptuelle peut également être assimilée à la représentation ensembliste du fait que chaque concept décrivant un intérêt est représenté par un vecteur de termes pondérés où le poids traduit le degré d’intérêt de l’utilisateur pour ce concept (Gauch et al., 2007) .

Dans la littérature, plusieurs types de structures hiérarchiques et ressources sémantiques ont été définies et sont disponibles. Les plus simples sont construits sur la base d’une taxonomie de concepts ou d’un thesaurus de référence. Par exemple, les systèmes de (Guarino, Masolo et Vetere, 1999) utilisent l’ontologie Sensus, une taxonomie d’approximativement 70 000 nœuds, et un sous-ensemble de l’annuaire Yahoo! en tant que hiérarchie de référence. On trouve également ODP (Open Directory Project), qui est une hiérarchie de concepts open source au format RDF largement adoptée par de nombreux systèmes utilisant l’approche conceptuelle telles que OBIWAN (Ontology Based Informing Web Agent Navigation) (Pretschner et Gauch, 1999), Personae (Tanudjaja et Mui, 2002).

Dans un contexte à grande échelle telle que le Web, la représentation conceptuelle peut engendrer certains problèmes d’hétérogénéité et de diversité des intérêts. D’ailleurs, les utilisateurs peuvent avoir différentes perceptions d’un même concept, cela peut engendrer des imprécisions lors de la représentation de l’utilisateur (Godoy, 2006).

Après avoir donné les éléments principaux des différentes techniques de construction et de représentation d’un profil utilisateur, nous allons nous intéresser, dans la section suivante, à la prise en compte de l’évolution du profil utilisateur.