documents et le suivi temporel d’entités

(1)

et métacritères pour le filtrage de

documents et le suivi temporel d’entités

Vincent Bouvier

^1,2

, Patrice Bellot

²

1. Kware, 565 Rue Marcelin Berthelot 13851 Aix-en-Provence Cedex 3 (France) firstname.lastname@kware.fr

2. Aix-Marseille Université CNRS, LSIS UMR 7296 Av. Escadrille Normandie Niemen

13397 Marseille Cedex 20 (France) firstname.lastname@univ-amu.fr

RÉSUMÉ. Cet article s’intéresse à une problématique de filtrage ciblé de documents. En plus de détecter et de désambiguïser les entités dans un flux de documents, notre approche ambitionne de sélectionner seulement les documents qui présentent des informations nouvelles concernant les entités cibles. Nous proposons une nouvelle approche faiblement supervisée à base de combinaison de modèles de langue dynamiques et temporels (time-aware) qui permettent de suivre l’évolution des entités. Nous mettons en place des métacritères qui permettent la désambiguïsa- tion d’entité dans un document, une estimation de la nouveauté et par delà l’intérêt de conserver ou non les documents selon une approche de classification par forêts aléatoires. Nous montrons sur les données de la tâche KBA (Knowledge Base Acceleration) de TREC que nos stratégies aboutissent à des performances meilleures que l’état de l’art.

ABSTRACT. This article addresses an issue on entity driven filtering task. While detecting and disambiguating entities within documents, our approach strives to select documents of interest according to their centrality to some given named entities. We focus on selecting documents that bring novelty or relate an important event about an entity. We enhance entity profiles so that temporal aspects can be considered by means of new time-aware language models. We designed meta-criteria aimed to help disambiguating an entity within a document and detect novelty/interestingness. Using meta-criteria makes our approach entity independent. We test our approach on the Knowledge Base Acceleration framework provided for the Text REtrieval Conference (TREC). Our strategies outperform best systems presented on this framework.

MOTS-CLÉS :filtrage, modèle de langue, profil d’entité nommée, TREC KBA, classifiation, rafale.

KEYWORDS: filtering, language models, named entity profile, TREC KBA, classification, burst.

DOI:10.3166/DN.18.1.75-96 c2015 Lavoisier

(2)

1. Introduction

Il existe aujourd’hui plusieurs alternatives pour suivre des informations sur le web.

Suivant la nature de l’information recherchée, il est possible d’utiliser des sites spé- cialisés dans l’actualité, les réseaux sociaux, les microblogs, les blogs et forums. Par- courir ces sources et sélectionner les informations pertinentes est un processus long et fastidieux. Il est possible d’utiliser les moteurs de recherche qui permettent de rechercher des documents en utilisant un ensemble de mots clés (la requête). Cependant, il n’est pas toujours évident de formuler un besoin sous forme de requête. La réactivité, concernant les informations diffusées sur le web, constitue un réel besoin dans certains domaines d’application comme la veille technologique ou encore le marketing.

Une mesure de pertinence, faite sur un document compte tenu d’un sujet, permet de quantifier le rapport existant entre le document et le sujet. Dans cet article, nous fe- rons la distinction entre pertinence et intérêt. L’intérêt pour un document est déterminé selon des critères qui sont propres à un domaine. Par exemple dans la veille technologique, un document qui parle d’une information nouvelle suscite plus d’intérêt qu’un document qui parle d’une information déjà connue.

Ces problématiques relèvent du domaine de la recherche d’information (RI) et plus particulièrement du filtrage d’information. À la différence d’un système de RI classique qui s’appuie sur un index, le filtrage d’information consiste à traiter chaque document d’un fluxau fur et à mesure de leur apparition (Belkin, Croft, 1992). Un document est donc évalué dès l’instant où il apparaît sur le web.

Mesurer, en temps réel, la pertinence d’un document pour un sujet est un challenge.

Il est possible de définir un sujet à l’aide de simples mots clés, de phrases ou encore d’un ensemble de documents. Plutôt que de parler de sujet, nous nous concentrons ici plus particulièrement sur les entités nommées (personnes, entreprises, groupes de musique...). Détecter qu’un document est pertinent pour une entité relève de plusieurs facteurs. Tout d’abord, il faut identifier les différentes mentions de l’entité à l’intérieur du document. Cependant, cela n’est pas suffisant. En effet, deux entités différentes peuvent partager un même nom, on dit alors qu’elles sont homonymiques (par ex.

Tim Cook, le président d’Apple ou le joueur professionnel de hockey). Pour détermi- ner qu’un document parle d’une entité plutôt que d’un homonyme, il est nécessaire d’utiliser des connaissancesa priori.

Outre les aspects liés à l’entité, il existe d’autres indicateurs qui peuvent donner des précisions sur la nature de l’information véhiculée par les documents. En effet, lorsqu’un évènement est extrêmement relayé cela peut provoquer des phénomènes de rafale de documents. Aussi, si un phénomène de rafale est détecté, cela peut éventuel- lement indiquer la présence d’un fait important pour une entité.

Dans cet article, nous nous intéressons aux profils d’entités et à leur utilisation dans un système de filtrage de documents. Nous proposons une définition de profil d’entité ainsi qu’un ensemble de critères pouvant être déduits des profils pour chacun des documents. Nous définissons également d’autres critères axés sur l’aspect temporel et le phénomène de rafale. Enfin, nous proposons d’utiliser ces critères dans un système

(3)

de classification pour répondre à la problématique de filtrage de documents en temps réel. Nous testons notre approche en utilisant les ressources données pour la campagne d’évaluation TREC (Text REtrieval Conference) dans le cadre de la tâcheKnowledge Base Acceleration(KBA).

2. Travaux connexes

Les entités sont citées dans les documents à l’aide de mots qui les représentent. Ils constituent les différentes appellations d’une entité. Il est possible de faire référence à une entité de différentes manières (par exemple: "Tim Cook" et "le dirigeant d’Apple"

désignent en 2014 la même personne). A l’inverse, lorsque des entités partagent une même appellation, on dit qu’elles sont homonymiques.

Comme le montre (Navigli, 2009), le sens d’un mot dépend en grande partie du contexte dans lequel le mot apparaît. Il en est de même pour les entités. Le contexte pour une entité est souvent représenté sous la forme d’un profil d’entité. (Sehgal, Sri- nivasan, 2007) assimilent les profils d’entités à des modèles de langue. Un modèle de langue peut par exemple correspondre à une représentation vectorielle d’un ensemble de documents suivant un modèle unigramme ou bigramme... Ils montrent qu’en utilisant lesnpremiers documents trouvés par un moteur de recherche à l’issue d’une requête portant le nom d’une entité, il est possible de créer un modèle de langue qui est très similaire à celui de la page Wikipédia dédiée à l’entité. Cette méthode ne permet cependant pas de s’affranchir du problème d’homonymie. Par ailleurs, le modèle de langue est très dépendant à la fois de la requête et du moteur de recherche utilisé.

(Cucerzan, 2007) proposent d’utiliser Wikipédia et les connexions entre les différents articles pour extraire, de manière non supervisée, différentes informations concernant une entité. En donnant (manuellement) la page Wikipédia dédiée à l’entité, ils proposent d’extraire un modèle de langue, les différentes variantes de nom de l’entité et les différentes relations que l’entité a avec d’autres entités de Wikipédia. Cette mé- thode permet de créer un profil d’entité relativement complet et précis puisque la page de départ est donnée manuellement.

Bien souvent, une entité évolue au fil du temps. Cependant, faire évoluer le profil d’une entité n’est pas simple. La méthode de (Cucerzan, 2007) n’est pas toujours adaptée puisque le temps nécessaire à la mise à jour sur Wikipédia peut être très long.

En effet, il a été montré dans une étude de (Franket al., 2012) qu’il existe un temps médian de 356 jours entre le moment où une actualité apparaît sur le Web et le moment où cette actualité fait l’objet d’une édition de l’article Wikipedia concerné. Pour cela (Efron, 2014) proposent de mettre à jour continuellement le modèle de langue d’une entité en utilisant les documents détectés (par un système de classification) comme importants pour l’entité. Ils montrent alors que les résultats du système de filtrage sont fortement dégradés. La mise à jour du profil est hautement dépendante du système de classification et de ce fait il se peut que le modèle de langue dérive. Afin de se prévenir d’une dérive du modèle de langue, nous proposons dans cet article d’associer à une entité non pas un seul mais deux modèles de langue : le modèle de langue de référence

(4)

extrait en utilisant des méthodes proches de celles décrites dans (Cucerzan, 2007) et un modèle de langue sensible à l’évolution temporelle (Time-Aware), construit en utilisant les documents détectés comme importants pour l’entité. Nous nous inspirons pour cela de (Li, Croft, 2003) qui ont introduit une notion de temporalité dans un modèle de langue basé sur la vraisemblance de la requête. Ce modèle se limite à donner plus d’importance aux documents récents. Notre approche ambitionne d’utiliser la temporalité de manière différente en agissant directement sur les mots présents dans le modèle.

La campagne d’évaluation TREC (Text REtrieval Conference) s’intéresse depuis longtemps au filtrage de documents (Robertson, Soboroff, 2002), aux détections d’en- tités nommées (Baloget al., 2010), et à la détection de la nouveauté (Harman, 2002).

Depuis 2012, la tâcheKnowledge Base Acceleration(KBA) propose de combiner les travaux des années précédentes et d’imaginer un système de filtrage de documents centrés sur les entités (Franket al., 2012). De nombreux systèmes ont déjà été pré- sentés pour cette tâche. (Kjersten, McNamee, 2013) proposent d’utiliser l’algorithme de classification supervisée de type SVM en créant un modèle par entité. Bien que performante, cette méthode est hautement supervisée puisqu’elle requiert d’avoir un corpus d’entraînement pour chaque nouvelle entité. Nous avons, quant à nous, pro- posé en 2012 (Bonnefoyet al., 2013a ; 2013b) un système de classification basé sur le calcul de métacritères comme proposé dans un autre contexte par (Zhou, Chang, 2013). Les métacritères transcrivent le comportement d’un critère de telle sorte que celui-ci soit comparable d’une entité à une autre. L’utilisation de métacritères permet alors de s’abstraire de nouvelles données d’entraînement pour chaque nouvelle entité.

Nous avons proposé trois types de métacritères relatifs à l’entité, au document et à une série temporelle. Dans notre étude de (Bonnefoyet al., 2013b) nous avions obtenu des résultats aussi bons que le meilleur système de 2012 malgré une très faible supervi- sion. Le meilleur système de TREC 2013, (Bellogín, Gebremeskel, 2014), combine les meilleures idées de 2012 et utilise deux classifieurs en cascade, comme nous l’avons introduit dans (Bonnefoyet al., 2013a) avec des métacritères également présents dans (Baloget al., 2013). Dans cet article, outre la définition des profils par deux modèles de langue au lieu d’un seul, nous définissons et évaluons de nouveaux métacritères pour exploiter ces profils dans un contexte de filtrage centré sur les entités.

3. Les profils d’entités avec deux modèles de langues distincts

Nous avons écrit plus haut que la mise à jour du modèle de langue d’un profil d’en- tité pouvait provoquer une dérive thématique du modèle. Nous proposons ici d’utiliser deux modèles de langue qui visent deux objectifs distincts :

Le modèle de langue de Référence (Reference Language Model RLM)contient les informations de contexte essentielles à la désambiguïsation de l’entité. Ces informations peuvent provenir de différents documents (par ex. la page Wikipédia de l’entité).

Le modèle de langue (n-grammes) de Référence associe à chaque unité lexicale une probabilité par maximum de vraisemblance estimée sur un document connu.

(5)

Le modèle de langue sensible à l’évolution temporelle (Time-Aware Language Mo- del TALM)contient les informations qui proviennent des nouveaux documents du flux non annotés manuellement. En plus d’enregistrer la fréquence d’apparition des mots, le modèle de langueTime-Awareconserve la date à laquelle ils apparaissent. À force de grandir, ce modèle de langue peut être soumis au même problème de dérive que l’on a évoqué. Pour y remédier, nous proposons d’utiliser une fonction sigmoïde inversée qui va en quelque sorte permettre d’oublier les mots nouveaux après un certain laps de temps. L’hypothèse est que ce modèle permet de représenter la nouveauté informa- tionnelle associée à une entité, d’éviter que des documents parus dans un intervalle de temps court qui reprendraient cette information soient de nouveau considérés comme important, tout en autorisant, grâce à la fonction d’oubli, que de nouveaux documents traitant, plus tard et une nouvelle fois d’un thème proche soient retenus. Par exemple une personnalité dont on annonce le mariage constitue une information pouvant être abondamment reprise dans l’actualité : conserver un seul document peut suffire. Mais au bout d’un certain temps, cette personnalité peut de nouveau se marier et cette information doit aussi être retenue.

3.1. Formalisation du modèle de langue de Référence

Le RLMRest associé à un ensemble de documentsD. Nous nommonstf(w, d) la fonction qui donne le nombre d’occurrences d’un motwdans le documentd. La fonctiontf(w, D)donne le nombre d’occurrences d’un motwdans l’ensemble des documentsD:

tf(w, D) = P

d∈Dtf(w, d) (1)

Soit|d|le nombre total d’occurrences de mots dans le documentd. La probabilité d’apparition d’un motwdans un ensemble de documentsDest défini par l’équation suivante :

p(w|D) =

P

d∈Dtf(w,d) P

d∈D|d| (2)

3.2. Formalisation du modèle de langue dynamique sensible au temps (Time-Aware)

Le modèle de langue sensible au temps(TALM) permet de capturer les informations concernant une entité sans risquer d’altérer le modèle de langue de référence.

Nous devons également éviter toute dérive thématique qui éloignerait trop le TALM de l’entité cible. Dans le TALM, la probabilité d’apparition d’un mot dépend de deux facteurs : 1. la fréquence d’apparition du mot jusqu’a l’instant présent ; 2. la pondéra- tion donnée par la fonction de déclin. Pour chaque instant{t−k, ..., t−2, t−1, t} la fréquence d’apparition est pondérée à l’aide d’une fonction de déclin (Figure 1) qui représente l’oubli d’un mot. Plus la date d’apparition du mot est éloigné de l’instant

(6)

t, plus le facteur de déclin est proche de 0 (et donc la probabilité d’apparition du mot est proche de 0). La fonction de déclin est dépendante de deux paramètres. Le premier paramètreρpermet de régler les bornes début et fin du déclin de manière symétrique.

Le paramètre temporelλdéfinit la durée totale du déclin (combien de temps s’écoule entre le moment oùx = 0etx = 1). Pour des raisons d’optimisation de mémoire, nous arrondissons les valeurs de∆au delà des bornes]0; 1[.

Figure 1. Fonction sigmoïde de paramètreλqui définit la rapidité de l’oubli Considérons deux instantste1ette2avecte1≥te2, nous définissons les fonctions δ et∆ (équation 3 et 4) qui permettent l’oubli progressif des mots (la baisse de la probabilité qui leur est associé dans le modèle de langue dynamique TALM) tel que :

δ:= R² → R

(te1, te2) 7→ _λ¹·(te1−te2) (3)

∆(te1, te2) =







1, siδ(te1, te2)<0 0, siδ(te1, te2)>1 1/(1 +e^ρ(δ(t^e¹^,t^e²^)−0.5)) sinon

(4)

Le TALMTÂ est associé à un sous ensemble de documentsDÂ. Le caractère Adésigne l’indicateur de contextesensible au temps.DÂpermet de constituer l’ensemble des documents utilisés pour les estimations de fréquence et de probabilité d’apparition des mots. Dans les équations suivantes, nous considérons l’ensemble de do- cumentDÂoù chaque documentdest associé à une datetd. Nous utilisons également tl’instant présent. La fonctiontfÂ(w, d)correspond à la fréquence d’apparition d’un motwdans un documentd, lissé selon∆(t, td). Plus la date d’apparition d’un docu- menttdest éloigné de l’instant présent t, plus les fréquences d’apparition des mots sont diminuées. Nous définissons également tfÂ(w, DÂ)le nombre d’occurrences lissé d’un motwdans l’ensemble des documentsDÂ.

(7)

tfÂ(w, d) = ∆(t, td)·tf(w, d) tfÂ(w, DÂ) = P

d∈D^Atf^A(w, d) (5)

La fonctionlenÂ(d)correspond à la somme des nombres d’occurrences de mots w ∈ d lissés d’après la fonction∆(t, td). La fonction lenÂ(w, DÂ)correspond à la somme des tailles lissées dans l’ensemble des documentsDÂconsidérés dans le modèle de langueTÂ:

len^A(d) = P

w∈dtfÂ(w, d) lenÂ(DÂ) = P

d∈D^Alen^A(d) (6)

À chaque documentdpeut être associé un poids qui dépend de∆(t, ti). Ainsi il est possible d’estimer un pseudo nombre de documents considérés dans le TALM en tenant compte de la distance temporelle qui sépare la date d’apparition du document et l’instant présent tel que :

N^A(D^A) = P

d∈D^A∆(t, td) (7)

Nous définissons également la fonction permettant le calcul de l’inverse documents frequency idf^Aqui est souvent utilisé en recherche d’information comme indice du pouvoir discriminant d’un mot.

idfÂ(w, DÂ) = log_tf^NA(w,DÂ^(DÂÂ⁾⁺¹)+0,5 (8) Soit argmax(DÂ)le dernier instant où le modèle TÂ a été mis à jour. Nous estimons alors la probabilité d’un motwen fonction de l’instant présenttd’après les équations suivantes :

p^A(w|d) = ∆(t, ti)·_len^tf^(w,d)^A(d)

pÂ(w|DÂ) = ∆(t, argmax(DÂ))·

P

d∈DApÂ(w|d) NÂ(DÂ)

(9)

4. Filtrage de documents à l’aide de profils d’entités

Lorsqu’un système de filtrage doit filtrer beaucoup de documents, il peut être ap- proprié d’utiliser plusieurs étapes pour diminuer le temps de calcul. Par exemple pour un système de filtrage qui exploite les métacritères comme autant d’attributs de classification, leur estimation peut être coûteuse. Il est alors intéressant de les calculer seulement sur un sous-ensemble de documents (par exemple nous faisons le choix d’écarter

(8)

a priori tout document ne contenant pas au moins une occurrence d’une appellation de l’entité cible — tout en sachant qu’à l’inverse, un document peut être associé à plusieurs entités). Le déroulement du système de filtrage se fait selon plusieurs étapes comme indiqué sur la figure 2.

Figure 2. Étapes du déroulement du système de filtrage

4.1. Un premier filtrage selon les entités

Pour ce premier filtrage qui se propose d’écarter un document ne mentionnant pas l’entité cible, nous proposons de rechercher les différentes occurrences de mots faisant référence à l’entité¹. Afin de trouver le plus grand nombre de documents possible, et ainsi augmenter le rappel, nous proposons de transformer les variantes de noms en motifs ou expressions régulières permettant de détecter certains acronymes et, pour les entités humaines, différents écritures de prénoms. Nous transformons par exemple la variante de nomB.N.S.F railwayenB* N* S* F* railway. Ainsi, il est possible de conserver, pour l’entité B.N.S.F railway, les documents comportant une occurrence deBurlington Northern Santa Fe railway. Concernant les entités ayant plusieurs pré- noms, nous exploitons les chaînes optionnelles. Ainsi pour la variante de nom "Boris [Abramovitch] Berezovsky” il est possible de trouver les documents faisant référence directement à "Boris Berezovsky”.

4.2. Définition des métacritères

Nous définissons deux grandes familles de métacritères utiles pour déterminer si un document est centré sur une entité et s’il apporte ou non une information importante

1. (Cucerzan, 2007) propose une méthode qui permet de trouver les différentes variantes de nom pour une entité en utilisant Wikipedia.

(9)

ou nouvelle. La première famille a pour but d’aider à la désambiguïsation de l’entité présente dans le document. En effet, la première étape présélectionne le document en se basant uniquement sur la présence d’une variante de nom. Dans le cas d’entités homonymes, il se peut que le document ne concerne pas l’entité recherchée au départ.

La seconde famille de métacritères a pour but d’aider à déterminer si un document contient une information nouvelle ou importante.

4.3. Les métacritères utiles à la désambiguïsation

Afin d’estimer à quel point un document se réfère bien à l’entité cible plutôt qu’à l’un de ses homonymes, nous proposons de comparer la distribution lexicale de ce document avec celle des documents qui définissent l’entité (les documents du profil). Nous pouvons pour cela utiliser une mesure comme le cosinus (ou la divergence de Kullback-Liebler) pour mesurer la similarité entre un document det l’ensemble des documents de référence de l’entité cible représentée par le modèle de langue de référenceRcomme suit :

cos(d,R) =

P

w∈dtf(w,d).tf(w,R)

√P

w∈dtf(w,d)².√P

w∈dtf(w,R)²

(10)

Nous exploitons la méthode de (Cucerzan, 2007) qui permet d’identifier des relations entre l’entité recherchée et d’autres entités. Nous exploitons ces relations comme nouveaux critères et nous les catégorisons en trois types :

- entrante (in) : la relation part d’une entité pour arriver sur l’entité recherchée (par exemple, un lien présent sur une page Wikipedia pointe vers la page Wikipédia dédiée à l’entité recherchée);

- sortante (out) : elle part de l’entité recherchée pour arriver sur une autre entité (p.

ex., un lien présent sur la page Wikipedia dédiée à l’entité recherchée pointe vers une autre page Wikipédia);

- réciproque (mut) : lorsque la relation est à la fois entrante et sortante.

L’équation 11 permet d’estimer par maximum de vraisemblance la probabilité d’apparition d’un motsissu d’un ensemble de motsS en considérant un document d. Il est alors possible de calculer la probabilitép(Relin,out,mut|d)d’apparition des relations suivant son type.

Enfin, nous utilisons un dernier critère qui donne une indication sur la manière dont le document parle de l’entité. Est ce que le document est plutôt centré sur l’en- tité, ou est ce que ce dernier la mentionne une seul fois. En considérant l’ensemble des appellations Vede l’entité ciblee, nous pouvons estimerp(Ve|d)la probabilité d’apparition de l’entitée(d’après toutes ses appellations) dans le documentdd’après l’equation 11. Par exemple pour l’entitée=Tim_Cook, on pourrait avoir un ensemble d’appellations comme{v1="Tim Cook", v₂="Le dirigeant d’Apple", ...}.

(10)

p(S|d) =

P

s∈Stf(s,d)

|d|

(11)

Par ailleurs, le fait que l’entité soit mentionnée dans le titre peut également donner l’indication que le document est bien centré sur l’entité. Il s’agit ici d’un critère supplémentaire. Nous résumons dans le tableau 1 les différents métacritères utiles à la désambiguïsation de l’entité dans le document.

Tableau 1. Métacritères permettant la désambiguïsation de l’entité dans un document en utilisant les variantes de nom et les relations entre entités p(Ve|dtitle) probabilité d’apparition des variantes de nomVedans le titre p(Ve|d) probabilité d’apparition des variantes de nomVedans le document p(Relin|d) probabilité d’apparition des relations entrantes dans le document p(Relout|d) probabilité d’apparition des relations sortantes dans le document p(Relmut|d) probabilité d’apparition des relations mutuelles dans le document cos(d,R) cosinus entre un vecteur documentdet le vecteur

modèle de langue de référenceR

4.4. Métacritères basés sur l’analyse temporelle et le modèle de langue dynamique Time-Aware pour l’importance du document

L’analyse de séries temporelles et particulièrement la détection du phénomène de rafale peuvent s’avérer utiles pour la détection ou même la prédiction d’évènements (Kleinberg, 2002 ; Sakakiet al., 2010 ; Weng, Lee, 2011). Dans cet article, nous utilisons le termenouveautépour exprimer le fait qu’un document contient de nouvelles informations. Pour détecter si un document contient une information importante pour une entité, nous proposons d’utiliser des métacritères qui caractérisent à la fois la nou- veauté et le phénomène de rafale. Bien sûr ce phénomène de rafale peut être plus ou moins vérifié selon la célébrité de l’entité cible, les lignes éditoriales des auteurs des documents du flux observé et les autres actualités du moment (une actualité très dense tend à diminuer l’effet rafale puisque les journaux sont de taille limité et qu’ils ne peuvent alors se permettre trop de redondance).

Comme nous l’avons mentionné précédemment, une entité (et donc son profil) évolue au fur et à mesure que le temps passe. Il a été montré dans plusieurs études (Wanget al., 2007 ; Amodeoet al., 2011 ; Peetzet al., 2014) que l’analyse de pertinence d’un document peut être améliorée en considérant des phénomènes de rafale sur les requêtes émises ou sur les documents nouveaux. La figure 3 montre un exemple de phénomène de rafale pour l’entitéBNSF railway. Cette rafale a lieu peu de temps

(11)

après qu’un accident se soit produit sur ces lignes de chemin de fer. Nous choisis- sons d’utiliser l’algorithme de (Kleinberg, 2002) pour mesurer la force de la rafale à chaque instant. Un autre critère est également proposé par (Diaz, Jones, 2004). Ils proposent d’utiliser le coefficient d’aplatissementK(Kurtosis) d’une série temporelleX où chaque élémentXi correspond au nombre de documents qui apparaissent chaque unité temporelle. Si l’unité correspond à1 heures, alors chaque élémentXi ∈Xau- rait pour valeur nombre de documents qui mentionnent l’entité à partir d’un instant t jusqu’à l’instantt+ 1h. L’equation 12 définie le Kurtosis en fonction de la série temporelleXoùXcorrespond à la moyenne desXi∈X,σcorrespond à l’écart type et|X|correspond au nombre d’éléments dansX.

K =

PX

i=1(Xi−X)⁴

(|X|−1)σ⁴ −3 (12)

Figure 3. Phénomène de rafale lorsqu’un accident se produit sur une ligne de chemin de fer

Nous avons formalisé dans la section 3.2 un modèle de langue sensible à l’évo- lution temporelle : leTime-Aware Language Model(TALM). Le TALM a pour voca- tion d’être mis à jour avec les documents qui apparaissent sur un flux. Le TALM à conscience du temps lors des mises à jours ainsi, il peut estimer la probabilité d’apparition des mots à un instantt.

Pour mesurer le degré de nouveauté des documents qui apparaissent sur le flux, nous proposons d’utiliser une mesure de divergence entre le TALM et le modèle de référence RLM. Le TALM étant le reflet de ce qui se passe autour de l’entité à l’instant t, l’idée est de le comparer avec ce qui est déjà connu à propos de l’entité. Nous proposons d’utiliser la divergence de Jensen-Shannon (JSD), qui est symétrique. La JSD s’utilise avec deux vecteurs de probabilitésAetB. La symétrie est possible en calculant un vecteurCrésultant de la moyenne entreAetB(équation 13).

Notre représentation du RLM et du TALM permettent de déduire deux vecteurs de probabilités à partir des formules données dans les équations 2 et 9. Il est également possible d’utiliser l’équation 2 pour estimer un vecteur de probabilités pour un documentd. Nous pouvons alors utiliser cette mesure de divergence comme métacritère en utilisant différentes combinaisons (cf., tableau 2).

(12)

C = ¹₂×(A+B) JSD(A, B) = ¹₂×P

w∈Cp(w|A)log_p(w|C)^p(w|A) +¹₂×P

w∈Cp(w|B)log^p(w|B)_p(w|C)

(13)

(Karkaliet al., 2014) ont testé différentes approches pour mesurer la nouveauté sur des données réelles. Le score de nouveauté qui offre les meilleurs résultats est celui qui utilise une version lissée dutf.idf à laquelle est ajoutée une composante temporelle. Nous considéronsV_t^Aune représentation d’un vecteur de probabilité du TALM à un instantt. Le score de nouveautéN S(A, V_t^A)pour l’instanttest formulé dans l’équation 14.

N S(A, V^A) = ^P ¹

w∈Atf(w,A)×P

w∈Atf(w, A)·idfÂ(w, V_tÂ) (14) (Carbonell, Goldstein, 1998) ont présenté la mesureMaximal Marginal Relevance (MMR) qui permet la combinaison d’un score de pertinence d’après une requête et d’un score de nouveauté pour un contexte de classement de documents. Nous nous sommes inspiré de la formulation présentée pour formuler un score de MMR. Nous proposons d’utiliser à la fois le score issu du métacritèrecos(d,R)etJSD(d, V_tÂ):

M M R(d,R,T^A) =α.cos(d,R)−(1−α).JSD(d, V_t^A) (15) Dans le tableau 2, nous résumons les différents métacritères utiles pour qualifier l’importance d’un document en considérant des aspects de nouveauté, de diversité et de rafale.

5. Expérimentations

5.1. Description de la tâche Knowledge Base Acceleration (KBA)

Les pistes KBA des évaluations TREC sont directement liées au problème de main- tien à jour de bases de connaissances. En effet, les bases de connaissances, comme Wikipédia, sont difficiles à maintenir à jour de par le nombre immense d’articles en rapport au nombre de contributeurs actifs régulièrement. Le scénario de KBA est de simplifier la mise à jour les bases de connaissances de manière automatique en suggé- rant les articles intéressants pour un sujet en particulier.

Pour permettre une simulation à grande échelle, les organisateurs de la tâche ont mis en place un corpus de documents datés (d’octobre 2011 à mai 2013) simulant un flux de documents. Il contient plus d’un milliard de documents issus du Web et plus spécifiquement de sites d’actualité, de forums, de blogs (voir tableau 3). Le corpus

(13)

Tableau 2. Métacritères qui permettent de qualifier l’intérêt d’un document Kleinberg(Xe) Force de la rafale de la série temporelleXede l’entité

e.

K(Xe) Coefficient d’aplatissement de la série temporelleXe

de l’entitée.

JSD(R,T^A) Divergence de Jensen Shannon entre le RLMR et le TALMT^A.

JSD(d,T^A) Divergence de Jensen Shannon entre un nouveau documentd

et le TALMT^A.

N S(R,TÂ) Score de nouveauté entre le RLMR et le TALMTÂen considérant l’instanttc. N S(d,TÂ) Score de nouveauté entre un nouveau documentd

et le TALMT^Aen considérant l’instanttc. M M R(d,R,T^A)

Combinaison des scores de pertinence et de nouveauté pour un nouveau documentdà l’aide du RLMR et du TALMT^Aen considérant l’instanttc.

peut être parcouru de manière chronologique. Les organisateurs de la tâche ont sé- lectionné une centaine d’entités et ont annoté manuellement des documents selon 4 classes²:

- Garbage: le document ne concerne pas du tout l’entité ;

- Neutral: le document mentionne l’entité, mais n’est pas centré sur elle ; - Useful: le document est centré sur l’entité, mais n’apporte pas d’information

nouvelle ou intéressante ;

- Vital: le document est centré sur l’entité et apporte une information nouvelle ou intéressante.

Chaque année, les organisateurs sélectionnent un certain nombre d’entités à partir de critères qui rendent la tâche encore plus complexe. Les entités ne sont pas ou peu populaires et elles peuvent être homonymes. En 2012 et 2013, les entités étaient accompagnées soit d’un document Wikipédia, soit d’un nom de profil Twitter. Il était possible d’exploiter ces données dès le départ. Pour les documents Wikipédia, les participants doivent utiliser une sauvegarde du corpus Wikipedia, antérieure au début du flux de documents (c.-à-d., octobre 2011). En 2014, chaque entité cible était accom- pagnées d’un ensemble de documents annotés (éventuellement vide). Ces documents

2. Les classesRelevantetCentralont été remplacées les années suivantes par respectivementUsefulet Vital. La classeVitalimplique une notion de nouveauté et/ou d’intérêt du document pour l’entité.

(14)

jouent le rôle de documents de référence. Pour construire les profils initiaux des enti- tés, il est possible d’utiliser la méthode de (Cucerzan, 2007) à partir du moment où la page Wikipédia de départ est connue. Pour les entités pour lesquelles aucun document n’est donné, le modèle de langue de référence ainsi que les relations seront vides.

Tableau 3. Nombre de documents par classe¹et nombre de documents moyen par classe et par entité²pour les années 2012 à 2014

#Docs¹ Moy. #Docs/Entité²

2012 2013 2014 2012 2013 2014

Garbage 8 467 2 176 2014 284 20 2014

Neutral 1 584 1 152 2014 73 11 2014

Relevant/Useful 5 186 2 293 2014 181 20 2014 Central/Vital 2 671 1 718 2014 92 19 2014

Total 17 482 7 222 2014

Nb Entités 29 149 101

Les participants doivent, pour chacune des entités, filtrer les documents du flux et leur attribuer une classe parmi les 4 classes: garbage, neutral, usefuletvital. La décision d’attribuer une classe à un document doit se faire dès le moment où un document est évalué. Bien entendu, le corpus ne peut être indexé et ce dernier doit être parcouru en considérant l’ordre chronologique. La figure 4 résume le fonctionnement de la tâche KBA. La partie mise à jour de base de connaissances n’est pas à faire.

Seule est évaluée l’attribution des classes pour chacun des documents.

Figure 4. Déroulement de la tâche Knowledge Base Acceleration issue de la campagne d’évaluation TREC

(15)

5.2. Les différentes stratégies d’expérimentation

Dans notre système, le filtrage de documents se fait en deux étapes. La première vérifie que le document contient bien une mention de l’entité d’après la méthode dé- crite dans la section 4.1. Pour la seconde étape, nous utilisons un système de classification de type forêts aléatoiresRandom Forestque l’on entraîne en calculant les valeurs des métacritères (section 4.2) pour les documents annotés manuellement. L’entraîne- ment conduit à hiérarchiser les métacritères et estimer, pour chacun d’eux, les valeurs limites correspondant à la meilleure prise de décision. Une fois la forêt apprise sur les entités d’entraînement, elle peut être appliquée en test sur n’importe quelle nouvelle entité sans ré-entraînement.

Pour vérifier l’impact de l’utilisation du modèle de langueTime-Aware(TALM), nous proposons différentes stratégies :

- la première stratégie,NU, n’utilise pas du tout le TALM, et donc les critères qui lui sont associés ne sont pas pris en compte ;

- la seconde stratégie, US, met à jour le TALM en n’utilisant qu’un extrait du document (le snippet) . Cet extrait est construit en concaténant les paragraphes qui contiennent au moins une mention de l’entité ;

- la dernière stratégie,UD, met à jour le TALM en utilisant le document complet.

Nous avons également mis en place différents systèmes pour la classification : - le premier système,2STEPS, considère le problème comme étant un problème

de classification binaire. Deux classifieurs sont utilisés en cascade. Le premier fait une classification selon les deux classesGarbage/NeutraletUseful/Vital.

Le second classifieur ne classe que les documents classésUseful/Vitalpar le premier. Il tente alors de déterminer si le document est plutôtusefulouvital; - le second système,SINGLE, fait une classification directement sur les 4 classes ; - le troisième système, VvsAll, essaye de déterminer la classe d’un document parmi les deux classesGarbage/Neutral/UsefuletVital. Dans le cas où le document n’est pasVital, ce dernier est soumis à un classifieur qui détermine la classe entreGarbage, NeutralouUseful;

- le dernier système,MULTI, consiste à faire la synthèse des scores donnés par les trois précédentes stratégies pour déterminer une classe parmiGarbage, Neu- tral, UsefulouVital.

5.3. Analyse des résultats

Pour analyser les résultats, nous séparons les résultats obtenus sur les entités don- nées en 2013 et celles données en 2014. Nous ne testons pas notre système sur les données de KBA 2012 pour plusieurs raisons:

- les définitions des classes ont changé entre 2012 et 2013, il n’est alors pas possible de comparer les résultats sur des classes aux définitions différentes ;

(16)

- le nombre d’entités est significativement moins élevé en 2012 que les années suivantes.

Comme nous l’avons vu, notre système filtre les documents en suivant deux étapes.

La première filtre les documents qui contiennent une mention de l’entité. Les documents gardés dans la première étape sont ensuite analysés plus finement afin de déterminer leur classe. Pour mesurer les performances de la première étape, nous regardons combien de documents sont gardés et sont correctement associés à une entité (le rappel) pour les documents qui appartiennent à la classeUsefuletVitalselon les jugements TREC. Nous regardons également le taux d’erreur, c’est-à-dire le nombre d’associations entité/document incorrectes. D’après le tableau 4 il est possible de voir que les résultats sont nettement meilleurs pour les entités et documents de KBA 2014.

En 2013, il y avait beaucoup plus d’entités homonymes ce qui a eu pour conséquence de faire monter le taux d’erreur (faux positifs). En effet, pendant cette première phase, nous ne cherchons pas à désambiguïser l’entité présente dans le document. Concer- nant la différence sur le rappel, une hypothèse tient dans le fait qu’en 2013, beaucoup d’entité cibles n’avaient pas de page Wikipédia pour référence, ce qui a limité fortement la recherche de variante des appellations. Il est également possible que les entités de 2014 soient moins sensibles aux variantes de noms. Dans la plupart des cas, le fait d’avoir le nom de l’entité suffit.

Tableau 4. Évaluation de la première étape du filtrage

2013 2014

rappel 56.65 % 99.69 % taux d’erreur 16,98 % 8,63 %

Pour observer les résultats de performance de la seconde étape, nous avons utilisé l’outil d’évaluation officiel (les résultats de tous les participants de KBA 2014 n’étant pas encore disponibles, il n’est pas encore possible de se comparer aux différents systèmes de cette année). La mesure utilisée pour l’étude est la F-mesure (f1(p, r)) (équation 16).

f1(p, r) =2·p·r

p+r (16)

Les scores de KBA sont observés en utilisant plusieurs seuils suivant le score de confiance donné par l’algorithme de classification (score allant de 0 à 1000).

Dans le tableau 5, nous pouvons voir les scores que nous obtenons pour la classification de documents appartenant à la classevitalseulement. Certains systèmes offrent des performances supérieures au meilleur résultat présenté lors de la campagne d’éva- luation de 2013. Aussi, les meilleurs résultats sont obtenus sur le système MULTI pour chacune des stratégies de mise à jour du TALM. Cela montre que les stratégies peuvent être complémentaires. En règle générale, l’utilisation du modèle sensible au temps tend à faire baisser les performances pour cette classe.

(17)

Tableau 5. Scores issus du logiciel d’évaluation officiel TREC KBA pour la classification de documents de classe "Vital" pour les différents systèmes

et stratégies de mise à jour que nous proposons

Systèmes F-mesure - KBA 2013

NU UD US

MULTI 0,435 0,356 0,381

SINGLE 0,389 0,311 0,358

2STEPS 0,341 0,213 0,222

VvsAll 0,250 0,288 0,284

Score officiel médian KBA 2013 0,201 Meilleur système KBA 2013 0,360

Pour avoir une idée de la manière dont se comporte le système au fil du temps, nous avons tracé la Précision, le Rappel et la F-mesure (PRF). Ainsi il est possible de voir comment se comporte le système en temps réel. Nous avons représenté sur la figure 5 les résultats pour la classification de documents utiles et vitaux. On remarque que la précision, le rappel et par conséquent la F-mesure diminuent tout au long du processus avec quelques palliers (N.B., l’axe des ordonnées commence à 0,6). Il est intéressant de noter que les performances du système restent relativement stable d’août 2012 à mars 2013 alors qu’il s’agit de la période où le plus de documents sont évalués (courbe noire montante).

Figure 5. Précision, Rappel, F-mesure du système MULTI avec la mise à jour du TALM en utilisant les snippets

Nous avons voulu en savoir plus sur les critères prédominants dans le processus de décision de la classevital. Pour cela, nous avons utilisé le logiciel R et la bibliothèque

« Party » qui implémente un algorithme de classification de typeRandom-Forestpour lequel il est possible de calculer les variables d’importances (VI). Ces dernières sont

(18)

calculées à l’aide d’une permutation aléatoire des valeurs des différents critères pour finalement, calculer la différence de précision « avant/après » révélant ainsi l’importance du critère (Breiman, 2001). Nous avons utilisé le modèle généré pour le classi- fieurUseful/Vitaldu système 2Steps avec la mise à jour du TALM par snippet pour procéder à cette analyse. La figure 6 montre les variables classées de la plus importante (en haut) à la moins importante (en bas). Nous avons tracé les variables d’importance calculées sur la partie entraînement et la partie test. En ce qui concerne la partie entraî- nement, nous remarquons que les métacritères qui utilisent des analyses temporelles (c.-à-d., Kleinberg, Kurtosis) sont moins déterminants pour la prise de décision finale.

Ce résultat est surprenant dans le sens où cela montre qu’une rafale de documents n’est pas forcément un indicateur décisif pour la détection d’évènements centrés sur une en- tité. En revanche, on remarque que les métacritères relatifs à la désambiguïsation et à la nouveauté sont parmi les plus importants. Par ailleurs, le critère qui utilise les en- tités en relation avec l’entité recherchée est également très important dans la prise de décision (COUNT_OUT_RELATIONS). Dans la partie test, les variables d’importance sont quelque peu différentes. La figure 7 montre la différence entre entraînement et test. Les valeurs négatives indiquent que le critère est plus important dans la partie test que la partie entraînement. On remarque que les différences sont nombreuses ce qui peut s’expliquer par un entraînement pas assez représentatif des entités testées par la suite.

Figure 6. Variables d’importances calculées sur les données d’entraînement et de test à l’aide du système 2Steps-US (pour le classifieur Useful vs Vital)

avec la mise à jour du TALM en utilisant les snippets

(19)

Figure 7. Différence entre les variables d’importance calculée sur la partie entraînement versus la partie de test

L’enjeu de la tâche KBA est de détecter automatiquement les documentsvitaux.

La classeUsefulreste néanmoins une classe importante. Détecter de manière précise qu’un document estusefulpermet de filtrer déjà les informations qui concernent les entités recherchées. Le tableau 6 montre les résultats obtenus pour les classesUseful etVital. Nous remarquons que nous obtenons des scores proches, voire supérieurs, au meilleur système de KBA. Par ailleurs, les scores en général sont beaucoup plus élevés ce qui montre que le système est relativement fiable pour la classification de documents appartenant à la classeUseful.

Tableau 6. Scores issus du logiciel d’évaluation TREC KBA officiel pour la classification de documents de classe Vital/Useful pour les différents systèmes et

stratégies de mise à jour que nous avons proposés (données KBA 2013).

Systèmes F-mesure - KBA 2013

NU UD US

MULTI 0,715 0,637 0,639

SINGLE 0,688 0,604 0,655

2STEPS 0,608 0,444 0,475

VvsAll 0,692 0,632 0,650

Score officiel médian KBA 2013 0,406 Meilleur système KBA 2013 0,659

Les analyses sur les résultats de 2014 en sont au stade préliminaire. On peut cependant déjà voir dans le tableau 7 qu’il y a des différences avec les résultats de 2013.

En effet, on remarque tout d’abord que le fait d’utiliser le modèle de langue Time- Awareapporte une réelle amélioration des résultats. Le fait que les performances sur la détection de documentvitauxsoient moins élevées que pour KBA 2013 n’est pas si- gnificatif. En effet, les entités sont différentes, le corpus d’entraînement aussi. Il n’est pas vraiment possible de comparer les résultats entre 2013 et 2014 directement. La

(20)

détection de documentsusefuletvitalest très bonne puisque nous avons obtenu une F-mesure approchant les 0,90.

Tableau 7. Scores issus du logiciel d’évaluation TREC KBA officiel pour la classification de documents de classe Vital et Vital/Useful pour les différents systèmes

et stratégies de mise à jour que nous avons proposés (données KBA 2014).

Systèmes F-mesure Vital

NU UD US

MULTI 0,378 0,347 0,336 SINGLE 0,349 0,297 0,307 2STEPS 0,326 0,325 0,267 VvsAll 0,318 0,332 0,302 F-mesure Vital+Useful MULTI 0,886 0,892 0,889 SINGLE 0,883 0,889 0,880 2STEPS 0,881 0,885 0,881 VvsAll 0,886 0,892 0,890

6. Conclusion et perspectives

Dans cet article, nous avons présenté une nouvelle représentation de profils d’en- tités dans lesquels nous considérons des variantes de noms, des relations et deux mo- dèles de langue. Notre proposition d’utiliser deux modèles de langue permet d’éviter la dérive du profil de référence, tout en gardant la possibilité de mettre à jour ce dernier. Nous proposons également un ensemble de métacritères pouvant être utilisés dans un système de classification pour permettre le filtrage de documents qui apporte de nouvelles informations à propos d’une entité. Enfin, nous avons évalué notre proposition dans l’environnement de la tâcheKnowledge Base Acceleration(KBA) de la conférence TREC (Text REtrieval Conference). Nous avons montré que nos sys- tèmes offrent des performances supérieures à celles présentées jusqu’à présent. Enfin, nous avons montré avec nos résultats préliminaires sur les données d’évaluation KBA 2014 que l’utilisation du second modèle de langue pouvait aider à la classification de documents centrés sur l’entité.

En perspective, nous devons relever que nous avons travaillé selon une approche qui prend en compte toutes les entités cibles de la même manière. Or, d’autres facteurs, comme la popularité de l’entité, font que certains critères sont probablement plus pertinents pour une entité que pour une autre. Les entités moins populaires par exemple ont moins de chance de provoquer un effet de rafale qu’une entité très popu- laire. Un système complètement supervisé utiliserait un modèle par entité et répondrait efficacement à ce problème même si la popularité d’une entité est aussi sujette à évolu- tion. Mais disposer de données d’entraînement pour chaque entité semble peu réaliste.

L’idée est alors de modéliser chaque type d’entité ou d’associer à chaque entité un indice de sa popularité comme critère supplémentaire.

(21)

Bibliographie

Amodeo G., Amati G., Gambosi G. (2011). On relevance, time and query expansion. In Proceedings of the 20th acm conference on information and knowledge management, cikm 2011, glasgow, united kingdom, october 24-28, 2011, p. 1973-1976.

Balog K., Ramampiaro H., Takhirov N., Nørvåg K. (2013). Multi-step classification approaches to cumulative citation recommendation. InOpen research areas in information retrieval, oair ’13, lisbon, portugal, may 15-17, 2013, p. 121-128.

Balog K., Serdyukov P., Vries A. P. de. (2010). Overview of the TREC 2010 entity track. In Proceedings of the nineteenth text retrieval conference, TREC 2010, gaithersburg, maryland, usa, november 16-19, 2010.

Belkin N. J., Croft W. B. (1992, décembre). Information filtering and information retrieval:

two sides of the same coin?Communications of the ACM, vol. 35, n^o12, p. 29–38.

Bellogín A., Gebremeskel G. (2014). CWI and TU Delft Notebook TREC 2013: Contex- tual Suggestion, Federated Web Search, KBA, and Web Tracks. Inproceedings of the twenty-second text retrieval conference (trec 2013) gaithersburg, maryland, november 19–

22, 2013, p. 500-302. National Institute of Standards and Technology (NIST).

Bonnefoy L., Bouvier V., Bellot P. (2013a). Lsis/lia at trec 2012 knowledge base acceleration.

InProceedings of the twenty-first text retrieval conference (trec 2012), p. 500–298.

Bonnefoy L., Bouvier V., Bellot P. (2013b). A weakly-supervised detection of entity central documents in a stream. InThe 36th international acm sigir conference on research and development in information retrieval, sigir ’13, dublin, ireland - july 28 - august 01, 2013, p. 769-772.

Breiman L. (2001). Random forests. Machine Learning, vol. 45, n^o1, p. 5-32.

Carbonell J. G., Goldstein J. (1998). The use of mmr, diversity-based reranking for reordering documents and producing summaries. InSIGIR ’98: Proceedings of the 21st annual international ACM SIGIR conference on research and development in information retrieval, august 24-28 1998, melbourne, australia, p. 335–336. ACM.

Cucerzan S. (2007). Large-scale named entity disambiguation based on wikipedia data. InPro- ceedings of the 2007 joint conference on empirical methods in natural language processing and computational natural language learning,(emnlp-conll 2007), p. 708-716. ACL.

Diaz F., Jones R. (2004). Using temporal profiles of queries for precision prediction. In M. Sanderson, K. Järvelin, J. Allan, P. Bruza (Eds.),SIGIR 2004: Proceedings of the 27th annual international ACM SIGIR conference on research and development in information retrieval, sheffield, uk, july 25-29, 2004, p. 18–24. ACM.

Efron M. (2014). The university of illinois’ graduate school of library and information science at trec 2013. Inproceedings of the twenty-second text retrieval conference (trec 2013) gaithersburg, maryland, november 19–22, 2013, p. 500-302. National Institute of Standards and Technology (NIST).

Frank J., Kleiman-Weiner M., Roberts D. A., Niu F., Zhang C. (2012). Building an entity- centric stream filtering test collection for trec 2012. InProceedings of the twenty-first text retrieval conference (trec 2012) gaithersburg, maryland, november 6-9, 2012, p. 500-298.

National Institute of Standards and Technology (NIST).

(22)

Harman D. (2002). Overview of the TREC 2002 novelty track. InTREC.

Karkali M., Rousseau F., Ntoulas A., Vazirgiannis M. (2014). Using temporal idf for efficient novelty detection in text streams.CoRR, vol. abs/1401.1456.

Kjersten B., McNamee P. (2013). The HLTCOE approach to the TREC 2012 KBA track. In proceedings of the twenty-first text retrieval conference (trec 2012) gaithersburg, maryland, november 6-9, 2012, p. 500-298. National Institute of Standards and Technology (NIST).

Kleinberg J. (2002). Bursty and hierarchical structure in streams. InProceedings of the eighth acm sigkdd international conference on knowledge discovery and data mining, july 23-26, 2002, edmonton, alberta, canada, p. 91-101.

Li X., Croft W. B. (2003). Time-based language models. InProceedings of the 2003 ACM CIKM international conference on information and knowledge management, new orleans, louisiana, usa, november 2-8, 2003, p. 469–475.

Navigli R. (2009). Word sense disambiguation: A survey.ACM Comput. Surv., vol. 41, n^o2.

Peetz M.-H., Meij E., Rijke M. de. (2014). Using temporal bursts for query modeling. Inf.

Retr., vol. 17, n^o1, p. 74-108.

Robertson S. E., Soboroff I. (2002). The trec 2002 filtering track report. InTrec.

Sakaki T., Okazaki M., Matsuo Y. (2010). Earthquake shakes twitter users: Real-time event detection by social sensors. InProceedings of the 19th international conference on world wide web, p. 851–860. New York, NY, USA, ACM.

Sehgal A. K., Srinivasan P. (2007). Profiling topics on the web. InProceedings of the www2007 workshop i3: Identity, identifiers, identification, entity-centric approaches to information and knowledge management on the web, banff, canada, may 8, 2007, p. 1-8.

Wang X., Zhai C., Hu X., Sproat R. (2007). Mining correlated bursty topic patterns from coordinated text streams. InProceedings of the 13th acm sigkdd international conference on knowledge discovery and data mining, san jose, california, usa, august 12-15, 2007, p. 784-793.

Weng J., Lee B. (2011). Event detection in twitter. InProceedings of the fifth international conference on weblogs and social media, barcelona, catalonia, spain, july 17-21, 2011.

Zhou M., Chang K. C.-C. (2013). Entity-centric document filtering: boosting feature map- ping through meta-features. InProceedings of the 22nd acm international conference on conference on information & knowledge management, p. 119–128.