Filtrage et agrégation d'informations vitales relatives à des entités

THÈSE THÈSE

Copyright c2016 Rafik Abbes

v. 2016-01-15 Commentaires, corrections et autres remarques sont les bienvenus à :

1. https ://musicbrainz.org 2. http ://www.imdb.com 3. http ://www.geonames.org/

4. https ://fr.wikipedia.org 5. http ://dbpedia.org/

6. https ://www.freebase.com/

Besoin d’information

Requête Collection de documents

Indexation Indexation

Représentation de la requête Représentation des documents Appariement document-requête

Documents sélectionnés

Reformulation de la requête

1. http ://trec.nist.gov/

2. http ://inex.mmci.uni-saarland.de/

3. http ://ntcir.nii.ac.jp/

4. http ://www.clef-campaign.org/

5. http ://clef2015.clef-initiative.eu/CLEF2015/lab_overview.php

Filtrage et agrégation d'informations vitales relatives à des entités

HAL Id: tel-01266560

https://tel.archives-ouvertes.fr/tel-01266560

Submitted on 2 Feb 2016

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires

Filtrage et agrégation d’informations vitales relatives à des entités

Rafik Abbes

To cite this version:

Rafik Abbes. Filtrage et agrégation d’informations vitales relatives à des entités. Informatique [cs].

Universite Toulouse III Paul Sabatier, 2015. Français. �tel-01266560�

THÈSE THÈSE

En vue de l’obtention du

DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE

Délivré par : l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)

Présentée et soutenue le 11/12/2015 par : Rafik ABBES

Filtrage et agrégation d’informations vitales relatives à des entités

JURY

École doctorale et spécialité :

MITT : Image, Information, Hypermedia Unité de Recherche :

Institut de Recherche en Informatique de Toulouse (UMR 5505) Directeur(s) de Thèse :

Mohand Boughanem, Nathalie Hernandez et Karen Pinel-Sauvagnat

Rapporteurs :

Remerciements

C’est avec beaucoup d’émotion que j’écris ces lignes pour remercier toutes les personnes qui ont fait de cette thèse une belle expérience réussie.

Je tiens également à remercier les examinateurs Monsieur Faiez Gargouri, Professeur à l’Université de Sfax et Monsieur Jian-Yun Nie, Professeur à l’Université de Montréal d’avoir accepté de participer à mon jury de thèse et échangé leurs points de vue.

Mes remerciements vont de même aux membres des équipes SIG, IRIS

Je voudrais remercier mon très cher frère Tarek et son épouse Rania, vous qui m’avez toujours apporté affection, encouragement et soutien moral. Je vous souhaite plein de bonheur et de réussite.

Soyez fiers, votre fils est désormais docteur. Que Dieu vous protège, vous

prête bonne santé et longue vie.

Résumé

Concevoir un système qui analyse les documents dès leur publication sur le Web pour filtrer les informations importantes relatives à des entités pourra sans doute accélérer la mise à jour de ces bases de connaissances.

Nous souhaitons répondre principalement aux deux problématiques

suivantes : (1) Comment détecter si un document est vital (c.à.d qu’il

apporte une information pertinente et nouvelle) par rapport à une entité

donnée ? et (2) Comment extraire les informations vitales à partir de ces

documents qui serviront comme référence pour mettre à jour des bases de

connaissances ? Concernant la première problématique, nous avons proposé

deux méthodes. La première proposition est totalement supervisée. Elle se

base sur un modèle de langue de vitalité. La deuxième proposition mesure

la fraîcheur des expressions temporelles contenues dans un document afin

de décider de sa vitalité. En ce qui concerne la deuxième problématique

relative à l’extraction d’informations vitales à partir des documents vitaux,

nous avons proposé une méthode qui sélectionne les phrases comportant

potentiellement ces informations vitales, en nous basant sur la présence de

mots déclencheurs récupérés automatiquement à partir de la connaissance

déjà représentée dans la base de connaissances (comme la description

d’entités similaires). L’évaluation des approches proposées a été effectuée

dans le cadre de la campagne d’évaluation internationale TREC sur une

collection de 1.2 milliard de documents avec différents types d’entités

(personnes, organisations, établissements et événements). Pour les approches

de filtrage de documents vitaux, nous avons mené nos expérimentations

dans le cadre de la tâche "Knwoledge Base Acceleration (KBA)" pour

les années 2013 et 2014. L’exploitation des expressions temporelles dans

le document a permis d’obtenir de bons résultats dépassant le meilleur

système proposé dans la tâche KBA 2013. Pour évaluer les contributions

concernant l’extraction des informations vitales relatives à des entités,

nous nous sommes basés sur le cadre expérimental de la tâche "Temporal

Summarization (TS)". Nous avons montré que notre approche permet de

minimiser le temps de latence des mises à jour de bases de connaissances.

Publications

Articles de revues internationales :

1. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand Boughanem. When Temporal Expressions Help to Detect Vital Do- cuments Related to An Entity. In ACM SIGAPP Applied Computing Review, Volume 15 Issue 3, Pages 49-58, Septembre 2015.

Articles de conférences et workshops internationaux :

1. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand Boughanem. Leveraging temporal expressions to filter vital documents related to an entity. In Proceedings of the 30th Annual ACM Sympo- sium on Applied Computing (SAC 2015), Pages 1093-1098, 2015 (best paper award).

2. Rafik Abbes, Nathalie Hernandez, Karen Pinel-Sauvagnat, Mohand Boughanem. Accelerating the update of knowledge base instances by detecting vital information from a document stream (short paper). In IEEE/WIC/ACM International Conference on Web Intelligence (to appear), 2015.

3. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand Boughanem. IRIT at TREC KBA 2014. In : Text REtrieval Conference (TREC 2014), Gaithersburg, USA, 18/11/2014-21/11/2014, National Institute of Standards and Technology (NIST), 2014.

4. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand Boughanem. IRIT at TREC Temporal Summarization 2014. In : Text REtrieval Conference (TREC 2014), Gaithersburg, USA, 18/11/2014- 21/11/2014, National Institute of Standards and Technology (NIST), 2014.

5. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand

Boughanem. IRIT at TREC Knowledge Base Acceleration 2013 : Cu-

mulative Citation Recommendation Task. In : Text REtrieval Confe-

rence (TREC 2013), Gaithersburg, USA, 19/11/2013-22/11/2013,

National Institute of Standards and Technology (NIST), 2013.

Articles de conférences et workshops nationaux :

2. Rafik Abbes, Karen Pinel-Sauvagnat, Nathalie Hernandez, Mohand Boughanem. Modèles de langue pour la mise à jour d’un profil d’entité.

In Conférence francophone en Recherche d’Information et Applications (CORIA 2014), Nancy, 19/03/2014-21/03/2014, LORIA, Pages. 129- 143, mars 2014.

3. Rafik Abbes, Arlind Kopliku, Karen Pinel-Sauvagnat, Nathalie Her-

nandez, Mohand Boughanem. Apport du Web et du Web de Données

pour la recherche d’attributs (papier court). In Conférence franco-

phone en Recherche d’Information et Applications (CORIA 2013),