• Aucun résultat trouvé

Extraction de Connaissances a partir de Textes : M ethodes et Applications

N/A
N/A
Protected

Academic year: 2021

Partager "Extraction de Connaissances a partir de Textes : M ethodes et Applications"

Copied!
189
0
0

Texte intégral

(1)

HAL Id: tel-00927238

https://tel.archives-ouvertes.fr/tel-00927238

Submitted on 12 Jan 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

ethodes et Applications

Chiraz Latiri

To cite this version:

Chiraz Latiri. Extraction de Connaissances a partir de Textes : M ethodes et Applications. Appren-

tissage [cs.LG]. Université de Lorraine, 2013. �tel-00927238�

(2)

Universit´ e de LORRAINE Ecole doctorale IAEM Lorraine ´

Extraction de Connaissances ` a partir de Textes : M´ ethodes et Applications

emoire de Recherche

pr´ esent´ e et soutenu publiquement le 24 Juin 2013 en vue de l’obtention d’une

Habilitation ` a Diriger les Recherches de l’Universit´ e de LORRAINE

(Sp´ ecialit´ e Informatique)

par

Chiraz Latiri Cherif

Pr´ esident : M. Dominique Mery , Professeur (Universit´ e de Lorraine)

Rapporteurs : Mme. Amel Bouzeghoub , Professeur (Institut T´ el´ ecom SudParis) M. Eric Gaussier , Professeur (Universit´ e Joseph Fourier, Grenoble I) M. Pascal Poncelet , Professeur (Universit´ e de Montpellier 2)

Examinateurs : M. Kamel Sma¨ıli , Professeur (Universit´ e de Lorraine)

M. Yahya Slimani , Professeur (ISAMM, Universit´ e de la Manouba)

Laboratoire Lorrain de Recherche en Informatique et ses Applications — UMR 7503

(3)
(4)

Table des mati` eres

Partie I CV d´ etaill´ e et Synth` ese des Activit´ es Acad´ emiques et Scienti-

fiques 1

CV de synth` ese 3

1 Etat civil . . . . ´ 3

2 Titres acad´ emiques . . . . 3

3 Situation professionnelle . . . . 4

Responsabilit´ es p´ edagogiques et administratives 5 1 Coordination p´ edagogique de la maˆıtrise MIAGE ` a l’ESC de Tunis (Avril 2001 - Janvier 2006) . . . . 5

2 Direction de l’Institut Sup´ erieur des Arts Multim´ edias (Janvier 2006 - Juillet 2011) . . . . 5

2.1 Missions administratives . . . . 6

2.2 Missions p´ edagogiques et scientifiques . . . . 6

2.3 Organisation de manifestations scientifiques et culturelles . . . . 7

2.4 Autres participations . . . . 8

3 Activit´ es en milieu associatif . . . . 8

Activit´ es d’enseignement 11 1 Chronologie et ´ evolution . . . . 11

2 Tableau r´ ecapitulatif des enseignements assur´ es durant la p´ eriode 1995-2013 12 Activit´ es de recherche 13 1 Contexte scientifique . . . . 13

2 R´ esum´ e des travaux de recherche men´ es dans le cadre de la th` ese de doctorat 15 3 Synth` ese des travaux de recherche post-th` ese (Depuis 2005) . . . . 15

i

(5)

3.1 Axe 1 : Base g´ en´ erique de r` egles d’association entre termes (` a partir

de 2005) . . . . 17

3.2 Axe 2 : R` egles d’association entre termes et ontologie au service de la RI (` a partir de 2007) . . . . 19

3.3 Axe 3 : R` egles d’association inter-langues pour la Traduction Auto- matique Statistique (` a partir de 2008) . . . . 22

3.4 Autres Contributions (` a partir de 2008) . . . . 23

4 Publications scientifiques . . . . 27

4.1 Revues avec comit´ e de lecture . . . . 27

4.2 Conf´ erences internationales avec comit´ e de lecture et actes . . . . 27

4.3 Conf´ erences francophones avec comit´ e de lecture et actes . . . . 29

4.4 Articles soumis et en r´ evision . . . . 30

4.5 Tableau r´ ecapitulatif du nombre de publications scientifiques durant la p´ eriode 2001-2013 . . . . 31

5 Activit´ es d’encadrement et de co-encadrement . . . . 31

5.1 Encadrement de mast` eres de recherche . . . . 32

5.2 Co-encadrement de th` eses de doctorat . . . . 33

6 Rayonnement et collaborations scientifiques . . . . 34

6.1 Participation ` a des campagnes d’´ evaluation . . . . 34

6.2 Membre de comit´ e de lecture de conf´ erences scientifiques . . . . 34

6.3 Membre de comit´ e de lecture de journaux scientifiques . . . . 35

6.4 Organisation de conf´ erences francophones et internationales . . . . . 35

6.5 Activit´ es de recherche men´ ees au sein de l’´ equipe MRIM du Labora- toire d’Informatique de Grenoble (Ex CLIPS-IMAG) . . . . 35

6.6 Participation dans le projet CMCU DMP N˚ 05G1412 (Data Mining Parall` ele, 2005-2009) . . . . 35

6.7 Activit´ es de recherche men´ ees au sein de l’´ equipe PAROLE du Labo- ratoire LORIA, Nancy . . . . 36

6.8 Participation dans le projet CMCU N˚ 11G1417 EXQUI : EXtrac- tion, QUalit´ e et Ing´ enierie des connaissances dans les environnements h´ et´ erog` enes (2011-2013) . . . . 36

6.9 Coll` ege EGC Maghreb . . . . 37

6.10 Synth` ese de la collaboration avec les structures de recherche fran¸ caises 38

(6)

iii

Partie II emoire de Recherche 39

Positionnement scientifique 41

1 Cadre f´ ed´ erateur : Extraction de Connaissances ` a partir de Textes (ECT) . . 41

2 Positionnement : Analyse Formelle de Concepts et ECT . . . . 43

2.1 Application de l’AFC ` a la Recherche d’Information . . . . 44

2.2 Ontologies et Analyse Formelle de Concepts . . . . 45

2.3 Analyse Formelle de Concepts et Traduction Automatique . . . . 46

3 Contributions de recherche . . . . 46

4 Organisation du m´ emoire . . . . 48

Chapitre 1 Etat de l’art ´ 51 1.1 Objectifs du chapitre . . . . 51

1.2 Fondements math´ ematiques de l’AFC . . . . 51

1.2.1 Cadre formel et notations . . . . 52

1.2.2 D´ efinitions de base . . . . 53

1.3 Extraction des termsets ferm´ es fr´ equents . . . . 57

1.4 Extraction de r` egles d’association entre termes . . . . 58

1.5 Fouille de s´ equences fr´ equentes et ECT . . . . 60

1.5.1 Cadre formel de l’extraction des s´ equences fr´ equentes ` a partir de textes 61 1.5.2 Synth` ese sur les approches existantes pour l’extraction des motifs s´ e- quentiels fr´ equents . . . . 62

1.6 Discussion et conclusion . . . . 64

Chapitre 2 efinition d’une base g´ en´ erique de r` egles d’association entre termes 67 2.1 Objectifs du chapitre . . . . 67

2.2 Aper¸ cu sur les bases g´ en´ eriques de r` egles d’association . . . . 68

2.2.1 Extraction de bases g´ en´ eriques sans perte d’information . . . . 68

2.2.2 Extraction de bases g´ en´ eriques avec perte d’information . . . . 70

2.3 MGB : Nouvelle base g´ en´ erique minimale de r` egles d’association entre termes 71 2.3.1 D´ ecouverte des r` egles d’association non-redondantes . . . . 72

2.3.2 D´ efinition de la base g´ en´ erique minimale MGB . . . . 74

2.3.3 Description de l’algorithme Gen-MGB . . . . 75

2.3.4 D´ erivation des r` egles d’association redondantes . . . . 77

2.4 Comparaison des bases g´ en´ eriques de r` egles d’association avec la base MGB 78

(7)

2.5 Evaluation empirique de la base g´ ´ en´ erique MGB . . . . 79

2.6 Bilan des contributions . . . . 82

Chapitre 3 R` egles d’association entre termes et ontologie au service de la RI 85 3.1 Objectifs du chapitre . . . . 85

3.2 Expansion de requˆ etes en RI par la base g´ en´ erique MGB . . . . 86

3.2.1 Travaux reli´ es ` a l’expansion de requˆ etes en RI . . . . 87

3.2.2 Processus d’expansion automatique de requˆ etes par la base MGB . . 88

3.3 Evaluation exp´ ´ erimentale de l’approche d’expansion . . . . 89

3.3.1 R´ esultats et discussion . . . . 90

3.3.2 Tests de significativit´ e . . . . 92

3.4 Enrichissement d’une ontologie de domaine par la base MGB . . . . 93

3.4.1 Techniques d’enrichissement d’ontologies . . . . 94

3.4.2 Nouvelle approche d’enrichissement d’ontologies . . . . 95

3.4.3 O MGB : Un r´ eseau conceptuel prox´ emique pour la repr´ esentation des connaissances . . . . 98

3.5 Nouvelle approche d’indexation conceptuelle en RI . . . . 99

3.5.1 Phase 1 : Identification et pond´ eration des concepts repr´ esentatifs d’un document . . . 100

3.5.2 Phase 2 : D´ esambigu¨ısation des concepts . . . 102

3.5.3 Phase 3 : Construction du r´ eseau prox´ emique d’un document Doc-O MGB 103 3.6 Evaluation de l’approche d’indexation conceptuelle . . . 104 ´

3.6.1 Cadre d’´ evaluation . . . 104

3.6.2 R´ esultats et discussion . . . 106

3.7 Bilan des contributions . . . 108

Chapitre 4 R` egles d’association inter-langues pour la Traduction Automatique Statis- tique 109 4.1 Objectifs du chapitre . . . 110

4.2 Motivations . . . 110

4.3 Autour de la Traduction Automatique Statistique . . . 111

4.3.1 Mod` ele de langage . . . 111

4.3.2 Alignement de n-grammes . . . 111

4.3.3 Mod` ele de traduction ` a base de mots . . . 111

(8)

v

4.3.4 Processus de d´ ecodage . . . 113

4.3.5 Evaluation d’un syst` ´ eme de traduction . . . 113

4.3.6 Corpus parall` eles . . . 114

4.3.7 Mod` eles de traduction ` a base de s´ equences de mots . . . 114

4.3.8 Vers un mod` ele de traduction ` a base de r` egles d’association inter-langues116 4.4 Extraction des s´ equences ferm´ ees fr´ equentes ` a partir d’un corpus parall` ele . . 117

4.4.1 Notre approche pour la TAS . . . 117

4.4.2 Evaluation empirique de l’extraction des s´ ´ equences de termes ferm´ ees fr´ equentes . . . 119

4.5 R` egles d’association inter-langues . . . 120

4.5.1 D´ efinition d’une r` egle d’association inter-langues . . . 120

4.5.2 D´ erivation de r` egles d’association inter-langues . . . 120

4.5.3 Mod` ele de traduction ` a base de r` egles d’association inter-langues . . . 121

4.6 Evaluation des r` ´ egles d’association inter-langues . . . 123

4.6.1 Strat´ egies d’´ evaluation et r´ esultats . . . 123

4.6.2 Couplage des r` egles d’association avec les triggers inter-langues . . . . 126

4.7 Bilan des contributions . . . 128

Conclusion 131 Partie III Projet de Recherche 133 Orientations et probl´ ematiques de recherche futures Orientations et probl´ ematiques de recherche futures 135 1 Objectifs du chapitre . . . 135

2 Corpus parall` eles vs corpus comparables . . . 136

3 Orientation 1 : Extraction de lexiques bilingues pour la RI multilingue . . . . 138

3.1 Axe 1 : Fouille des corpus comparables pour la traduction d’une requˆ ete140 3.2 Axe 2 : Expansion d’un index multilingue par les lexiques bilingues . 142 3.3 Axe 3 : Vers la multilinguisation d’ontologies et l’indexation concep- tuelle multilingue . . . 143

4 Orientation 2 : Ouverture vers le domaine de l’Analyse des R´ eseaux Sociaux 146 4.1 Axe 1 : Extraction de ferm´ es de cliques maximales pour la compl´ etion de liens et la d´ etection de communaut´ es dans les r´ eseaux sociaux . . . 146

4.2 Axe 2 : Fouille de graphes pour la pr´ ediction de liens dans les r´ eseaux

sociaux . . . 148

(9)

Table des figures 151

Liste des tableaux 153

Bibliographie 155

(10)

1

Remerciements

Je voudrais, ` a travers ces quelques lignes, remercier tr` es sinc` erement les membres du jury : – M. Dominique Mery , Professeur ` a l’Universit´ e de Lorraine pour l’honneur qu’il m’a fait

en acceptant de pr´ esider le jury de mon habilitation.

– Mme. Amel Bouzeghoub , Professeur ` a l’Institut T´ el´ ecom SudParis, M. Eric Gaussier , Professeur ` a l’Universit´ e Joseph Fourier de Grenoble et M. Pascal Poncelet , Professeur

`

a l’Universit´ e Montpellier 2, d’avoir bien voulu rapporter mon m´ emoire d’habilitation ` a diriger les recherches malgr´ e leurs charges.

– M. Kamel Sma¨ıli , Professeur ` a l’Universit´ e de Lorraine et M. Yahya Slimani , Professeur

`

a l’Institut Sup´ erieur des Arts Multim´ edia de la Manouba, pour l’int´ erˆ et qu’ils ont port´ e

`

a mes travaux en acceptant de faire partie du jury en tant qu’examinateurs.

Il m’est difficile de tenir en quelques lignes tous les remerciements que j’aimerais adresser ` a ceux et ` a celles qui ont permis ` a ce modeste travail d’exister et de progresser au fil des ann´ ees.

C’est grˆ ace ` a eux tous que ce m´ emoire a pu voir le jour.

R´ ediger un m´ emoire d’Habilitation ` a Diriger les Recherches, c’est toujours faire un bilan de plusieurs ann´ ees de recherches. Je tiens ` a dire combien les rencontres que j’ai eu la chance de faire avec d’autres chercheurs ont enrichi ma r´ eflexion et ma maturit´ e scientifique.

Au-del` a de la formalit´ e d’usage, c’est avec une grande reconnaissance que je remercie les membres de l’ ´ Ecole Doctorale IAEM de Nancy-Universit´ e et les membres du jury pour le temps qu’ils ont consacr´ e ` a l’´ evaluation de mon travail.

Mes remerciements et ma gratitude vont tout d’abord ` a Yahya Slimani, Professeur ` a l’Institut Sup´ erieur des Arts Multim´ edias de la Manouba (Universit´ e de la Manouba), pour sa confiance et pour l’autonomie qu’il m’a accord´ ee durant toutes ces ann´ ees pass´ ees au sein du Laboratoire d’Informatique en Programmation Algorithmique et Heuristique (LIPAH, Facult´ e des Sciences de Tunis, Universit´ e Tunis El Manar). Je suis fi` ere de l’avoir eu comme mentor et d’avoir appris

`

a ses cˆ ot´ es la rigueur scientifique et les vraies valeurs universelles tant sur le plan humain que sur le plan scientifique. Je le remercie pour toutes les collaborations partag´ ees durant les derni` eres ann´ ees ´ ecoul´ ees. Je n’oublierais jamais son soutien et ses pr´ ecieux conseils dans les moments difficiles que j’ai affront´ e les derni` eres ann´ ees. Merci cher professeur pour votre g´ en´ erosit´ e et votre patience.

Je tiens ensuite ` a remercier Mohamed Ben Ahmed, Professeur ´ em´ erite ` a l’ ´ Ecole Nationale des Sciences de l’Informatique de l’universit´ e de la Manouba (Tunis), pour m’avoir adopt´ e il y a d´ ej` a de nombreuses ann´ ees et pour les conseils pr´ ecieux qu’il m’a donn´ e. Je lui addressee toute ma gratitude pour m’avoir confi´ e la co-direction d’une th` ese o` u j’ai eu l’occasion d’appr´ ecier sa richesse et son exigence scientifiques.

Mes plus vifs remerciements s’adressent par la suite ` a Kamel Sma¨ıli, Professeur ` a l’universit´ e

de Lorraine. Je l’ai connu en 2008 sur les bancs d’une conf´ erence et depuis ce jour, il me montre

le chemin ` a suivre avec quelques ann´ ees d’avance et il m’a soutenu avec une grande g´ en´ erosit´ e

pour r´ ediger cette habilitation. C’est aussi grˆ ace ` a lui qu’une partie des mes contributions s’est

articul´ ee autour de la Traduction Automatique Statistique. Je le remercie du fond du cœur

pour la confiance qu’il m’a accord´ ee pour la co-direction de travaux de recherche et d’avoir

accept´ e d’ˆ etre mon parrain scientifique au sein de l’universit´ e de Lorraine. Je lui t´ emoigne toute

ma gratitude et ma reconnaissance pour ses conseils, ses encouragements, son sens critique, ses

fortes convictions scientifiques, qui m’ont permis de progresser et de m’affirmer en tant que

chercheur. Merci cher Kamel de te trouver toujours pr` es de moi.

(11)

Une pens´ ee amicale va ` a mes compagnons de toujours dans la recherche, Chiraz Trabelsi, Sadok Ben Yahia, Hatem Haddad et Tarak Hamrouni. Sans leur conseils patients, leurs encou- ragements, je me serais encore plus souvent d´ etourn´ ee du chemin de la r´ edaction. Je les remercie pour la collaboration et les ´ echanges scientifiques que nous partageons ensemble, sans oublier notre amiti´ e ind´ efectible qui nous aide ` a surmonter les phases difficiles. J’exprime en particulier toute ma reconnaissance ` a Hatem et Tarak, qui m` enent avec moi depuis six ans la lourde mission de dynamiser et p´ erenniser les activit´ es de recherche du groupe “Fouille de donn´ ees textuelles” au sein du Laboratoire d’Informatique en Programmation Algorithmique et Heuristique (LIPAH) de la Facult´ e des Sciences de Tunis.

J’exprime aussi tous mes remerciements ` a mes coll` egues de l’ISAMM o` u j’ai pass´ e les six plus belles ann´ ees de ma carri` ere acad´ emique en tant que directrice. Je garde le souvenir d’une ´ equipe exceptionnelle tant sur le plan humain que sur le plan professionnel. Aujourd’hui, l’occasion est arriv´ ee pour les saluer pour les moments de d´ efis, de bonheur que j’ai partag´ e avec eux. Tout en servant l’´ ecole avec beaucoup d’engagement et d’abn´ egation, j’ai eu la chance et le plaisir de me ressourcer de leur dynamisme et leur amiti´ e pour avancer dans mon projet d’habilitation. Une pens´ ee particuli` ere ` a mon amie Hajer Baazaoui, car nous nous sommes toujours encourag´ ees mutuellement pour ne pas baisser les bras et progresser dans nos travaux de recherche.

Ma r´ eflexion scientifique s’est ´ egalement enrichie des nombreux ´ echanges que j’ai eu avec les jeunes ´ etudiants-chercheurs en master et en th` ese. Je tiens ` a les remercier tr` es sinc` erement pour avoir contribu´ e ` a mes recherches et d’avoir partag´ e avec moi leur vivacit´ e de jeunesse. Je t´ emoigne ici de leur m´ erite et je leur souhaite un avenir plein de succ` es. Une pens´ ee particuli` ere

`

a mon ´ etudiant Brahim Douar, dont la curiosit´ e et la rigueur scientifique ont fait de nos r´ eunions de travail un vrai plaisir partag´ e et ont donn´ e lieu ` a d’excellentes contributions de recherche.

Ce m´ emoire est aussi le fruit de longues ann´ ees de travail et de collaborations scientifiques avec des ´ equipes de recherche fran¸ caises dans le cadre d’´ echanges scientifiques Tuniso-fran¸cais et de projets CMCU. ` A ce titre, je remercie vivement les professeurs et chercheurs fran¸cais et

´

etrangers qui ont contribu´ e de pr` es ou de loin ` a mes travaux de recherche. Je commencerais par saluer tous les membres de l’´ equipe MRIM au sein du Laboratoire d’Informatique de Grenoble (LIG) qui m’ont beaucoup soutenu lors de l’´ elaboration de ma th` ese de doctorat. Toute ma gratitude va ` a mon ami Engelbert Mephu Nguifo du LIMOS (Universit´ e de Clermont-Ferrand) qui m’a beaucoup apport´ e, que ce soit par ses conseils, son soutien ou par sa dynamique de recherche, ` a laquelle il m’a toujours associ´ ee. J’exprime aussi toute ma reconnaissance ` a Michel Liqui` ere du LIRMM (Universit´ e de Montpellier 2) et Lynda Tamine du l’Institut de Recherche en Informatique de Toulouse (IRIT) avec qui j’ai eu le plaisir de travailler. Je les remercie pour la confiance qu’ils m’ont accord´ ee pour co-diriger des travaux de recherche avec eux, et pour les

´

echanges scientifiques fructueux partag´ es dans la convivialit´ e.

Mes sinc` eres remerciements s’adressent ´ egalement ` a Caroline Lavecchia et David Langlois de l’´ equipe PAROLE du Laboratoire Lorrain de Recherche en Informatique et ses Applications (LORIA) ` a Nancy, pour la collaboration fructueuse que nous avons mise en place ensemble durant les cinq derni` eres ann´ ees.

Un grand Merci ` a Amina, Chahla et Sawssen, mes meilleures amies de toujours, tous les moments de d´ etente et de bonheur pass´ es ` a vos cot´ es, nos fous rires, nos pleurs, nos espoirs et nos rˆ eves ont contribu´ e ` a faire ´ emerger ce travail. ` A l’avenir, ces moments seront plus fr´ equents.

Enfin, je ne peux clore ces remerciements sans faire une place sp´ eciale ` a ma famille : tout

d’abord ma m` ere et mon p` ere, pour tout ce qu’ils m’ont apport´ es, leur pr´ esence, leur soutien

moral constant et leurs encouragements, pour se soucier r´ eguli` erement de ma vie et de ma

carri` ere ; mes sœurs et mon fr` ere, pour leur attention, leur affection et les moments de bonheur

partag´ es ensemble m’ont permis d’avancer.

(12)

3 A mon ´ ` epoux et mes deux tr` es chers enfants Zeineb et Brahim : aucun mot ne peut faire oublier mes p´ eriodes d’absence (parfois mˆ eme en ´ etant physiquement pr` es de vous). L’aboutisse- ment de ce travail est aussi le fruit de ces instants. Et ` a ce titre, j’esp` ere que vous ne me tiendrez pas rigueur. Merci pour votre grande patience et surtout votre amour sans ´ egal.

Que ceux que je n’ai pas cit´ e, et qui ` a leur mani` ere m’ont apport´ e leur aide et leur soutien, m’excusent et soient remerci´ es du fond du cœur.

“Aucun homme ne peut rien vous r´ ev´ eler sinon ce qui repose d´ ej` a ` a demi endormi dans l’aube de votre connaissance

Gibran Khalil Gibran (Le Proph` ete, 1923)

“Le savoir acquis en exil est une patrie et l’ignorance en patrie est un exil.”

Ibn Rushd (Averro` es, 1126-1198)

(13)
(14)

5

A la m´ ` emoire de ma tr` es ch` ere amie Saoussen, qui accompagnera ` a vie mes pens´ ees . . . Paix ` a son ˆ ame.

Aux “Andaloussiates” qui m’ont accompagn´ e durant mes longues soir´ ees de travail . . .

Merci.

(15)
(16)

Premi` ere partie

CV d´ etaill´ e et Synth` ese des Activit´ es Acad´ emiques et Scientifiques

1

(17)
(18)

CV de synth` ese

1 Etat civil ´

Chiraz Latiri ´ epouse Cherif

– N´ ee le 24/03/1972 ` a Hammam Sousse, Tunisie.

– Nationalit´ e : Tunisienne.

– Mari´ ee et m` ere de deux enfants.

GSM : (+216) 24 33 45 54

el professionnel : (+216) 71 603 498 – Fax : (+216) 71 603 450

Email : chiraz.latiri@gnet.tn

Adresse personnelle : 45, Avenue Jugurtha, 1002, Mutuelleville, Tunis, Tunisie.

Adresse professionnelle : Institut Sup´ erieur des Arts Multim´ edias de la Manouba, Campus Universitaire de la Manouba, 2010 Tunis, Tunisie.

2 Titres acad´ emiques

Ann´ ee Diplˆ ome

2004 Th` ese de Doctorat en Informatique

Titre de la th` ese : “Approche de d´ ecouverte de r` egles d’association classiques et floues ` a partir de textes : Application ` a la Recherche d’Information.”

Pr´ epar´ ee ` a l’´ Ecole Nationale des Sciences de l’Informatique (Universit´ e de la Manouba, Tunis) et au sein de l’´ equipe MRIM (LIG, Grenoble).

Date de la soutenance : 10 avril 2004.

Directeurs de th` ese :

Ali Jaoua : Professeur ` a la Facult´ e des Sciences de Tunis.

Marie-France Bruandet : Professeur ` a l’Universit´ e Joseph Fourrier, Grenoble.

1997 Diplˆ ome d’ ´ Etudes Approfondies en Mod´ elisation et Informatique de Gestion

Titre du M´ emoire : “Les Syst` emes Experts Flous : Application au probl` eme des achers d’eau au niveau des barrages du nord de la Tunisie.”

Pr´ epar´ e au sein du Groupe de Recherche et d’Aide ` a la D´ ecision de l’Institut Sup´ erieur de Gestion de Tunis.

Date de Soutenance : 7 avril 1997.

Directeur de DEA : Foued Ben Abdelaziz : Professeur ` a l’ISG de Tunis.

1994 Maˆ ıtrise en M´ ethodes Informatiques Appliqu´ ees ` a la Gestion D’Entre- prises de l’Institut Sup´ erieur de Gestion de Tunis.

1990 Baccalaur´ eat Tunisien, section Math-Sciences, Lyc´ ee de Gar¸ cons de Sousse.

3

(19)

3 Situation professionnelle

Depuis Septembre 2012 Maitre-Assistante de l’Enseignement Sup´ erieur ` a l’Insti- tut Sup´ erieur des Arts Multim´ edias (D´ epartement Infor- matique), Universit´ e de la Manouba.

Septembre 2011 - Juin 2012 En cong´ e d’´ etudes en vue de pr´ eparer une Habilitation Uni- versitaire en Informatique.

Janvier 2006 - Juillet 2011 Directrice de l’Institut Sup´ erieur des Arts Multim´ edias de la Manouba, Universit´ e de la Manouba.

Depuis Mai 2005 - Aoˆ ut 2012 Maitre-Assistante de l’Enseignement Sup´ erieur ` a l’´ Ecole Sup´ erieure de Commerce de Tunis, Universit´ e de la Ma- nouba.

Avril 2001 - Avril 2005 Assistante de l’Enseignement Sup´ erieur ` a l’´ Ecole Sup´ erieure de Commerce de Tunis, Universit´ e de la Manouba et res- ponsable de la MIAGE ` a l’ESC.

Septembre 1998 - F´ evrier 2001 Assistante contractuelle ` a l’Institut Sup´ erieur de Gestion de Tunis au sein du d´ epartement MIAGE.

Septembre 1995 - Septembre 1998 Assistante vacataire ` a l’Institut Sup´ erieur de Gestion de

Tunis au sein du d´ epartement MIAGE.

(20)

Responsabilit´ es p´ edagogiques et administratives

L’ensemble des responsabilit´ es que j’ai assur´ ees sont pr´ esent´ ees ci-dessous en les associant ` a mes diff´ erentes activit´ es p´ edagogiques, administratives et associatives.

1 Coordination p´ edagogique de la maˆıtrise MIAGE ` a l’ESC de Tunis (Avril 2001 - Janvier 2006)

J’ai ´ et´ e charg´ ee de la coordination de la section MIAGE ` a l’ ´ Ecole Sup´ erieure de Commerce de Tunis (ESC) de Avril 2001 ` a Janvier 2006. Cette coordination comprend la gestion de la planification p´ edagogique, le suivi du d´ eroulement des cours et la gestion des projets de fin d’´ etudes. Durant cette p´ eriode, j’ai assur´ e les tˆ aches suivantes :

– Proposition de la r´ epartition p´ edagogique des diff´ erents modules enseign´ es au niveau de la MIAGE en tenant compte des sp´ ecialisations des enseignants de l’´ equipe p´ edagogique.

– Suivi du d´ eroulement des cours, des travaux dirig´ es ainsi que des travaux pratiques relatifs aux diff´ erents enseignements dispens´ es.

– Mise en place et animation de r´ eunions de coordination p´ edagogiques.

– Planification des s´ eminaires d’initiation ` a la recherche pour les ´ etudiants en maˆıtrise de la MIAGE. Ces s´ eminaires ont ´ et´ e anim´ es par des professeurs invit´ es, principalement des universit´ es fran¸ caises.

– Gestion des stages en entreprise et des projets de fin d’´ etudes des ´ etudiants en maˆıtrise, ` a partir de leur int´ egration jusqu’` a la soutenance de leurs projets.

– Cr´ eation d’un r´ eseau d’entreprises nationales et internationales qui sont impliqu´ ees dans la formation MIAGE, ` a travers l’intervention d’experts professionnels dans l’encadrement des ´ etudiants lors de l’´ elaboration de leurs projets de fin d’´ etudes.

2 Direction de l’Institut Sup´ erieur des Arts Multim´ edias (Jan- vier 2006 - Juillet 2011)

Durant la p´ eriode allant de Janvier 2006 ` a Juillet 2011, j’ai assur´ e deux mandats, en tant que directrice de l’Institut Sup´ erieur des Arts Multim´ edias ` a l’Universit´ e de la Manouba (ISAMM).

Cette institution comprend 2400 ´ etudiants r´ epartis sur trois d´ epartements : (i ) le d´ epartement d’informatique qui englobe un cycle d’ing´ enieurs en Informatique et Multim´ edia et une licence fondamentale en Informatique ; (ii ) le d´ epartement Multim´ edia qui offre une formation de li- cence appliqu´ ee en Communication Multim´ edia, une licence professionnelle (co-construite) en Mod´ elisation et Animation 3D et deux mast` eres professionnels li´ es ` a l’Image Num´ erique et ` a

5

(21)

l’Ing´ enierie des m´ edias ; et, (iii ) un d´ epartement de cin´ ema qui dispense une licence appliqu´ ee en Cin´ ema et audiovisuel et un mast` ere professionnel en Production Audiovisuelle.

Mes fonctions au niveau de la direction de l’ISAMM ont couvert la dimension administrative de la gestion de l’institution ainsi que les dimensions p´ edagogique et scientifique relatives aux trois d´ epartements de l’ISAMM.

Les missions les plus significatives que j’ai men´ ees en tant que directrice de l’ISAMM sont r´ esum´ ees ci-dessous dans l’ordre chronologique de leur r´ ealisation.

2.1 Missions administratives

– Restructuration de l’organigramme de l’ISAMM et cr´ eation de la direction des ´ etudes et des stages en 2007.

– Suivi du projet de construction des nouveaux bˆ atiments de l’ISAMM sur le campus univer- sitaire de la Manouba depuis 2006 jusqu’au d´ em´ enagement et ` a l’installation en septembre 2009.

– Cr´ eation du services “production” et “post-production” rattach´ es au d´ epartement Cin´ ema et la mise en place d’un studio de montage et de mixage en septembre 2007.

– Mise en place d’un studio de tournage dans les nouveaux locaux en septembre 2009.

– Mise en place d’un laboratoire de r´ ealit´ e virtuelle, destin´ e aux ´ el` eves ing´ enieurs en sep- tembre 2010.

– Mise en place d’un ensemble de proc´ edures pour la bonne application de la r´ eforme LMD dans les trois d´ epartements de l’ISAMM.

– Elaboration du projet d’´ etablissement de l’ISAMM pour la p´ eriode 2010-2013. Ce projet a introduit plusieurs r´ eflexions constructives qui sont sont li´ ees ` a : (1) l’am´ elioration de la prestation de service d’enseignement, couvrant la stabilisation des effectifs et l’augmenta- tion du taux d’encadrement ; (2) l’am´ elioration des m´ ethodes de l’enseignement pr´ esentiel et ` a distance ; (3) la remise ` a niveau du corps administratif de l’ISAMM ; (4) la consolida- tion du cycle du mast` ere dans le cadre de la r´ eforme LMD ; et, (5) la mise en place d’un mast` ere de recherche en Informatique, sp´ ecialit´ e Image num´ erique et int´ eraction, rattach´ e

`

a l’´ ecole doctorale en Informatique de l’Universit´ e de la Manouba.

– Insertion de l’ISAMM dans un r´ eseau d’institutions de formation r´ eput´ ees ainsi que dans un grappe d’entreprises nationales et internationales issues des domaines de l’informatique, des m´ edias num´ eriques et du cin´ ema.

– Mise en place et signature de conventions cadre avec des institutions et universit´ es ´ etran- g` eres francophones suivantes : l’´ ecole des Mines de Paris, l’ENIB de Brest, l’UFR ATI de l’Universit´ e Paris 8, l’´ Ecole Ing´ emedia de l’Universit´ e de Toulon-Var, l’Universit´ e de Versailles Saint-Quentin-en-Yvelines (UVSQ), l’INSAS de Bruxelles, l’Universit´ e du Qu´ e- bec en Abitibi-T´ emiscamingue (UQAT), l’ESAV de Marrakech (Maroc) et l’Universit´ e de Mouloud Mammeri Tizi-Ouzou (Alg´ erie).

2.2 Missions p´ edagogiques et scientifiques

– Participation active et r´ eguli` ere aux commissions p´ edagogiques de l’ISAMM pour l’´ ela- boration des nouvelles habilitations des licences en Informatique et en Multim´ edia, et ce dans le cadre de l’application de la r´ eforme LMD en Tunisie.

– Montage du projet de collaboration entre l’ISAMM et l’INSAS de Bruxelles en d´ ecembre

2007 pour la p´ eriode 2008-2010, dans le cadre de la coop´ eration mixte Tunisie-Wallonie/Bruxelles

pour un appui aux formations en cin´ ema et audiovisuel dispens´ ees ` a l’ISAMM.

(22)

2. Direction de l’Institut Sup´ erieur des Arts Multim´ edias (Janvier 2006 - Juillet 2011) 7 – Mise en place, ` a l’ISAMM dans le cadre de la r´ eforme LMD, du cycle d’ing´ enieurs en Infor- matique et Multimedia et des mast` eres professionnels en Ing´ enierie des m´ edias, Multim´ edia et Image num´ erique et Production et assistanat ` a la r´ ealisation en Septembre 2009. Ces formations ont induit des partenariats avec des ´ ecoles et des universit´ es fran¸caises, ` a savoir l’ ´ Ecole des Mines de Paris, l’ENIB de Brest, l’UFR ATI de l’Universit´ e Paris 8, l’ ´ Ecole Ing´ emedia de l’Universit´ e de Toulon-Var et l’Universit´ e de Versailles Saint-Quentin-en- Yvelines (UVSQ).

– Participation, dans la cadre de l’adh´ esion de l’ISAMM ` a l’Universit´ e Internationale de Mul- tim´ edia, ` a la mise en place d’un mast` ere professionnel en “M´ edias Num´ eriques en Contexte Interculturel” avec l’Universit´ e du Qu´ ebec en Abitibi-T´ emiscamingue (UQAT), l’ ´ Ecole Ing´ em´ edia de l’Universit´ e de Toulon-Var et L’Universit´ e de Versailles Saint-Quentin-en- Yvelines (UVSQ).

– Montage du projet Euromed Audiovisuel III intitul´ e “D´ eveloppement de l’industrie audio- visuelle Sud-M´ editerran´ eenne par des formations d’excellence et des rencontres profession- nelles, DIA Sud-Med”, avec L’ ´ Ecole Sup´ erieure des Arts Visuels de Marrakech (Maroc) et l’Acad´ emie Libanaise des Beaux Arts de Beirut (Projet valid´ e par l’Union Europ´ eenne en D´ ecembre 2010).

– Montage du projet de reconduction de la collaboration entre l’ISAMM et l’INSAS de Bruxelles en D´ ecembre 2010 pour la p´ eriode 2011-2013, dans le cadre de la coop´ eration mixte Tunisie-Wallonie/Bruxelles pour un appui aux formations en cin´ ema et audiovisuel dispens´ ees ` a l’ISAMM.

– Montage d’un projet de collaboration entre l’ISAMM et le centre de formation Technocit´ e de Mons (Belgique) en D´ ecembre 2010 pour la p´ eriode 2011-2013, dans le cadre de la coop´ eration mixte Tunisie-Wallonie/Bruxelles pour la mise en place ` a l’ISAMM d’un pˆ ole d’excellence dans le domaine des m´ edias num´ eriques en Tunisie.

– Mise en place d’une licence “Informatique et Multim´ edia ” au sein du d´ epartement Informa- tique ` a la Facult´ e des Sciences de l’Universit´ e Mouloud Mammeri ` a Tizi-Ouzou (Alg´ erie), en r´ eponse ` a une forte demande du march´ e d’emploi alg´ erien dans les secteurs des m´ e- dias num´ eriques. ` A ce titre, plusieurs rencontres et r´ eunions entre l’´ equipe p´ edagogique de l’ISAMM et celle de l’Universit´ e Mouloud Mammeri ont ´ et´ e organis´ ees durant l’ann´ ee 2010 et ont donn´ e lieu ` a la premi` ere habilitation de la licence “Informatique et Multim´ edia ”, dispens´ ee en Alg´ erie. La formation a d´ emarr´ e en septembre 2011.

– Participation ` a la mise en place d’un master de recherche en Informatique au sein de l’Institut Sup´ erieur des Arts Multim´ edia de La Manouba (D´ emarrage pr´ evu en septembre 2013).

2.3 Organisation de manifestations scientifiques et culturelles

– Organisation de l’´ ecole d’automne de l’Universit´ e Internationale du Multimedia (UIM) qui s’est tenue en Novembre 2008 ` a Hammamet.

– Organisation d’un s´ eminaire sur “La r´ ealit´ e virtuelle et les technologies du web : m´ etiers d’avenir et d´ efis de demain” , les 12 et 13 Mars 2010 ` a l’Universit´ e de la Manouba avec l’´ ecole des Mines de Paris, l’ENIB de Brest et l’UFR ATI de l’Universit´ e Paris 8.

– Organisation d’un s´ eminaire sur “Le patrimoine Musical arabo-andalou au cœur des arts multim´ edias” , les 7 et 8 Mai 2010 ` a l’Universit´ e de la Manouba avec la participation de plusieurs universitaires et professionnels maghr´ ebins.

– Organisation de la “Premi` ere Journ´ ee du Num´ erique”avec la d´ el´ egation Wallonie-Bruxelles

en Tunisie le 24 Novembre 2010 ` a l’Universit´ e de la Manouba, dont le but est la mise en

(23)

r´ eseau de soci´ et´ es belges dans le domaine de la production num´ erique avec les soci´ et´ es tunisiennes, partenaires de l’ISAMM et leur implication dans l’appui aux formations dis- pens´ ees.

2.4 Autres participations

– Membre du comit´ e du pilotage des programmes de certification C2I au sein du Minist` ere de l’Enseignement Sup´ erieur et de la Recherche Scientifique de Mars 2006 ` a Juin 2009.

– Membre du jury du concours national de recrutement des assistants en Sciences et Tech- niques Audiovisuelles pour les sessions de Juillet 2006 et Juillet 2007.

– Rapporteur du symposium “Education, Sciences et D´ eveloppement Technologique” pendant les Assises de la Recherche Scientifique et de l’Innovation Technologique tenues ` a Tunis les 19 et 20 Novembre 2007 et organis´ ees par le Minist` ere de l’Enseignement Sup´ erieur et de la Recherche Scientifique.

– Participation aux rencontres professionnelles “ ´ Etat et perspectives du secteur audiovisuel au Maroc” les 30, 31 octobre et 1 er novembre 2009 ` a l’ESAV de Marrakech (Maroc).

– Participation aux journ´ ees Audiovisuelles de Tunis, organis´ ees par l’ambassade de France

`

a Tunis, du 25 au 27 octobre 2010, dans la session “Production et formation : comment mieux travailler ensemble ?” .

3 Activit´ es en milieu associatif

J’ai cr´ ee en D´ ecembre 2008 l’Association culturelle du Multim´ edia et de l’AudioVIsuel (AMAVI), dont je suis pr´ esidente jusqu’` a ce jour. Cette association a pour objectif de promouvoir les m´ etiers de demain li´ es aux nouveaux m´ edias et ` a la cr´ eation num´ erique. Elle a comme projets d’organiser des s´ eminaires et des formations autour de ces th` emes. Dans ce contexte, l’association a soutenu une bonne partie des manifestations scientifiques et culturelles organis´ ees par l’ISAMM.

La cr´ eation de cette association est motiv´ ee par le constat que l’universit´ e tunisienne produit chaque ann´ ee une centaine de travaux d’´ etudiants. Ces travaux sont sous forme de fictions et de documentaires, d’affiches, de spots publicitaires, de films d’animation 2D/3D, d’animatiques ou encore des sites en ligne. Il importe de signaler qu’une s´ election de ces travaux a ´ et´ e, ` a plusieurs occasions, appr´ eci´ ee et prim´ ee ` a l’´ echelle nationale et internationale. L’association AMAVI vient ainsi encourager toute ces formes de r´ ealisations num´ eriques et audiovisuelles.

Au d´ ebut de l’ann´ ee 2011, l’association AMAVI s’est alli´ ee avec l’Association Tunisienne des Libert´ es Num´ eriques (ATLN) et d’autres membres de la soci´ et´ e civile pour la cr´ eation et la mise en place d’un m´ edia citoyen d´ edi´ e ` a l’information et ` a l’´ eveil socio-politique 1 . L’association AMAVI contribue principalement dans le volet de la cr´ eation num´ erique. Le lien ´ etablit avec l’association ATLN a donn´ e naissance ` a un partenariat tr` es ´ etroit avec Canal France Interna- tional (CFI) dans le domaine de la promotion des nouveaux m´ edias. ` A ce titre, j’ai organis´ e les 12 et 13 Janvier 2012, le colloque 4M Tunis qui s’inscrit dans la logique d’accompagnement de la transformation des m´ edias traditionnels vers une logique “nouveaux m´ edias” en Tunisie.

L’association AMAVI est ´ egalement charg´ ee, pour les deux ann´ ees ` a venir, de d´ evelopper une plate-forme Web “Marhaba M´ edias” pour structurer et mettre en r´ eseau le partage d’information et la coop´ eration m´ edias et audiovisuelle dans les pays du Maghreb.

1. www.fhimt.com

(24)

3. Activit´ es en milieu associatif 9 De plus, je suis impliqu´ ee avec l’appui de CFI dans la mise en place d’un programme d’ate- liers, de visites et de rencontres de haut niveau, destin´ es aux jeunes tunisiens et qui se tiendront entre Tunis et Paris ` a partir du mois de Septembre 2012 et 2013 (SAFIR’Lab). L’objectif princi- pal de cette initiative est d’identifier les futurs ´ elites ou leaders d’opinion issus de la soci´ et´ e civile (r´ eseaux sociaux, milieux associatifs) qui n’ont pas suivi de parcours classique scolaire ou univer- sitaire et de leur offrir une formation ad hoc dans le domaine ´ economico-politique et m´ ediatique.

A court terme, je suis ainsi charg´ ` ee de suivre et accompagner leurs trajectoires professionnelles et animer ce r´ eseau.

Je suis ´ egalement membre de l’association ARIA, Association Francophone de Recherche

d’Information et Applications et l’association internationale francophone d’Extraction et Ges-

tion des Connaissances (EGC). Ces associations organisent chaque ann´ ee, respectivement, les

conf´ erences francophones CORIA et EGC.

(25)
(26)

Activit´ es d’enseignement

Apr` es la validation de ma premi` ere ann´ ee de DEA, j’ai commenc´ e mon cursus d’enseignement par un poste d’´ etudiante-contractuelle de 1995 ` a 1996 ` a l’ISG de Tunis au sein du d´ epartement MIAGE. Depuis, mes activit´ es d’enseignement se sont poursuivies comme d´ ecrit ci-dessous.

1 Chronologie et ´ evolution

Les 17 ann´ ees d’exp´ eriences d’enseignement et d’implication dans la vie p´ edagogique au sein de l’Universit´ e Tunis I et l’Universit´ e de la Manouba se r´ epartissent comme suit : 2 ann´ ees en tant que vacataire (Septembre 1996 - Septembre 1998), 3 ann´ ees en tant que assistante contractuelle, 4 ann´ ees en tant que assistante permanente de l’enseignement sup´ erieur et 7 ann´ ees en tant que maˆıtre assistante (depuis Mai 2005). L’´ evolution de mes enseignements au sein de l’universit´ e s’est faite en trois phases :

1. Phase d’initiation ` a l’enseignement correspondant ` a mes deux ann´ ees de vacation du- rant lesquelles j’ai assur´ e les enseignements d’algorithmique, de programmation ADA et C, des structures de donn´ ees et de mod´ elisation de l’information, destin´ es aux ´ etudiants du premier cycle de la maˆıtrise MIAGE ` a l’ISG de Tunis.

2. Phase d’int´ egration ` a l’´ equipe p´ edagogique de la MIAGE. Cette p´ eriode de 7 ann´ ees m’a permis de d´ evelopper des cours dans le pˆ ole “Ing´ enierie des SI” de la MIAGE de l’ESC de Tunis pour des futurs informaticiens et d’assurer en parall` ele la coordination des charg´ es des TDs pour les cours de Conception de Syst` eme d’Information, enie logiciel et Fouille de donn´ ees dispens´ es dans la fili` ere MIAGE.

3. Phase de sp´ ecialisation s’est op´ er´ ee naturellement de 2001 ` a 2006 avec la coordination p´ edagogique de la fili` ere MIAGE de l’ESC de Tunis. Les enseignements informatiques de la fili` ere MIAGE sont g´ en´ eralement class´ es en deux cat´ egories : les enseignements tech- niques et les enseignements li´ es ` a l’ing´ enierie des SI. J’ai ´ et´ e ainsi charg´ ee, au sein de l’´ equipe p´ edagogique de la MIAGE, de dispenser des cours permettant d’aligner les ensei- gnements techniques d’ing´ enierie du logiciel aux enseignements li´ es ` a l’ing´ enierie des SI.

Dans ce cadre, j’ai ´ et´ e amen´ ee ` a faire ´ evoluer les enseignements que j’assure pour suivre l’´ evolution des technologies dans le domaine de l’ing´ enierie des logiciels, en int´ egrant les concepts qu’elles v´ ehiculent, les nouvelles pratiques de d´ eveloppement qu’elles induisent et les impacts qu’elles peuvent avoir sur les phases de conception d’un SI.

J’ai eu ´ egalement l’occasion d’intervenir dans le cadre des mast` eres de recherche en infor- matique ` a l’ESC de Tunis et ` a la Facult´ e des Sciences de Tunis pour assurer un cours li´ e

`

a mon domaine de recherche, intitul´ e “Extraction de Connaissances ` a partir de Textes : Approches et Applications”.

11

(27)

2 Tableau r´ ecapitulatif des enseignements assur´ es durant la p´ e- riode 1995-2013

Le tableau ci-dessous r´ esume les principaux cours et Tds que j’ai assur´ es depuis 1995.

Module enseign´ e et volume ho- raire semestriel

Public Type Ann´ ees Uni-

versitaires

Etablissement ´ Cycle d’ing´ enieurs en Informatique

Interface Homme-Machine (42h) 1

ere`

ann´ ee du cycle d’ing´ enieurs en Infor- matique Multim´ edia

Cours int´ egr´ e ` a partir de Janvier 2013

ISAMM

Gestion de projets Web (42h) 2

eme`

ann´ ee du cycle d’ing´ enieurs en Infor- matique Multim´ edia

Cours int´ egr´ e ` a partir de Janvier 2013

ISAMM

Niveaux Maˆ ıtrise et Licence Algorithmique et structures de don-

n´ ees (42h)

1

ere`

ann´ ee de la maˆı- trise MIAGE

Cours et TDs De 1995 ` a 2002

ISG et ESC Structures de donn´ ees avanc´ ees

(42h)

2

eme`

ann´ ee de la maˆı- trise MIAGE

Cours et TDs De 1995 ` a 2002

ISG et ESC Langages de Programmation (ADA

et C) (42h)

1

ere`

ann´ ee de la maˆı- trise MIAGE

Cours et TDs De 1995 ` a 2002

ISG et ESC Logique (42h) 1

ere`

ann´ ee de la maˆı-

trise MIAGE

Cours et TDs De 2000 ` a 2002

ESC Conception des syst` emes d’informa-

tion (Merise et Merise 2) (42h)

3

eme`

ann´ ee de la maˆı- trise et L3 MIAGE

Cours et TDs De 2002 ` a 2006

ESC Conception orient´ ee objet (42h) 3

eme`

ann´ ee et L3

MIAGE

Cours et TDs De 2002 ` a 2007

ESC Compilation (42h) 3

eme`

ann´ ee de la maˆı-

trise MIAGE

Cours De 2002 ` a

2003

ISG et ESC Processus unifi´ e et UML (42h) 4

eme`

ann´ ee de la maˆı-

trise MIAGE

Cours et TDs De 2004 ` a 2006

ESC G´ enie logiciel et conduite de projet

(63h)

4

eme`

ann´ ee de la maˆı- trise et L3 MIAGE

Cours et TDs De 2004 ` a 2007

ESC Extraction des connaissances ` a par-

tir des donn´ ees (42h)

4

ere`

ann´ ee de la maˆı- trise MIAGE

Cours et TDs De 2004 ` a 2006

ESC Conduite de projets multim´ edias

(42h)

L3 de la licence ap- pliqu´ ee en communi- cation multim´ edia

Cours int´ egr´ e ` a partir de Septembre 2012

ISAMM

Niveaux Mast` ere professionnel et Mast` ere de recherche Bio-datamining (42h) M1 Mast` ere profes-

sionnel Bioinforma- tique

Cours 2005 et 2006 ENSI

Conception orient´ ee objet pour les applications multim´ edias (42h)

M1 Mast` ere profes- sionnel Multim´ edia et Image Num´ erique

Cours De 2008 ` a

2012

ISAMM

Extraction des connaissances ` a par- tir de textes : M´ ethodes et Applica- tions (21h)

Mast` ere de recherche en Informatique (M2) et Mast` ere de recherche Optimi- sation des syst` emes intelligents (M2)

Cours De 2011 ` a

2012

FST et ESC

(28)

Activit´ es de recherche

1 Contexte scientifique

L’extraction des connaissances ` a partir de textes (ECT) a constitu´ e le noyau mes travaux de recherche depuis 2000. Elle repr´ esente un domaine scientifique pluridisciplinaire, f´ ed´ erant des th´ ematiques issues des sciences de l’information, de la linguistique, des statistiques et de l’intelligence artificielle. Selon Feldman et al. [Feldman et al., 1998], l’ECT, appel´ ee en anglais Text Mining, est d´ efinie comme “une extension des approches traditionnelles de data mining aux donn´ ees textuelles, tels que des documents semi-structur´ es, du texte int´ egral ou des corpus textuels ”.

Pour faire face ` a l’augmentation sans cesse croissante du volume des donn´ ees disponibles sous forme de corpus de textes ou de collections documentaires, l’un des principaux d´ efis de la communaut´ e de recherche en ECT est de proposer des m´ ethodes et des techniques capables de traiter une telle masse de donn´ ees textuelles pour extraire de la connaissance dans des d´ elais raisonnables pour les utilisateurs. Tr` es vite, l’ECT s’est trouv´ ee au cœur de plusieurs domaines de recherche. L’usage globalis´ e des techniques de fouille de textes dans des applications r´ eelles ne pourra se faire que par l’efficacit´ e algorithmique des approches propos´ ees. Ainsi, les d´ efis propres ` a ce domaine am` enent la communaut´ e des chercheurs ` a innover autant du point de vue th´ eorique et algorithmique, que de proposer des approches qui puissent ˆ etre ´ egalement d´ eploy´ ees dans un cadre d’utilisation r´ eel.

En effet, d` es son apparition, l’ECT s’est trouv´ ee au centre du domaine de la Recherche d’Information (RI). Ce croisement traite en grande partie des mod` eles, des techniques et des algorithmes permettant de s´ electionner l’information pertinente en r´ eponse ` a un besoin d’infor- mation, exprim´ e par un utilisateur ` a l’aide d’une requˆ ete. D’une mani` ere g´ en´ erale, un processus de RI induit deux ´ etapes fondamentales, ` a savoir : (i ) l’´ etape de l’indexation permettant de produire, ` a partir d’un corpus textuel, des descripteurs canoniques qui identifient les granules d’information ; et, (ii ) l’´ etape de la s´ election de l’information pertinente, qui consiste ` a apparier les descripteurs issus de l’´ etape d’indexation avec les descripteurs de la requˆ ete utilisateur, dans le but d’identifier les informations qui r´ epondent au mieux aux besoins couverts par la requˆ ete.

La revue de la litt´ erature en RI a montr´ e que des mod` eles tels que le mod` ele vectoriel ou le mod` ele probabiliste, font souvent appel ` a la technique d’expansion de requˆ etes ou de reformulation de requˆ etes afin de r´ eduire le manque de correspondance entre la requˆ ete et les documents restitu´ es. L’id´ ee cl´ e est d’´ etendre la requˆ ete par des termes additionnels, implicitement li´ es ` a ceux de la requˆ ete originelle [Latiri et al., 2003c, Lin et al., 2008]. Intuitivement, la finalit´ e d’une telle technique ne se limite pas ` a l’am´ elioration de la mesure du rappel en r´ ecup´ erant des documents pertinents qui ne peuvent pas ˆ etre trouv´ es par la requˆ ete utilisateur, mais ´ egalement

`

a am´ eliorer la pr´ ecision des documents restitu´ es en les pla¸ cant en haut de la liste des documents pertinents trouv´ es [Lin et al., 2008].

La probl´ ematique de recherche qui nous int´ eresse dans le domaine de la RI, et particuli` e-

13

(29)

rement dans le contexte de l’expansion de requˆ etes en RI, est la mise en œuvre d’une synergie entre les techniques classiques de RI et une technique d’ECT, ` a savoir l’extraction de r` egles d’association [Agrawal and Skirant, 1994]. Certains travaux de recherche ont d´ ej` a abord´ e cette probl´ ematique [Lin et al., 2008]. L’id´ ee cl´ e est d’utiliser les connaissances additionnelles appor- t´ ees par les r` egles d’association entre termes pour ´ etendre les requˆ etes originelles, dans le but d’am´ eliorer la pertinence syst` eme d’un SRI.

Par ailleurs, la RI ne cesse d’´ evoluer en tenant compte de nouvelles repr´ esentations et in- terpr´ etations de connaissances offertes par l’ECT et par l’ing´ enierie de connaissances (IC). En effet, la majorit´ e des syst` emes de recherche d’information (SRIs) repr´ esentent les documents et les requˆ etes par des index souvent d´ esign´ es par “sac de mots” [Baziz et al., 2005]. Cette repr´ e- sentation stipule implicitement que les mots correspondent avec leurs sens. Plusieurs travaux de recherche ont mis en ´ evidence les limites de tels mod` eles, qui sont ´ etroitement li´ ees aux ambi- gu¨ıt´ es que peuvent v´ ehiculer le manque d’expressivit´ e des mots singuliers de l’index ainsi que l’impr´ ecision des requˆ etes utilisateur. Pour pallier ` a ces limites, des travaux ont propos´ e d’utiliser des structures conceptuelles lors de l’indexation [Andreasen et al., 2009]. Il importe de souligner que la majorit´ e de ces travaux int` egrent l’usage de ressources externes, telles que les ontologies et les hi´ erarchies des concepts dans le but d’assurer un gain de pertinence dans les SRIs, d’o` u l’apparition de l’indexation s´ emantique et de l’indexation conceptuelle en RI. Le document est ainsi repr´ esent´ e par un ensemble de concepts o` u un concept d´ enote un nœud dans une structure s´ emantique de type th´ esaurus ou ontologie, repr´ esent´ ee par un ou plusieurs termes d´ efinis de mani` ere non ambigu¨ e. Ces structures peuvent ˆ etre pr´ e-existantes telles que WordNet ou MeSH [D´ıaz-Galiano et al., 2008].

Dans le cadre de nos recherches, nous nous int´ eressons ` a coupler deux types de connaissances que nous pouvons atteindre par un processus d’ECT, ` a savoir les r` egles d’association entre termes qui repr´ esentent des connaissances implicites, et les ontologies qui traduisent plutˆ ot des connaissances explicites relatives ` a un domaine. Le r´ esultat de ce couplage est un r´ eseau s´ emantique qui prend tout son int´ erˆ et dans une probl´ ematique d’indexation conceptuelle en RI [Ben Ghezaiel et al., 2010].

Par ailleurs, l’ECT trouve aussi toute son importance dans le domaine de la Traduction Au- tomatique Statistique (TAS). Divers travaux en TAS ont confirm´ e que les mod` eles bas´ es sur des equences de mots [Koehn et al., 2003] permettent d’avoir des performances meilleures que ceux fond´ es sur les mots [Brown et al., 1993]. Toutefois, dans le domaine de la TAS, il est indispen- sable d’utiliser des corpus d’apprentissage de tr` es grande taille (de l’ordre de quelques centaines de milliers de phrases). Ce type de corpus repr´ esente un vrai challenge pour la communaut´ e de l’ECT pour adapter les algorithmes de fouille de donn´ ees ` a des contextes d’extraction textuels aussi volumineux et bruit´ es.

De ce fait, l’ECT offre des techniques compl´ ementaires pour contribuer ` a l’am´ elioration des

mod` eles de TAS, ` a savoir : (i ) l’exploration des s´ equences de mots par des m´ ethodes de fouille

de s´ equences [Dong and Pei, 2007] ; et, (ii ) l’int´ egration de ces motifs s´ equentiels dans un mod` ele

de traduction par le biais des r` egles d’association. Le croisement de la TAS avec le probl` eme

de l’extraction de motifs s´ equentiels est justifi´ e par l’id´ ee cl´ e, propre ` a l’extraction de motifs

s´ equentiels, permettant de distinguer ` a la fois, ` a l’int´ erieur des phrases du corpus, un ordre

d’apparition des termes mais aussi de regrouper certains termes. Dans ce contexte, les r` egles

d’association permettent l’extraction de r` egles intra-phrases alors que la recherche de motifs

s´ equentiels permet l’extraction de r` egles inter-phrases. Ainsi, la notion de motifs s´ equentiels

reste intuitivement applicable ` a la TAS, puisqu’il existe une relation d’ordre entre les termes

dans les corpus parall` eles, et par cons´ equent l’ordre d’apparition des termes dans une phrase

peut ˆ etre pris en compte.

(30)

2. R´ esum´ e des travaux de recherche men´ es dans le cadre de la th` ese de doctorat 15 En consid´ erant l’ECT comme cadre f´ ed´ erateur et les domaines connexes que nous avons cit´ es, nous pr´ esentons, dans ce qui suit, un r´ esum´ e des travaux men´ es dans le cadre de ma th` ese de doctorat ainsi que le bilan des travaux de recherche post-th` ese depuis 2005.

2 esum´ e des travaux de recherche men´ es dans le cadre de la th` ese de doctorat

Dans le cadre de ma th` ese de doctorat [Latiri, 2004], je me suis int´ eress´ ee ` a la technique de d´ ecouverte de r` egles d’association (RA) ` a partir d’un contexte d’extraction textuel classique et flou.

En consid´ erant l’Analyse Formelle de Concepts (AFC) comme fondement math´ ematique, j’ai propos´ e un algorithme, appel´ e Ice-Hasse , pour la construction du treillis de l’iceberg de Galois et un algorithme, appel´ e Gen-ra-re [Latiri et al., 2003b], qui permet de g´ en´ erer les r` egles d’association non redondantes entre termes en explorant ce treillis. L’approche propos´ ee a ´ et´ e valid´ ee par un ensemble d’exp´ erimentions effectu´ ees sur des collections textuelles de la campagne Amaryllis II 2 .

Dans un cadre pratique, j’ai montr´ e l’int´ erˆ et des r` egles d’association entre termes dans une probl´ ematique propre ` a la recherche d’information (RI), ` a savoir l’expansion de requˆ etes. Les tests l’approche d’expansion symbolique de requˆ etes moyennant les r` egles d’association entre termes, ont ´ et´ e men´ es sur deux collections Ofil et Inist de la campagne Amaryllis II . Les r´ esultats exp´ erimentaux ont montr´ e une am´ elioration significative de la pertinence syst` eme d’un SRI exp´ erimental [Latiri et al., 2003c].

La derni` ere partie de la th` ese a abord´ e l’extension de l’ensemble de mes propositions dans un contexte flou. Ceci m’a permis de m’orienter vers une nouvelle probl´ ematique de recherche,

`

a savoir l’extraction de r` egles d’association floues entre termes et la d´ efinition d’un nouveau sch´ ema de correspondance requˆ ete-document propos´ e pour la RI [Latiri et al., 2002]. Ainsi, deux nouvelles extensions de la connexion de Galois floue ont ´ et´ e propos´ ees [Latiri et al., 2004]. Une approche d’expansion symbolique de requˆ etes avec les r` egles d’association floues entre termes a

´

et´ e ´ egalement d´ evelopp´ ee [Latiri et al., 2003a].

3 Synth` ese des travaux de recherche post-th` ese (Depuis 2005)

Nos travaux de recherche se sont poursuivis durant les huit derni` eres ann´ ees dans le domaine de l’ECT, avec un objectif bien pr´ ecis, ` a savoir extraire d’autres motifs fr´ equents ` a partir de larges corpus textuels et montrer leur utilit´ e dans le cadre d’applications r´ eelles, telles que la RI ou la TAS.

Une telle d´ emarche s’inscrit dans une double probl´ ematique : (i ) d´ efinir les algorithmes ad´ equats pour la fouille de corpus de grandes tailles en prenant en compte le probl` eme d’adap- tation et d’optimisation du processus d’extraction de motifs int´ eressants ; et, (ii ) le d´ eploiement des connaissances d´ ecouvertes dans des applications r´ eelles manifestant des besoins et des d´ efis diff´ erents.

2. Amaryllis est une Action de Recherche Concert´ ee (ARC), organis´ ee par l’Institut National fran¸ cais de

l’Information Scientifique et Technique (INIST), avec le soutien de l’Agence Francophone pour l’Enseignement

Sup´ erieur et la Recherche (AUPELF-UREF) et le Minist` ere fran¸ cais de l’Education Nationale de la Recherche et

de la Technologie (MERT). Deux cycles du projet ont d´ ej` a eu lieu, l’un en 1996-1997 et l’autre en 1998-1999. La

m´ ethodologie employ´ ee dans le projet Amaryllis est tr` es proche de celle de Trec .

(31)

Sur l’ensemble de nos travaux de recherche, nous abordons et nous discutons la notion cen- trale de “connaissance extraite ` a partir de textes”. Nous d´ esignons par connaissance tout motif qui peut ˆ etre d´ ecouvert ` a partir d’un corpus textuel. Cette connaissance peut ˆ etre d´ eclin´ ee en plu- sieurs motifs fr´ equents, tels qu’un ensemble de termes fr´ equents dans le corpus que nous appelons termset 3 , une s´ equence fr´ equente de termes [Dong and Pei, 2007] ou encore une r` egle d’asso- ciation entre termes appr´ eci´ ee par des mesures statistiques tels que le support et la confiance [Agrawal and Skirant, 1994]. En consid´ erant une granularit´ e textuelle variable au niveau de l’analyse du corpus, qui peut ˆ etre, un document, une phrase ou un mot, nous nous int´ eressons ainsi aux relations existantes inter-granularit´ es textuelles et intra-granularit´ es textuelles, qui ca- ract´ erisent un corpus et qui d´ efinissent une nouvelle repr´ esentation de ce dernier. Chaque forme de connaissance fait appel ` a une algorithmique d´ edi´ ee ` a son extraction et trouve son usage et son int´ erˆ et dans des applications diverses li´ ees ` a des domaines, qui pr´ esentent un int´ erˆ et pour de tels motifs textuels fr´ equents, comme par exemple la RI, l’IC ou encore la TAS.

Il importe de pr´ eciser, que dans le cadre de nos recherches, nous nous sommes int´ eress´ es principalement ` a l’application des fondements math´ ematiques de l’AFC [Wille, 1989] pour l’ex- traction de motifs fr´ equents ` a partir de textes. Ainsi, dans le contexte de la fouille de textes, l’AFC d´ efinit un concept formel par un ensemble d’objets, (i.e., son extension est un ensemble de documents ou de phrases) auquel s’applique un ensemble d’attributs, (i.e., son intention est un ensemble de termes ou de s´ equences de termes). Dans [Wille, 1989], Wille utilise la notion centrale de treillis de concepts ou treillis de Galois et l’applique tant ` a la d´ ecouverte de concepts, qu’` a l’acquisition de connaissances, et ` a la classification d’objets. De ce fait, dans le domaine de l’ECT, le treillis de Galois peut ˆ etre vu comme un regroupement conceptuel et hi´ erarchique de documents (` a travers les extensions du treillis), et interpr´ et´ e comme une repr´ esentation de toutes les implications entre les termes (` a travers les intentions).

Figure 1 – Cadre de recherche et positionnement des contributions.

Comme le montre la Figure 1, nos Nos contributions de recherche s’articulent autour de deux

3. Par analogie ` a la terminologie itemset utilis´ ee dans le domaine de data mining pour d´ esigner un ensemble

d’attributs.

(32)

3. Synth` ese des travaux de recherche post-th` ese (Depuis 2005) 17 probl´ ematiques. Tout d’abord, nous nous focalisons sur l’aspect algorithmique en utilisant les paradigmes de l’AFC [Wille, 1989] pour d´ efinir les motifs fr´ equents et les m´ ethodes d’extraction

`

a partir de textes. Nous proposons ´ egalement une nouvelle base g´ en´ erique de r` egles d’association entre termes d´ edi´ ee ` a l’ECT [Latiri et al., 2012b]. Nous montrons, dans un deuxi` eme temps, l’apport de l’utilisation de cette base de r` egles d’association dans deux applications li´ ees ` a la RI, ` a savoir l’expansion de requˆ etes [Latiri et al., 2012b] et l’indexation conceptuelle bas´ ee sur l’enrichissement d’une ontologie de domaine [Ben Ghezaiel et al., 2010]. Nous ´ etendons par la suite la d´ efinition de la base g´ en´ erique de r` egles d’association vers les r` egles d’association inter-langues (RAILs), o` u nous proposons d’extraire les s´ equences inter-langues fr´ equentes ` a partir d’un corpus parall` ele de grande taille. Ces s´ equences sont ensuite utilis´ ees pour d´ efinir un nouveau mod` ele de TAS ` a base de s´ equences [Latiri et al., 2010b, Latiri et al., 2011].

Pour chacune de nos propositions, nous nous attachons ` a d´ efinir les concepts associ´ es et ` a d´ evelopper les algorithmes permettant leur mise en œuvre. Tous ces travaux ont donn´ e lieu ` a des ´ evaluations sur des collections de test utilis´ ees par la communaut´ e RI ou celle de la TAS ou encore sur des bases de donn´ ees synth´ etiques.

Nos diff´ erents travaux de recherche s’int` egrent dans trois principaux axes compl´ ementaires que nous allons pr´ esenter ci-dessous.

3.1 Axe 1 : Base g´ en´ erique de r` egles d’association entre termes (` a partir de 2005)

Les premi` eres r´ eflexions dans cet axe de recherche ont ´ et´ e abord´ ees dans le cadre du mast` ere de recherche de Melle. Lamia Ben Ghezaiel (Soutenu en 2006), sous la direction du Pr. Moha- med Ben Ahmed (ENSI, Universit´ e de la Manouba - Tunisie) et moi mˆ eme, et ensuite ´ etendues en 2010 par de nouvelles r´ eflexions personnelles.

La d´ ecouverte de motifs fr´ equents ` a partir de corpus de textes demeure le noyau central de nos recherches. Parmi ces motifs, nous distinguons les ensembles de termes fr´ equents, appe- l´ es termsets fr´ equents. Ainsi, une collection de documents peut ˆ etre d´ efinie comme une famille de termsets fr´ equents, issus de l’ensemble des termes d’indexation. La d´ ecouverte des termsets fr´ equents permet la g´ en´ eration de corr´ elations entre termsets, appel´ ees r` egles d’association. Ce- pendant, au del` a d’une simple ´ evaluation de corr´ elation entre termsets, une r` egle d’association lie fortement deux termsets distincts T i et T j , qui constituent respectivement sa pr´ emisse et sa conclusion. De ce fait, une r` egle traduit la probabilit´ e d’avoir les termes de la conclusion dans un document, sachant que ceux de la pr´ emisse y sont.

Toutefois, l’application des r` egles d’association dans le contexte de la RI ou de la TAS est loin d’ˆ etre une tˆ ache triviale, ´ etant donn´ e le nombre tr` es important de r` egles potentiellement int´ eressantes qui peuvent ˆ etre d´ ecouvertes ` a partir d’une collection de documents. De plus, l’extraction des corr´ elations entre termes n´ ecessite l’analyse de tous les textes d’une collection, qui est aussi une phase n´ ecessitant des temps de calcul coˆ uteux et des espaces m´ emoire assez cons´ equents. La taille des collections de documents repr´ esente ainsi un d´ efi majeur pour les chercheurs du domaine de l’ECT.

Durant la derni` ere d´ ecennie, des techniques avanc´ ees, qui s’appuient sur les fermetures de la connexion de Galois, ont ´ emerg´ e pour pallier au probl` eme de redondance des r` egles d’association.

Ces techniques repr´ esentent une alternative permettant de r´ eduire consid´ erablement le coˆ ut de

l’extraction des termsets fr´ equents et d’´ eliminer la redondance au sein de l’ensemble des r` egles

d’association. Elles d´ efinissent des sous-ensembles r´ eduits de l’ensemble des r` egles d’association

Références

Documents relatifs

Vous pouvez, si n´ecessaire, admettre le r´esultat d’une question ou d’un exercice pour r´epondre aux suivantes.. Certaines questions sont signal´ees comme

Vous pouvez, si n´ecessaire, admettre le r´esultat d’une question pour r´epondre aux suivantes.. Certaines questions sont signal´ees comme

Question 3 : D´emontrez que votre choix doit se porter sur le billet 2 pour ˆetre sur de gagner par la m´ethode de votre choix1. Exercice 2 Logique propositionnelle :

Vous pouvez, si n´ecessaire, admettre le r´esultat d’une question pour r´epondre aux suivantes. Certaines questions sont signal´ees comme

Le data mining ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel

Donner une formule qui utilise les variables P 1 et P 2 et qui repr´ esente le fait que le portrait est exactement dans un des coffres.. Le portrait est dans le

(b) Deux villes peuvent toujours ˆ etre reli´ ees avec au plus un changement (c’est-` a-dire que soit on a une ligne directe entre les deux villes, soit il faut emprunter deux lignes

— r´ esultat, un pr´ edicat ternaire r´ esultat(e 1 , e 2 , r) repr´ esente le fait que le match de l’´ equipe e 1 avec l’´ equipe e 2 sur le stade de e 1 a ´ et´ e jou´ e