• Aucun résultat trouvé

Dans cette section, nous proposons une analyse de notre contribution selon les cinq familles de crit`eres d’´evaluations propos´ees dans [Burstein and Gregor, 1999], qui fournissent des directives g´en´eriques pour ´evaluer le d´eveloppement de syst`emes d’informations, en les adaptant au contexte de l’extraction d’information et plus singuli`erement `a nos travaux.

Le premier crit`ere, de significativit´e (Significance), vise `a mesurer l’importance de l’impact th´eorique et/ou pratique du syst`eme ou de la m´ethode propos´ee par rapport aux travaux existants (au cas ou des travaux similaires existent). Par exemple, on cherche `a comparer les diff´erences du point de vue des performances

(syst`eme plus rapide, etc.) ou du point de vue des fonctionnalit´es (fonctions suppl´ementaires, etc.). Pour notre travail, ce crit`ere se traduit par les questions suivantes :

– Quels sont les principales contributions du travail de recherche pour l’ex- traction d’information ?

– Est-ce que les approches propos´ees am´eliorent les performances par rapport aux approches existantes ?

– Quels sont les distinctions entre les approches propos´ees et les travaux pr´ec´edents ?

Vis `a vis de la premi`ere question, nos r´esultats, r´esum´es dans la section 6.1, mettent en avant les contributions suivantes : la premi`ere concerne une segmenta- tion en ´ev´enements des articles de presses `a partir d’indices temporels ; la seconde concerne une approche de construction de templates utilisant un graphe d’entit´es nomm´ees ainsi que le r´esultat de la segmentation ´ev´enementielle ; la troisi`eme concerne une approche faiblement supervis´ee pour l’extraction de relations entre entit´es nomm´ees.

Concernant nos performances (deuxi`eme question), il n’est pas simple de juger de fa¸con syst´ematique les r´esultats, en tout cas, pour les ´etapes de segmentation en ´ev´enements et de construction des templates. Nos exp´erimentations ont ´et´e effectu´ees sur un corpus de petite taille en comparaison des corpus utilis´es lors des campagnes MUC ou encore TAC-KBP. Aussi, peu de travaux similaires ont ´et´e men´es pour la langue fran¸caise. En revanche, concernant l’extraction des relations `a large ´echelle, nos r´esultats se situent dans la moyenne des syst`emes pour TAC- KBP 2010, et dans les 5 premiers pour l’extraction de relations `a l’int´erieur des phrases.

Pour ce qui est de la derni`ere question, le processus d’extraction d’informa- tion en deux ´etapes que nous avons propos´e est relativement diff´erent des pro- cessus existants : l’utilisation d’informations temporelles n’avait jamais, `a notre connaissance, ´et´e exploit´ee pour distinguer les ´ev´enements pertinents des docu- ments. Par ailleurs, les relations complexes entre entit´es n’avaient pas ´et´e utilis´ees pour constituer des ´ev´enements au niveau du document (elles ont ´et´e appliqu´ees seulement au niveau des phrases).

mesurer la cr´edibilit´e des arguments qui sont avanc´es, et d’´evaluer si les r´esultats avanc´es sont logiques ou coh´erents avec ces arguments. Ce crit`ere peut ˆetre associ´e aux questions suivantes :

– Est-ce que la d´emarche propos´ee est adapt´ee `a la probl´ematique ? Atteint- elle son objectif ?

– Si des hypoth`eses ont ´et´e faites sur les r´esultats, ont-elles ´et´e valid´ees ? – Des approches similaires (concurrentes) ont-elles ´et´e consid´er´ees ?

Pour la premi`ere question, notre objectif premier concerne la construction de templates pour des ´ev´enements dont les caract´eristiques sont dispers´ees dans des documents. Nous avons vu que notre d´emarche en deux ´etapes ´etait adapt´ee `a ce type de probl`eme : la segmentation cible les passages pertinents sur les ´ev´enements pour l’´ev´enement principal, puis les informations li´ees `a l’´ev´enement principal sont regroup´ees pour construire un template. Nous avons vu que la segmentation en ´ev´enements semble plus particuli`erement convenir pour les do- cuments mentionnant plusieurs ´ev´enements, ce qui est fr´equemment le cas pour notre cas d’application (plus de la moiti´e des d´epˆeches de presse mentionnent plusieurs ´ev´enements dans notre corpus). Par ailleurs, pour le regroupement des informations pertinentes sous forme de templates, nous avons montr´e que l’utilisa- tion des relations complexes entre les entit´es, exprim´ees au niveau du document, apportaient une solution. Les ´evaluations ont montr´e que ce dernier probl`eme n’´etait pas totalement r´esolu et que des erreurs d’associations entre entit´es et ´ev´enement subsistaient. Enfin, pour l’extraction de relations `a large ´echelle, notre approche couvre bien le probl`eme. En revanche des am´eliorations restent `a appor- ter `a plusieurs niveaux (r´esolution de la cor´ef´erence, prise en compte des relations intra-phrastiques, etc.).

Au niveau des hypoth`eses que nous avons faites (deuxi`eme question), nous avons cherch´e `a les valider au fur et `a mesure des exp´erimentations. Concer- nant la prise en compte des approches similaires (troisi`eme question), si l’on consid`ere la probl´ematique d’extraction de relations entre entit´es nomm´ees notre d´emarche s’inspire du principe de supervision distante propos´e par [Mintz et al., 2009]. En revanche, concernant la probl´ematique de construction de templates, la d´emarche globale est diff´erente des approches existantes sur plusieurs points, comme cela a ´et´e mis en avant pr´ec´edemment. Il faut tout de mˆeme signaler que

cette d´emarche a des similitudes avec des travaux existants. Par exemple, lors de l’´etape de construction des templates, la phase de construction du graphe d’en- tit´es nomm´ees repose sur une ´etape de classification d’entit´es nomm´ees qui est inspir´ee des travaux de [McDonald et al., 2005].

Le troisi`eme crit`ere, de validit´e externe (External validity) concerne le niveau de g´en´eralisation associ´e aux r´esultats trouv´es. Par exemple, il peut s’agir d’une abstraction d’une approche existante ou l’application d’une mˆeme d´emarche dans des configurations diff´erentes. Les questions li´ees `a ce crit`ere sont :

– Si les r´esultats sont obtenus `a partir d’approches existantes, est-ce qu’ils sont coh´erents avec ceux obtenus par d’autres travaux reposant sur ces mˆemes approches ?

– Est-ce que les m´ethodes ou processus produits sont suffisamment g´en´eriques pour ˆetre transf´er´es `a d’autres domaines ?

– Quels sont les limitations `a consid´erer afin d’appliquer les approches pro- pos´ees `a d’autres domaines ?

Pour ce qui est de la comparaison de nos r´esultats vis `a vis des approches que nous avons r´eutilis´ees, nous avons fourni, dans la mesure du possible, des ´evaluations comparatives. Par exemple, pour l’´etape de construction des rela- tions complexes, nous avons obtenu des r´esultats comparables `a ceux de [Afzal, 2009; McDonald et al., 2005] concernant la classification des relations binaires. Aussi, lorsque c’´etait possible nous avons pr´esent´e des r´esultats pour des syst`emes servant de «baseline». En ce qui concerne l’extraction de relations entre entit´es nomm´ees, nous nous sommes compar´es aux participants `a la campagne TAC- KBP.

Concernant la transposition de notre approche `a d’autres domaines (deuxi`eme question), diff´erents axes sont envisageables selon les probl´ematiques. Pour la probl´ematique de construction de templates concernant les ´ev´enements, il s’agit de la langue et du genre des documents, du type d’´ev´enement ainsi que du do- maine vis´e. Nous avons essay´e de conserver un niveau de g´en´ericit´e important pour notre d´emarche de construction de template : la phase de segmentation se sert d’un classifieur statistique qui repose en grande partie sur les indices tempo- rels pr´esents dans les documents (a priori non d´ependants d’un domaine ou d’un genre, mais d´ependant de la langue) ; la phase de construction des templates s’ap-

puie sur un graphe d’entit´es qui est construit `a partir d’un classifieur statistique qui se sert de features non lexicalis´es. Enfin, le processus de s´election des entit´es dont on se sert pour l’´elaboration des templates exploite les propri´et´es du graphe d’entit´es, qui sont donc ind´ependantes de la langue, du genre des documents ou du domaine. Nous avons men´e quelques exp´erimentations pour transposer notre d´emarche `a l’extraction d’´ev´enements sismiques pour des d´epˆeches de presse en langue anglaise.

Pour la seconde probl´ematique d’extraction de relations `a large ´echelle, la transposition `a un autre domaine vise surtout la langue des documents. L’ap- proche faiblement supervis´ee que nous avons pr´esent´ee pour l’apprentissage et l’extraction des relations est tr`es g´en´eral, par cons´equent elle devrait ˆetre transf´era- ble `a une autre langue que l’anglais. Nous n’avons pas men´es d’exp´erimentations dans ce sens, mˆeme si nous sommes optimistes sur la facilit´e de la transposition. Pour r´epondre `a la troisi`eme question, nous listons quelques points dont il faut tenir compte pour faire une transposition de notre d´emarche `a d’autres do- maines, d’abord pour la construction de templates sur des ´ev´enements, puis pour l’extraction faiblement supervis´ee de relations.

Construction de templates sur les ´ev´enements

– Notre segmentation en ´ev´enements ne distingue pas les ´ev´enements se- condaires les uns des autres. Cela n’a pas de cons´equence dans une pers- pective de veille ´ev´enementielle, dans laquelle les utilisateurs ne sont int´eress´es que par l’´ev´enement le plus r´ecent, et dans laquelle les ´ev´ene- ments mentionn´es sont dans des cadres temporels diff´erents. En revanche cela peut impacter d’autres domaines, en particulier si plusieurs ´ev´ene- ments de mˆeme nature peuvent ˆetre identifi´ees dans le mˆeme cadre tem- porel (par exemple, pour des ´ev´enements de type «changement de per- sonnel dans une entreprise», les annonces ´evoquent souvent une s´erie de changements qui concernent plusieurs personnes et plusieurs postes). – Il faut tenir compte des ´ev´enements `a consid´erer dans les templates :

dans nos travaux, seules les entit´es associ´ees `a l’´ev´enement principal d’un texte sont consid´er´es par l’approche de construction des templates. Pour int´egrer les informations des autres ´ev´enements, il faudrait consid´erer

de fa¸con s´epar´ee les segments associ´es aux autres ´ev´enements (qui sont identifi´es lors de la segmentation en ´ev´enements).

– La segmentation en ´ev´enements est particuli`erement int´eressante lorsque les documents ont une structure ´ev´enementielle clairement identifiable, par exemple s’ils discutent d’un ´ev´enement central et de plusieurs ´ev´ene- ments qui lui sont comparables (qui le pr´ec`edent). Pour des types de documents qui n’ont pas cette structure, par exemple pour les dialogues, la segmentation en ´ev´enements peut ne pas ˆetre pertinente. Dans ce cas, cette ´etape peut ˆetre supprim´ee du processus d’extraction des templates sans perturber la construction des templates.

– Les deux ´etapes de notre d´emarche reposent sur des classifieurs statis- tiques qui ont ´et´e entraˆın´es `a partir de features tr`es g´en´eraux, mais sur un corpus particulier, li´e au domaine sismique et au genre journalistique. Sur un corpus correspondant `a un autre domaine ou un autre genre de document, il conviendrait de tester les mod`eles appris sur notre corpus et les comparer `a des mod`eles appris sur ces nouveaux corpus, pour v´erifier la g´en´ericit´e de notre approche.

Extraction faiblement supervis´ee de relations

Concernant la transposition `a une autre langue, les phases d’apprentissage et d’extraction de relations restent identiques. Les processus sont identiques `a condition de changer les documents du corpus pour qu’ils soient dans la langue cible qui nous int´eresse.

Concernant les autres crit`eres de [Burstein and Gregor, 1999], de confirmabilit´e (Objectivity/Confirmability) et de fiabilit´e (Reliability/Dependability/Audibility), nous avons choisi de les regrouper car ils ne concernent pas directement les ap- proches que nous proposons (ou les r´esultats obtenus), mais plutˆot la mani`ere dont les ressources et les proc´edures sont d´ecrites afin de pouvoir reproduire les r´esultats. Les questions li´ees `a ces deux crit`eres sont :

– Les probl´ematiques de recherche ont-elles ´et´e clairement d´efinies ?

– Les approches propos´ees sont-elles d´ecrites avec suffisamment de d´etails ? – Les exp´erimentations sont-elles d´ecrites avec suffisamment de d´etails ? – Les donn´ees servant `a l’entraˆınement (apprentissage) et `a l’´evaluation (test)

Les probl´ematiques auxquelles nous avons essay´e de r´epondre ont ´et´e d´etaill´es dans la section2.9 du manuscrit. Chacune de ces probl´ematiques est reprise dans un chapitre et nous avons propos´e une d´emarche pour r´epondre `a une partie des probl`emes qui se posent. Les hypoth`eses, ainsi que les d´etails concernant les approches de segmentation en ´ev´enements et de construction de template, sont pr´esent´es dans les chapitres 3 et 4. L’extraction de relations `a large ´echelle est discut´ee dans le chapitre 5. Les features utilis´ees par les mod`eles statistiques et les donn´ees utilis´ees sont aussi pr´esent´es lors de chaque phase d’exp´erimentation. En revanche, tous les corpus utilis´es ne sont pas ouverts `a la communaut´e : par exemple, le corpus annot´e de d´epˆeches concernant les ´ev´enements sismiques a ´et´e construit dans le cadre d’un projet qui limite les possibilit´es de diffusion de ces donn´ees. Le corpus de la campagne TAC-KBP est quant `a lui disponible apr`es avoir fait la demande aupr`es des organisateurs. Lorsque nous avons utilis´e des outils existants, nous avons fourni des liens vers les impl´ementations que nous avons utilis´ees.