• Aucun résultat trouvé

Chapitre V. Extraction automatisée de CAs dans un processus d’évaluation multicritère

5. Quelques justifications

Nous allons décrire les raisons qui ont guidé le choix de la chaîne de traitement décrite précédemment.

L’introduction de la phase de tri par le classifieur « filtrage phrases narratives/évaluatives » correspond à une préoccupation récurrente dans le domaine de la fouille de textes : la nécessité d’extraire l’information ou la connaissance pertinente à partir d’un document. Dans notre contexte « connaissance pertinente » signifie la connaissance utile à l’analyse d’intentions dans les textes, c’est-à-dire la partie évaluative des textes. On élimine les éléments de connaissances non utilisables par l’évaluation car sans cela, ils perturberaient le processus. C’est le principe qui a guidé le défi DEFT 2005 auquel nous avons participé

Chapitre V - Extraction automatisée de CAs dans un processus d’évaluation multicritère [Plantié et al., 2005a]. Le challenge portait sur la distinction de phrases étrangères dans un discours. Plus exactement, les organisateurs du concours avaient introduit des phrases du président Mitterrand dans des discours du président Jacques Chirac. Le but du concours était d’identifier correctement les phrases de Mitterrand pour ensuite les éliminer [Plantié et al., 2005a].

La tâche de « classification critère » initie le processus de décision multicritère (voir à ce sujet [Plantié et al., 2005b]). Elle permet d’associer les parties évaluatives du texte liées aux différents critères de décision. L’efficacité de ce classifieur dépend beaucoup du filtrage précédent.

L’attribution d’un score à une phrase évaluative initie elle, l’évaluation. Une classification hiérarchique permet d’abord de distinguer les textes élogieux des textes critiques relativement à une alternative et un critère donnés. Dans un second temps, le recours aux superlatifs et quantificateurs sémantiques permet d’affiner l’évaluation. Chaque phrase constituant le commentaire d’une CA associée à un critère porte un score, le score de la CA est défini comme étant la moyenne arithmétique des scores des phrases. Il est bien évident qu’il est tout à fait possible de choisir un autre opérateur pour cette agrégation comme proposés dans le chapitre II, on pense en particulier aux majorités et unanimités restreintes qui ne tolèrent pas les compensations contrairement aux opérateurs moyennes.

La tâche d’ajout de synonymes enrichit la sémantique de la représentation vectorielle des textes sans augmenter la dimension de l’index d’un classifieur. Nous avons introduit les synonymes après la réduction de l’index d’un classifieur. Une autre logique aurait pu être l’introduction des synonymes avant le filtrage par calcul de l’information mutuelle… La granularité de nos analyses est la phrase, le faible nombre de lemmes potentiellement représenté dans l’index réduit d’un classifieur est une autre justification de l’introduction des synonymes dans nos analyses.

Le traitement automatique de la tâche d’ajout de synonymes peut être envisagé sans mettre en œuvre de processus trop lourds. Rappelons par exemple, la présentation des synonymes proposée par le thésaurus Larousse [Larousse, 1992] : pour un mot donné mi, dans un premier

temps nous sont proposés les différents sens du mot ou pour être plus précis les différentes définitions dij de mi. Puis pour chaque définition dij des synonymes sijk sont listés.

Prenons un exemple. Considérons le mot m1 : acteur. Et considérons le thème « cinéma ». Les

différents sens du mot acteur que l’on trouve dans le thésaurus sont : agent et comédien. Si l’on regarde les définitions dans un dictionnaire, on peut trouver les définitions suivantes pour le mot acteur :

- d11 : Personne qui prend une part déterminante dans une action ;

- d12 : Artiste qui joue dans une pièce de théâtre ou dans un film, comédien.

A ces deux définitions correspondent deux listes de synonymes distinctes : - s111 Protagoniste, s112 membre, s113 organisateur, s114 leader, etc.

- s121 comédien, s122 interprète, s123 personnage, s124 vedette, s125 étoile, s126 star, s127

baladin, etc.

Les synonymes que l’on retiendra seront ceux associés au domaine d’étude considéré, le cinéma, c’est-à-dire, les mots associés à la définition d12 : s12,1 s122, s123, s124, s125, s126, s127.

Aujourd’hui, cette tâche relativement rapide (car même si elle n’est pas automatisée, elle est largement accompagnée par l’outil informatique, l’outil synapse proposant déjà cette liste de synonymes [Synapse, 2001]) est manuel. Il semble tout à fait envisageable de déterminer

Chapitre V - Extraction automatisée de CAs dans un processus d’évaluation multicritère automatiquement pour un mot donné la définition appropriée au contexte en effectuant une mesure de proximité entre les définitions et le thème d’étude (ici le « cinéma »). Il suffit alors de charger les synonymes associés à cette définition.

6. Conclusion

La chaîne de traitement que nous avons choisie permet de traiter les textes d’un corpus documentaire pour générer automatiquement les Connaissances Actionnables nécessaires au processus d’évaluation multicritère. La seule intervention humaine reste l’indexation manuelle de la base d’apprentissage (et aujourd’hui encore la détermination des synonymes pour les calculs des vecteurs d’occurrences).

A ce stade de traitement de l’information, nous sommes donc en mesure d’alimenter le processus d’évaluation multicritère avec des CAs. En effet, suite à ce traitement, la CA est repérée dans le référentiel du SGDC par le quintuplet (σ, χ, (α,ϕ ), ρ, τ). La base de documents est alors indexée en CAs pour le processus de décision relativement au référentiel des n alternatives et p critères d’évaluation. La grille d’évaluation (critères X alternatives) à une date t donnée peut être renseignée :

• D’abord, en agrégeant case par case les scores des CAs (l’opérateur d’agrégation est à définir selon la sémantique de fusion que l’on désire) ;

• Puis, le score global de l’alternative est calculé en agrégeant les scores partiels des cases correspondantes (à ce niveau, l’opérateur d’agrégation modélise la stratégie de décision).

Ainsi, à chaque instant, les CAs cumulées et gérées par le SGDC permettent une évaluation complètement automatisée des alternatives concurrentes. Les fonctionnalités—justification des choix, contrôle de la dynamique décisionnelle par le risque—que nous avons explicitées au chapitre II, peuvent être mises en œuvre.

Dans le chapitre II, nous avons montré comment il était possible de déterminer les dimensions critiques du processus de décision pour lesquelles des CAs additionnelles devraient être rentrées dans le SGDC pour parvenir à une situation de décision stable. Le seul pré requis était qu’il y ait intervention humaine pour introduire ces CAs additionnelles au temps suivant. Le travail que nous avons exposé dans les trois derniers chapitres permet maintenant d’envisager l’automatisation de cette tâche. Nous avons donc construit l’actionneur (l’organe de commande) de la boucle de régulation d’un processus de décision multicritère comme exposé dans le chapitre II.

Chapitre VI.

Application : un outil d’aide à la décision pour un