• Aucun résultat trouvé

Évaluation de récits

État de l’art : Génération automatique de récits

3.3 Évaluation de récits

L’évaluation de récits est, comme dans le plupart des tâches du TALN, une activité diicile et qui n’a pas encore de méthodologie établie dans la com-munauté. En efet, si l’on considère la complexité des systèmes, le fait que plusieurs couches d’abstraction doivent être évaluées (personnage, intrigue, style, intérêt, etc), qu’il n’existe pas une seule façon de narrer une histoire et enin que les systèmes sont soit orientés créativité soit orientés narration, on voit qu’il est diicile de concevoir et construire une méthode d’évaluation gé-nérale et applicable à tous. Néanmoins, nous avons pu observer que plusieurs

systèmes ont mis en place leur propre méthode d’évaluation, comme

Proto-Propp ou Propper. Il est donc possible d’obtenir une évaluation à partir de l’observation des constituants (par exemple, la construction de l’intrigue) ou du résultat obtenu (la qualité linguistique du récit généré). Ainsi, plusieurs méthodes ont été proposées dans le littérature au cours des années. Cette section donne une description succincte des principaux travaux proposant des méthodologies d’évaluation.

3.3.1 StoryEval (2009)

StoryEval propose une observation empirique des récits, qu’ils soient in-teractifs ou non [Rowe et al., 2009]. L’approche résulte de l’adaptation et de l’intégration des méthodologies employées par les sciences cognitives, l’in-teraction homme-machine et le traitement automatique des langues. La mo-tivation des auteurs est de trouver un ensemble de techniques qui puissent évaluer la complexité des récits générés ainsi que les composants des systèmes de génération. StoryEval contient quatre outils pour mesurer la qualité des histoires, qui concernent plusieurs niveaux.

Le premier outil deStoryEval (Narrative metrics) évalue le mécanisme qui produit le récit à partir de la mesure de traits spéciiques trouvés dans les ré-cits. Autrement dit, il chercher à rendre compte de comment la narration est présentée (style, grammaire, etc.). Une deuxième mesure d’ordre cognitivo-afectif (Cognitive-afective studies) explore la réponse des utilisateurs lors d’évaluations avec des participants. Le troisième outil (Director-centric stu-dies) évalue la performance et l’efectivité de l’agent en charge de surveiller la construction du récit (director agent). Finalement, le quatrième outil ( Extrin-sic Narrative Evaluation) cherche à évaluer si le récit atteint efectivement le

but pour lequel il a été conçu. StoryEval est présenté comme un framework

d’évaluation qui ofre la possibilité d’évaluer un récit à partir de plusieurs perspectives. Toutefois, l’article qui le présente [Rowe et al., 2009], s’il liste

bien les points à évaluer par rapport à la littérature, reste très vague sur les mesures concrètes permettant de répondre aux points soulevés. Par ailleurs, l’étude se concentrant sur des systèmes de génération qui travaillent sur des domaines virtuels ou à partir de textes, ne met pas en avant d’autres points importants dans notre cas tels que la relation entre la quantité et la qualité d’information disponible et la construction de l’histoire.

3.3.2 Comparaison de plans de récit (2016)

L’un des aspects important pour l’évaluation d’un récit est d’être capable de mesurer la qualité du plan du récit. [Amos-Binks et al., 2016] proposent une méthodologie d’évaluation de plans par comparaison ain d’identiier et de spéciier les diférences majeures entre deux plans correspondant à deux so-lutions diférentes pour un même récit. Les plans considérés sont desConlict Partial Order Causal Link (CPOCL) [Ware et al., 2014] dans lesquels des ”plans classiques” sont augmentés des buts des personnages, des cadres in-tentionnels et des conlits. Sont également modélisés le plan de l’histoire, le problème à résoudre par le plan ainsi que la déinition de la solution, étant donné la possibilité d’avoir plusieurs solutions pour un seul problème. La com-paraison entre plans vise à mesurer des diférences à un niveau sémantique plutôt que syntaxique comme cela est classiquement fait dans la littérature.

Pour ce faire, une méthode de résumé de plan (story plan summarization

model est mise en œuvre pour capturer les éléments les plus importants et les intentions du personnages. La structure résultante est appelée Important-Step Intention-Frame. Elle constitue une représentation sémantique concise du plan, sur laquelle fonder la comparaison. La distance sémantique entre deux plans P1 etP2est calculée par la distance de Jaccard δ(P1, P2) entre les événements importants E et les cadres intentionnels J des résumés ψ1 et ψ2 deP1et P2. δ(P1, P2) = 1−1 2 ( |E(ψ1)∩E(ψ1)| |E(ψ1)∪E(ψ1)| + |J(ψ1)∩J(ψ1)| |J(ψ1)∪J(ψ1)| )

Comme souligné par les auteurs, CPOCL est un cadre très contraint qui oblige les connaissances du monde de l’histoire à une description très précise. Cependant, cette approche est une des premières à apporter un tel niveau de formalisation pour l’évaluation des plans d’histoire.

3.3.3 Évaluation de la perception de la temporalité

dans les récits issus de capteurs (2015)

Un autre aspect important à être mesuré est la perception de la tempora-lité dans les plans du récit. [Baezet al., 2015] a réalisé une évaluation où il est demandé de reconstruire la trame en ordre chronologique d’un ensemble de récits textuels générés à partir des annotations basés sur un modèle de tâches. L’objectif était de savoir si le modèle pourrait porter une séquence d’événe-ments temporellement cohérente pour raconter une activité humaine. Les participants, 18 francophones, devaient d’abord de lire les textes présentés (le texte originale et la version générée avec des annotations), et après placer

les événements trouvés en ordre chronologique dans une ligne de temps. La distance entre les réponses du participant et le plan du récit de

ré-férence a été observé au travers de la taux d’erreur de mots (Word Error

Rate), unité de mesure utilisé dans les systèmes de reconnaissance de la pa-role. Les résultats ont montré que la reconnaissance de l’ordre chronologique dans les textes générés était légèrement meilleure en comparaison avec les textes originaux. D’abord, ils portaient moins de détails à comparaison des textes originaux, où il y a une quantité majeure d’information, ce qui fait semblant qu’il y a plus d’événements. Par ailleurs, dans les textes générés montraient un ordre chronologique plus explicite, ce qui a aidé à percevoir plus facilement la structure et ainsi reconstruire la séquence.

3.4 Bilan

Nous avons présenté dans ce chapitre l’état de l’art concernant la généra-tion automatique de récits. Cette tâche fait partie de ce que l’on appelle la

narratologie informatique plus connue sous le nom de computational

narra-tology. Nous avons pu voir que de nombreuses approches ont utilisé comme formalisation une adaptation des théories de la narratologie et reposent sur une base de connaissances conséquente. Cependant, il peut être noté que les approches statistiques prennent une place grandissante par leur capacité d’exploiter les nombreuses ressources disponibles sur le web, grâce aussi à l’évolution des méthodes formelles pour représenter les plans des récits.

Nous avons observé qu’il existe plusieurs façons de représenter et de gé-nérer des récits automatiquement. Toutes ces approches, sans exception, se placent dans le cadre d’un monde ictif dans lequel les connaissances sont considérées comme disponibles et délimitant l’ensemble du monde de l’his-toire. À partir de connaissances de base, les systèmes construisent un plan d’histoire qui respecte certaines contraintes. Nous avons classé ces systèmes

selon la méthodes de construction du récit : par planiication, par raisonne-ment à partir de cas, par grammaire générative de récits, par méthodes statis-tiques et par interaction avec l’utilisateur. Malgré cette diversité d’approche, les systèmes exposés montrent des aspects récurrents que nous devons exa-miner vis à vis des objectifs de la thèse. Nous pouvons résumer cette analyse en quelques points :

Domaine de connaissances Dans les systèmes présentés, la connaissances est soit directement insérée manuellement sous forme structurée soit extraite à partir de récits textuels. À notre connaissance, il n’existe pas de système générant des textes respectant les contraintes du récit à partir de données capteurs incertaines et incomplètes.

Monde fermé Les bases de connaissances des systèmes présentés sont consi-dérées comme contenant l’ensemble des informations de l’histoire à gé-nérer. À part dans le raisonnement à partir de cas (avec les limita-tions exposées section 3.2.2.1), de nouvelles connaissances ne sont pas censées être insérées dynamiquement dans la base. Par ailleurs, une grande part de de la structuration de l’histoire repose sur la connais-sance a priori des intentions et des buts des personnages ainsi que des pré-conditions. Ces informations sont utilisées pour établir le plan du récit. Dans notre cas, les informations issues de capteurs sont incom-plètes (et incertaines), ce qui signiie qu’il n’y a pas de garantie que certaines actions soient observables et qu’elles puissent être utilisées comme conditions lors de la construction d’un plan. Par ailleurs, l’in-tention des personnages n’est pas directement observable (ni leur rôle) et doit donc être modélisée comme une variable cachée.

Théorie narrative La plupart des systèmes font directement ou indirec-tement référence soit à des théories de la narratologie (p.ex., Propp [Propp, 1970]), soit à celles de la cognition (p.ex., Schank [Schank et Tesler, 1969]), soit à aucune de celles-ci (p.ex. approches purement statistiques).Ce support théorique inluence le développement et l’éva-luation des systèmes qui se focalise généralement soit sur la structure narrative, soit sur le processus cognitif. Il serait intéressant dans cette thèse d’aborder ces deux aspects, c’est-à-dire de respecter une structure narrative dont la composition est justiiée d’un point de vue cognitif.

Intrigue et plan de récit On peut constater de cet état de l’art que les no-tions dePlot, intrigue et plan de récit ne sont pas toujours compatibles entre les diférents travaux. Par exemple, certains plot s’instancient comme des fabula alors que d’autres ne servent qu’à structurer les élé-ments cruciaux du récit ou à assurer la cohérence. Certains plans de récit sont composés d’opérateurs (story action) avec préconditions et

intentions alors que d’autres sont le résultat d’une organisation déduite ou supportée de manière statistique. Dans notre cas, il sera nécessaire de clairement déinir ces notions. De plus, les éléments du plan du récit ne peuvent pas être assemblés selon les méthodes précitées car nous ne disposons ni d’un modèle d’histoire ni d’un corpus linguistique d’entrée étant donné que l’information d’entrée provient de capteurs. Il convien-dra cependant d’identiier la connaissance nécessaire pour supporter une structuration cohérente.

Intégration des aspects communicatifs Les systèmes se sont principale-ment intéressés à la création automatique de récit. Par contre, l’aspect destinataire (à qui ce récit est il destiné ?) et l’aspect but communica-tif (pour quel but ce récit est il généré ?) sont assez peu présents dans les travaux de l’état de l’art. Ces questions seront soulevées dans ce manuscrit. Il s’agira en particulier de savoir comment moduler et adap-ter la génération du récit pour tenir compte de manière explicite de l’intention communicative de l’auteur et du proil du destinataire. L’évaluation de ces systèmes représente un déi relevé par un faible nombre de travaux. Si les systèmes ictifs peuvent être évalués à partir de la théorie sur laquelle ils reposent ou sur corpus, dans notre cas, le traitement des données capteurs ainsi que la non observabilité des informations couplée à l’impossi-bilité de créer des actions ictives pour satisfaire une contrainte ajoutent de la complexité à l’évaluation de notre approche. Tous ces déis seront abordés selon la démarche que nous adopterons pour générer des récits à partir de données non textuelles qui est présentée dans le chapitre suivant.

Chapitre 4