• Aucun résultat trouvé

Partie 1 Cohérence des résumés linguistiques flous 21

2.2 Phrases et protoformes

sont spontanément utilisés par des utilisateurs à qui il est demandé de décrire des tableaux de données. On peut donc penser que leur utilisation est pertinente avec des RLF.

Newstead et al. (1987) ont étudié l’impact de la taille du jeu de données sur l’inter-prétation des quantificateurs. Si Tous, La plupart, Beaucoup, La moitié et Aucun sont interprétés de manière constante et ne dépendent pas de la taille des données, Plusieurs,

Quelques et Peu sont analysés comme représentant une proportion d’autant plus petite

que le jeu de données est grand. Peu par exemple représente 26% pour un ensemble de 12 éléments mais seulement 9% pour un autre de 10 000.

Famille de quantificateurs Les quantificateurs peuvent également être définis comme des instanciations de familles paramétriques (Castillo-Ortega et al., 2011a; Díaz-Hermida & Bugarín, 2010). Dans le premier article par exemple, les auteurs proposent d’utiliser un ensemble ordonné de q quantificateurs Qi non décroissants tels que Qj  Qk ↔ µQj

µQk : le plus grand d’entre eux est Q1 et représente ∃ et les suivants correspondent à

Au moins 10%, Au moins 20%, etc. jusqu’au dernier, Qq, représentant ∀. La

connais-sance induite par cet ordre est mise à profit pour n’extraire que les résumés associés au quantificateur le plus précis.

2.1.3 Adéquation du vocabulaire

Si les méthodes de modélisation floue permettent la définition du vocabulaire à partir de données étiquetées en optimisant les différentes propriétés décrites dans la section 2.1.1 p. 26 (Mencar & Fanelli, 2008; Gacto et al., 2011), la définition automatique du vocabulaire dans le cadre des RLF ne peut se baser sur ces approches car les données en ce cas ne sont pas étiquetées. De plus, les méthodes à base de règles construisent le vocabulaire à l’aide des données tandis que les RLF utilisent un vocabulaire prédéfini par un expert.

Afin de faciliter ce travail de définition, Lesot et al. (2013) proposent d’utiliser une approche de clustering pour adapter le vocabulaire utilisateur afin d’en améliorer les ca-ractéristiques en termes de spécificité et de distingabilité à l’aide d’indices de qualité sur les clusters obtenus.

2.2 Phrases et protoformes

Les mesures présentées dans cette section sont directement conçues pour les RLF. Celles concernant les protoformes sont calculées a priori et présentées dans le premier paragraphe. Celles concernant les phrases, plus nombreuses et calculées a posteriori, sont décrites dans le second. Le degré de vérité, mesure essentielle pour une phrase, est présenté dans la section 2.3 p. 32 qui lui est dédiée.

2.2.1 Protoforme

Imprécision

La seule mesure proposée pour le protoforme est celle d’imprécision, basée sur le même principe que celles utilisées sur les sef, décrite dans la section 2.1.1 p. 28. Pour le pro-toforme « Qx sont P », Castillo-Ortega et al. (2012) définissent l’imprécision comme la moyenne des aires sous la courbe des fonctions d’appartenance de Q et P . Kacprzyk & Zadrozny (2005b); Wilbik (2010) proposent quant à eux de le calculer pour le pro-toforme « QRx sont P » comme la moyenne pondérée des degrés d’imprécision de ses composantes Q, R et P .

2.2.2 Phrase

Focus, couverture

Le degré de focus s’applique aux phrases générées à partir du protoforme « QRx sont P » et donne la représentativité de R dans la base, calculée comme |R|/n (Kacprzyk & Za-drozny, 2005b; Wilbik, 2010, p. 82). Supposons par exemple que le degré de vérité de la phrase « Tous jeunes sont grands » soit élevé mais que son degré de focus soit faible car la base ne contient qu’un seul élément jeune : cette phrase est trompeuse car elle semble faire état d’une règle générale dans la base alors qu’elle ne décrit qu’un cas. Le degré de focus permet de l’écarter, au même titre que le support utilisé dans les règles d’association.

Il est à noter que ce degré ne peut être utilisé qu’avec un quantificateur relatif puisque le quantificateur absolu porte le nombre considéré dans son expression. Ainsi, sur une base de 1000 individus, la phrase « Environ 3 jeunes sont grands » n’est pas trompeuse puisque le nombre de 3, bien que faible, est annoncé. Ces phrases sont en revanche pauvres en termes d’information, comme remarqué dans l’analyse de l’expérience FFS détaillée dans l’annexe B p. 211.

Le degré de couverture est similaire au degré de focus à ceci près qu’il est calculé sur la conjonction R et P au lieu de R uniquement (Kacprzyk & Zadrozny, 2005b; Wilbik, 2010, p.81). Son interprétation et son usage sont les mêmes, i.e. il permet d’ignorer les phrases portant sur un nombre trop faible de données, jugé non significatif.

Pertinence, exceptionnalité

Le degré de pertinence (appropriateness) est élevé si deux attributs sont dépendants et faible sinon (Kacprzyk & Yager, 2001; Kacprzyk & Zadrozny, 2005b). L’hypothèse est faite qu’une phrase dont les deux attributs R et P sont dépendants est plus intéressante qu’une autre dont les attributs ne le sont pas. Supposons par exemple que 50% des individus soient jeunes et que 50% soit très qualifiés. Si 25% des jeunes sont très qualifiés, alors la phrase « Environ un quart des jeunes sont très qualifiés » est peu pertinente car l’âge et la qualification sont indépendants. A l’inverse, si « Environ 80% des jeunes sont très qualifiés », alors la phrase est pertinente car les attributs sont corrélés.

2.2. Phrases et protoformes 31

Il convient toutefois de noter que le degré de pertinence n’est justifié que lorsqu’en effet deux attributs sont a priori considérés comme indépendants. Avec par exemple les deux attributs Niveau d’éducation et Salaire pour lesquels il est raisonnable d’attendre une corrélation, le degré de pertinence est contre-intuitif puisqu’il renvoie un score d’autant plus faible que les attributs sont indépendants alors qu’en ce cas justement cette propriété serait surprenante et mériterait d’être signalée à l’utilisateur.

Le degré de pertinence peut être rapproché de la mesure d’exceptionnalité proposée par Van der Heide & Triviño (2009) et présentée dans la section 1.3.2 p. 18. Dans le cadre de la comparaison de séries temporelles, cette dernière permet de conserver des phrases relatives à des valeurs très différentes de la moyenne constatée sur les autres séries.

De la même manière, le score de différenciation que nous présentons au section 1.3.2 p. 18 et dans (Almeida et al., 2013) permet de mettre en avant un groupe de données as-socié à une phrase ayant des propriétés sensiblement différentes de celles d’autres groupes associés à d’autres phrases, entraînant par exemple la génération de la phrase « Peu d’ob-servations réalisées sur des hommes ont une valeur faible de rythme cardiaque contraire-ment à celles observées sur des femmes ».

Degré d’informativité

Le degré d’informativité proposé par Yager (1982) permet d’exploiter l’information associée aux phrases ayant une faible valeur de vérité, habituellement supprimées des résumés. L’auteur souligne toutefois que de telles phrases peuvent être informatives. Il propose donc de combiner le degrés de vérité de la phrase avec la spécificité de Q et P d’une part et d’autre part de combiner 1 moins la valeur de vérité de la phrase avec la spécificité des négations de Q et P et de retenir la phrase ayant la plus grand score des deux.

Longueur d’une phrase

Kacprzyk & Yager (2001) proposent d’évaluer la taille d’une phrase issue d’un pro-toforme « Qx sont P » comme 2 × 0, 5|P | et Wilbik (2010, p.87) celle d’une phrase issue de « QRx sont P » comme |R| + |P |. Une phrase plus courte est valorisée par rapport à une autre plus longue.

Mesures agrégées

Kacprzyk & Zadrozny (2005b) introduisent un degré de vérité total d’un phrase calculé comme la somme pondérée de sa longueur et des degrés de pertinence (cf. section 2.2.2), d’imprécision (cf. section 2.2.1) et de couverture (cf. section 2.2.2). La détermination des poids reste à la charge de l’utilisateur. Ils proposent également de définir la meilleure phrase comme celle dont le degré de vérité total est maximal parmi l’ensemble des phrases possibles.

Díaz-Hermida & Bugarín (2010) proposent un index combinant le degré de vérité de la phrase (cf. section 2.3), la spécificité (cf. section 2.1.1 p. 28) et la couverture du quantificateur (cf. section 2.1.2 p. 28), la phrase la plus spécifique avec la plus grande couverture et le plus grand degré de vérité étant retenue.