• Aucun résultat trouvé

Analyse des valeurs maximales de l’énergie textuelle

Dans le document The DART-Europe E-theses Portal (Page 71-76)

l’énergie textuelle

4.5 Analyse des valeurs maximales de l’énergie textuelle

Pour expliquer la distribution des valeurs d’énergie textuelle dans sa version non transformée, nous allons d’abord étudier le cas le plus simple de la représentation vec-torielle d’un document. Il s’agit du cas binaire où dans la matrice A un terme sera représenté par 1 ou 0 selon s’il est présent ou absent dans la phrase. Nous ne prenons pas en compte la fréquence d’apparition du terme.

Dans ce cas, les valeurs d’énergie textuelle sont maximales si tous les termes du vocabulaire apparaissent dans toutes les phrases du document. Soitai,j = 1; ∀ai,jA, alors :

Enfin pour l’équation 4.3, les valeurs de l’énergie textuelle correspondent aux élé-ments de la matrice(A×At)2où chaque élément a la forme T|2+· · ·{z +T}2

Ainsi, selon l’équation (4.9), les valeurs d’énergie textuelleei,jsont de l’ordreO(ΦT2) pour le cas de représentation binaire.

Dans le cas général, soit tf(ϕi,wj) = c; ∀i∈ [1,Φ],j∈ [1, T]; de façon à ce que la valeurcde fréquence associée est maximale pour toutes les phrases et tous les termes.

Par analogie, les éléments de(A×At)ont la formec2+· · ·+c2

| {z }

T fois

=Tc2.

4.6. Conclusions du chapitre

Les éléments de la matrice(A×At)2ont donc la forme T2c4+· · ·+T2c4

| {z }

Φfois

. D’où, chaque élément de la matrice d’énergieei,jest de l’ordreO(ΦT2c4).

Bien que la fréquence maximalecsoit à la puissance 4, c’est la taille du vocabulaire T qui domine la croissance des valeurs d’énergie textuelle. En effet, dans des textes réels, nous trouvons majoritairement que 0≤c≤3, car un terme peut apparaître dans la même phrase une seule fois, rarement deux et quasiment jamais trois fois ou plus.

En outre, le nombre de phrases est toujours inférieur ou égal au nombre de termes, c’est-à-direφT.

En conclusion, c’est toujours la taille du vocabulaire T qui domine la distribution des valeurs d’énergie textuelle (figure4.4). En effet, la richesse lexicale est la raison de la distribution très asymétrique de ces valeurs. Par exemple, pour un texte de 300 mots (la taille d’un résumé) nous pouvons avoir des valeurs d’énergie de l’ordre de 10e+05 et pour un de 1000 mots (une page et demie) de l’ordre de 10e+063.

4.6 Conclusions du chapitre

Nous venons de détailler le modèle de l’énergie textuelle qui permet de mesurer l’informativité des phrases compressées. Nous avons aussi analysé ses capacité et limi-tations, ceci nous a permis de proposer une transformation orientée vers la tâche qui nous intéresse. Pour adapter l’énergie textuelle, nous avons appliqué la transforma-tion Box-Cox, typiquement utilisée pour corriger des distributransforma-tions asymétriques. Nous avons ainsi trouvé que la meilleure distribution des valeurs d’énergie textuelle trans-formées est obtenue avec une valeur du paramètreλtrès proche à zéro. Nous devons donc utiliser la fonction logarithme de l’énergie textuelle dans nos expériences.

Grâce à cette nouvelle mesure d’énergie textuelle, nous avons pu identifier plus fa-cilement les segments à l’intérieur de la phrase qui sont pauvres en informativité. De la même manière, ces valeurs nous ont aidé à distinguer les segments qui contiennent des informations essentielles, tout ceci en considérant le contexte du document en entier.

Ainsi, nous avons proposé d’éliminer les segments les moins énergétiques à condi-tion que cette éliminacondi-tion ne dégrade pas la grammaticalité. En conséquence, la nou-velle phrase (la version compressée) contient uniquement les segments essentiels, soit au niveau de l’informativité, soit au niveau de la grammaticalité ou les deux.

3. En supposant une grande richesse lexicale dans les deux exemples.

FIGURE4.6 – Comparaison entre l’énergie textuelle et l’énergie textuelle transformée.

4.6.Conclusionsduchapitre Ener(φ) Ener(s)

et chaque thermomètre inclue une échelle de mesure qui, généralement, se donne en degrés centigrades.

Chaque marque de l'instrument est un degré

Quelque soit le type de thermomètre, dans tous ceux−ci la température se mesure en unités nommées degrés.

ainsi il existe différents types de thermomètres.

il est fréquemment nécessaire de mesurer la température de différentes choses, de l'air, du corps humain, d'un four ou de l'eau d'une piscine, Comme on le voit,

et substances qui changent durant un processus productif.

Dans l'usine les thermomètres mesurent la température des fours et chaudrons, ainsi que de divers matériaux si quelqu'un dans la famille a de la fièvre.

pour savoir avec précision

À la maison il est utile d'avoir un thermomètre

Cet instrument a beaucoup d'emplois dans les foyers, dans les usines et dans les unités de santé.

si on désire connaître la température, il faut utiliser un instrument qui offre une donnée fiable, le thermomètre.

Pour savoir la chaleur ou la froideur d'une chose, c'est−à−dire,

0 0.2 0.4 0.6 0.8 1

Value Color Key

FIGURE4.7Exempledesvaleursd’énergietextuellepourdessegmentsDiSeg. 73

e4.Pondérationdel’informativitédesphrasescompresséesbaséesur gietextuelle Ener(f) Ener(s) s'indique en degrés centigrades. généralement, et chaque thermomètre inclue une échelle de mesure qui, Chaque marque de l'instrument est un degré dans tous ceux-ci la température se mesure en unités nommées degrés. Quelque soit le type de thermomètre, ainsi il existe différents types de thermomètres. ou de l'eau d'une piscine, d'un four du corps humain, de l'air, il est fréquemment nécessaire de mesurer la température de différentes choses, Comme on le voit, et substances qui changent durant un processus productif. ainsi que de divers matériaux Dans l'usine les thermomètres mesurent la température des fours et chaudrons, si quelqu'un dans la famille a de la fièvre. pour savoir avec précision À la maison il est utile d'avoir un thermomètre dans les usines et dans les unités de santé. Cet instrument a beaucoup d'emplois dans les foyers, le thermomètre. il faut utiliser un instrument qui offre une donnée fiable,

0 0.2 0.4 0.6 0.8 1

Value Color Key

FIGURE4.8Exempledesvaleursd’énergietextuellepourdessegmentsCoSeg. 74

Chapitre 5

Un modèle probabiliste

Dans le document The DART-Europe E-theses Portal (Page 71-76)