Construction du résumé textuel - Thèse. Présentée à. Télécom Paris. Par. Itheri Yahiaoui. Pour

• Si au moins un mot de l’extrait E^T appartient au résumé R^T (politique souple).

• Si tous les mots de l’extrait E^T appartiennent au résumé R^T (politique stricte).

• Si au moins un pourcentage de motsP de l’extrait E^T sont présent dans le résuméR^T (politique intermédiaire).

La première règle de décision correspondante à la politique souple est très similaire à la règle de décision utilisée pour le processus de construction des résumés mono-vidéo. Alors que cette décision apparaît parfaitement valide pour la vidéo parce que les images identiques sont rares, elle est moins correcte pour le texte parce que l’occurrence d’un mot donné n’est pas nécessairement une indication forte de similarité. C’est la raison pour laquelle nous avons défini les deux autres politiques: intermédiaire et stricte.

Quelle que soit la règle de décision utilisée, la probabilité des réponses cor-rectes désigne la performance enregistrée de l’utilisateur lors de cette expérience.

En fonction de la politique (la règle de décision utilisée) nous définissons plus explicitement la performance de la sorte:

• Dans le cas de la politique souple, la performance est égale au nombre d’extraits textuelsE^T tirés de la transcription, associé à la vidéo originale, comportant au moins un mot inséré dans le résumé textuel R^T.

• Tandis que dans le cas de la politique intermédiaire, la performance est le nombre moyen des extraits qui contiennent un pourcentage de mots P participant au résumé.

• Enfin pour la politique stricte, la performance est le nombre moyen des extraits qui ne contiennent que des mots appartenant au résumé.

6.3 Construction du résumé textuel

Ayant exprimé clairement le principe de reconnaissance textuelle maximale, nous présentons maintenant la méthodologie de construction de résumé textuel d’une manière formelle. Rappelons que le facteur principal de la sélection des mots composant le résumé est la règle de décision. De ce fait, pour chaque politique

mentionnée précédemment, une règle de décision doit être définie. Cependant, la méthodologie de base reste la même. Notre objectif est de maximiser la perfor-mance des mots sélectionnés pour constituer le résumé R de la même façon que le cas où seules des informations visuelles étaient prises en considération.

Pour la construction du résumé texte, nous commençons notre processus par une phase préliminaire de pré-traitement dans laquelle les mots communs ap-partenant à des «stop-lists» prédéfinies sont exclus du processus de sélection d’une façon analogue aux approches utilisées dans le domaine de la recherche d’information. Tous les mots communs de ces listes présents dans la tran-scription sont tout simplement ignorés parce que ces derniers n’apportent pas d’informations significatives et spécifiques au document traité.

Ensuite, nous appliquons une analyse morphologique (stemming) dans laque-lle les racines R(M) des diﬀérents mots M sont calculées. Les mots considérés sont ceux de la transcription associée au document multimédia considéré, gardés après l’élimination des mots outils lors de la phase préliminaire.

Après le calcul des racines, nous classifions ces derniers sous forme de classes de similaritéW où chaque classe comporte des mots ayant la même racine (même morphème). Dans notre approche, nous considérons deux mots Mi et Mj simi-laires si et seulement si ils ont des racines identiques:

Mi est similairea M` j ⇐⇒ W(Mi) =W(Mj) ⇐⇒ R(Mi) =R(Mj) (6.1) Le résumé texte optimal de taillek peut être retrouvé en énumérant tous les ensembles possibles contenantk classes de mots{W1, W2, ...Wk}et en conservant celui qui maximise la performance moyenne de tous les extraits possibles E du document D. L’énumération de la totalité des ensembles semble très coûteuse en temps de calcul. De même que dans le cas des résumés des informations visuelles, il est judicieux et plus rentable de sélectionner minutieusement l’ordre dans lequel les classes sont sélectionnées, ainsi la meilleure solution est retrouvée rapidement. En pratique, nous avons utilisé un algorithme basé sur un principe de type «greedy» pour la sélection des unités constituant le résumé. Ce type d’algorithme nous permet de diminuer considérablement le temps d’attente de l’utilisateur et d’avoir des temps de construction raisonnables même si la solution

6.3. Construction du résumé textuel 133

obtenue est sous-optimale. Avec cette approche, la performance est décomposée par la formule suivante:

perf (R^T) = perf (W1, W2, ..., Wk) (6.2)

= perf (W1, W2, ..., Wk−1) +perf (Wk|W1, W2, ..., Wk−1) L’algorithme de construction du résumé sous-optimal procède comme suit:

• Etape 1: Commencer avec un résumé textuel R^T vide.

• Etape 2: Trier les classes qui n’ont pas encore été sélectionnées en fonc-tion de la valeur décroissante de la performance perf(R^T) par rapport à la constitution actuelle du résumé.

• Etape 3: Rajouter la classe W ayant une performance maximale pour le résumé. Revenir à l’étape 2 jusqu’à ce que le résumé ait la taille voulue.

• Etape 4(optionnelle): Pour raﬃner le résumé, prendre chaque unité du résumé à tour de rôle et essayer d’identifier une classe (un autre mot) qui améliore la performance. Cette étape est répétée jusqu’à ce qu’aucune amélioration supplémentaire ne puisse être eﬀectuée. Le résultat final de cette étape consiste en la solution optimale par rapport à notre principe de reconnaissance maximale.

L’algorithme présenté débute par la sélection la classe W1 ayant une valeur de performance maximale perf(W1), puis W2 qui a une valeur de performance maximale perf(W1, W2), et ainsi de suite jusqu’à Wk. La première solution com-plète retrouvée est alors le résultat d’une série de choix avec un critère de type

«Greedy». Si nous désirons nous contenter d’une solution sous-optimale en gag-nant en temps de calcul, l’étape 4 de notre algorithme de sélection peut être omise.

Cette procédure s’applique telle quelle pour la politique souple. Pour les politiques intermédiaire et stricte, il faut noter que la performance du premier mot à sélectionner est égale à zéro (à moins que les extraits aient une longueur de 1 mot). Donc, nous remplaçons dans ces cas la performance exacte perf(R^T) par une proportion, qui dépend linéairement du nombre des mots de l’extrait existant

déjà dans le résumé. Ceci permet de sélectionner les mots les plus prometteurs, même pour le premier choix deM1.

Une fois que le meilleur ensemble des classes de mots est trouvé, chaque classeWi est remplacée par un mot représentatifMi, ce qui définit l’ensemble des mots qui composent le résumé. Pour le choix du représentant de la classe, nous calculons pour chaque mot son nombre d’occurrences dans le document original, ensuite nous les trions et gardons celui qui se classe au premier rang c’est-à-dire celui qui est le plus présent dans la classe.

Comme indiqué précédemment, le calcul de la fonction de performance perf(R^T) dépend de la politique utilisée pour la création et l’évaluation du résumé. Plus particulièrement, c’est la règle de décision d(E, R) qui est élaborée spécialement pour chacune des trois politiques envisagées.

Lors de la présentation du principe de reconnaissance textuelle, nous avons défini la performance comme étant le nombre de réponses correctes données par l’utilisateur. Nous rappelons aussi que la réponse (décision: l’extrait appartient ou non au document correspondant au résumé) de l’utilisateur se fait selon la règle de décision déterminée. Cette dernière était définie selon les diﬀérentes politiques d’évaluation de la pertinence et de la détermination d’un mot dans le contexte de reconnaissance maximale. Dans ce qui suit, nous présentons d’une manière formelle les règles de décision associées aux trois politiques énoncées précédemment.

6.3.1 La politique souple

L’idée motrice de la politique souple consiste à donner aux mots une valeur d’authenticité leur permettant d’être déterministes. Dans ce cas de figure, la présence d’un seul mot du résumé dans un extrait est amplement suﬃsante pour valider son appartenance au document original du résumé présenté.

La règle de décision qui transpose cette politique souple est formalisée comme suit:

d^T₁(E^T, R^T) =

( 1 si ∃Mi ∈E^T Mi ∈R^T

0 sinon (6.3)

Notre processus de construction est basé sur la notion de classes de mots.

6.3. Construction du résumé textuel 135

Les mots ayant la même racine sont considérés comme similaires. Nous adaptons notre règle de décision pour que l’utilisateur décide de l’appartenance de l’extrait à la transcription originale du résumé si ce dernier comporte au moins un mot similaire à un ou plusieurs mots du résumé (ayant la même racine).

d^T₁(E^T, R^T) =

( 1 si ∃Mi ∈E^T ∃Mj ∈R^T et W(Mi) =W(Mj)

0 sinon

(6.4) Cette première règle de décision encourage une grande complémentarité et peu de redondances entre les mots composant le résumé. Ces eﬀets sont dus à notre processus de construction dans lequel nous rajoutons au résumé, à chaque étape de la phase de sélection, le mot représentant de la classe qui permettra d’augmenter au maximum la performance du résumé courant. Dans ce premier cas la performance du résumé courant est égale à la somme des couvertures condi-tionnelles des classes insérées dans ce dernier. Notons que c’est la classe obtenant la meilleure couverture conditionnelle connaissant les classes insérées dans le ré-sumé parmi les classes non sélectionnées jusque là qui sera insérée dans le réré-sumé en cours de construction et ainsi de suite jusqu’à ce que la taille désirée du résumé soit atteinte. D’une manière analogue aux classes des images, nous définissons la couverture conditionnelle d’une classe de mots comme étant sa contribution à la couverture de l’ensemble des classes composant le résumé courant c’est-à-dire le nombre d’extraits reconnus uniquement grâce à cette classe sans aucune impli-cation des autres classes déjà insérées dans le résumé. En d’autres termes, c’est le nombre d’extraits comportant au moins un mot de cette classe et aucun autre mot appartenant à l’une des classes sélectionnées auparavant.

Cov(Wm|W1W2...Wm−1) = Cov(W1W2...Wm)−Cov(W1W2...Wm−1) (6.5)

= Card

( i:∃j Mj ∈Ei et W(Mj) =Wm

et ∀M ∈Ei∀j = 1,2, ...m−1 W(M)6=Wj

)

6.3.2 La politique stricte

Dans le cas de la politique stricte, nous estimons qu’un mot seul n’est pas suﬃsant pour reconnaître son origine car il peut faire partie de plusieurs documents à la fois. Sa présence conjointe dans l’extrait et le résumé n’est pas une preuve pour valider que l’extrait présenté est tiré du document correspondant au résumé.

Cependant la présence de tous les mots composant l’extrait sans exception peut être une attestation de l’origine de cet extrait. Nous considérons cette présence collective comme une aﬃrmation du fait que l’extrait est tiré du document original correspondant au résumé montré.

La règle de décision qui manifeste ce comportement est la suivante:

d^T₂(E^T, R^T) =

( 1 si ∀M ∈E^T Mi ∈R^T

0 sinon (6.6)

Comme nous utilisons des classes de similarité, notre règle de décision sera comme suit: «L’utilisateur décide de l’appartenance de l’extrait au document original du résumé si et seulement si tous les mots le composant sont similaires à des mots présents dans le résumé.»

d^T₂(E^T, R^T) =

( 1 si ∀M ∈E^T W(Mi)∈R^T

0 sinon (6.7)

Lors de la phase de sélection, la performance du résumé courant est égale au nombre moyen des extraits pour lesquels n’importe quel mot Mi est similaire à un mot du résumé.

6.3.3 Politique Intermédiaire

Afin d’avoir un compromis entre les deux politiques souple et stricte, nous pro-posons une politique intermédiaire, dans laquelle, nous estimons qu’un groupe de n mots peut être déterministe pour la reconnaissance de son origine. La valeur de n dépend de notre tolérance de jugement et de la valeur intrinsèque que nous aﬀectons aux mots. Comme nous utilisons des extraits de diverses tailles où le nombre de mots inclus dans l’extrait diﬀère d’un extrait à l’autre, nous avons décidé de remplacer le nombre de mots n nécessaires pour la reconnaissance de

6.3. Construction du résumé textuel 137

l’extrait par un pourcentageP de mots nécessaires par rapport au nombre total de mots composant l’extrait. Avec cette politique, l’utilisateur décide qu’un extrait provient du document original du résumé lui est présenté si un pourcentage de motsP de l’extrait sont présents dans le résumé. Sachant que nous avons élaboré une classification des mots considérés en un ensemble de classes de similarité selon leurs racines, notre règle de décision sera la suivante: «L’utilisateur devine cor-rectement l’origine d’un extrait de mots si ce dernier contient un pourcentage de mots P similaires à des mots du résumé lui est montré». La formalisation de cette règle de décision est la suivante:

d^T₃(E^T, R^T) =

( 1 si (N BM/N M E)∗100≥P

0 sinon (6.8)

oùN BM =card(M ∈E^T tel que W(M)∈R^T)

etN M E : Nombre de Mots composant l’Extrait (taille de l’extrait)

Pendant la construction du résumé le plus adapté à cette politique intermé-diaire, et à chaque étape d’insertion d’une classe au résumé courant, nous sélec-tionnons celle qui permet de maximiser la performance du résumé actuel plus cette classe. La performance du sous-ensemble de classes en question est égale au nombre d’extraits du document original qui contiennent un pourcentageP de mots de ces classes sélectionnées.

Comme nous le constatons, le cas de la politique stricte est un cas particulier de la politique intermédiaire, pour lequel le pourcentage de mots qui doivent être similaires aux mots du résumé est égal à 100%.

Dans le cas de la politique souple, la construction du résumé textuel selon le PRM est basée sur le calcul des couvertures conditionnelles. A chaque étape de sélection nous rajoutons au résumé courant la classe ayant la meilleure couverture.

Cependant, dans le cas de la politique intermédiaire (de même que stricte), cette mesure n’est pas envisageable car il faut noter que la performance du premier mot à sélectionner est égale à zéro (à moins que les extraits aient une longueur de 1 mot). Donc, nous remplaçons dans ce cas la performance exacte par une proportion, qui dépend linéairement du nombre des mots de l’extrait existant déjà dans le résumé. Ceci permet de sélectionner les mots les plus prometteurs, même pour le premier choix de M1. Cette nouvelle mesure pour chaque classe

non sélectionnée dans le résumé courant est formalisée comme suit:

Cov(W) = X

N E(W)

(Cov1 + 1/N M E) (6.9)

oùCov1 =card(M ∈E^T tel que W(M)∈R^T)

etN E(W)= Nombre d’extraits qui contiennent un mot de la classeW

Dans le document Thèse. Présentée à. Télécom Paris. Par. Itheri Yahiaoui. Pour obtenir le diplôme de. Docteur de Télécom Paris (Page 147-154)