• Aucun résultat trouvé

5.4 L’expérimentation

5.4.2 Résultats, discussion et bilan

5.4.2.3 Bilan

Nous rappelons que le but de cette expérimentation a été de valider notre hypothèse de départ qui est que, pour la compréhension d’un texte, la fonction syntaxique des consti- tuants des phrases est un facteur conséquent dans l’évaluation de l’importance de ces constituants. Nous établissons maintenant notre interprétation des résultats de l’expéri- mentation en regard de cette hypothèse.

La bonne qualité des compressions obtenues par la version automatique de COLIN, en terme de taux de compression comme de conservation de contenu informationnel impor- tant, confirme l’influence certaine de la fonction syntaxique dans l’importance des consti- tuants. En effet, supprimer les constituants disposant d’une des fonctions syntaxiques que nous avons identifiées comme peu importantes a permis à COLIN de produire des textes compressés vérifiant, en moyenne, un bon niveau de représentation des textes originaux.

Le choix du constituant comme granularité d’analyse de la phrase s’est révélé parti- culièrement adéquat, au regard des résultats du mode semi-automatique face à ceux du mode manuel. En effet, d’une part le gain considérable en taux de compression indique que le constituant englobe la majorité des segments textuels qu’un humain souhaite supprimer dans une phrase, et d’autre part le gain considérable de temps de compression indique que le constituant n’est pas une unité textuelle trop petite car elle permet d’être facilement et rapidement manipulable par un être humain, à travers une interface graphique.

5.5

Conclusion

Dans ce chapitre, nous avons décrit l’évaluation de notre approche sur la compression syntaxique de phrases à travers une expérimentation utilisant notre compresseur COLIN. Nous avons commencé par présenter la méthode actuelle la plus répandue pour évaluer les résumés automatiques : ROUGE. Cette méthode, automatique et statistique est peu adaptée au résumé par compression de phrases. De plus, procédant par comparaison des résumés automatiques avec des résumés de référence, la qualité d’évaluation de ROUGE est limitée par la subjectivité intrinsèque des résumés de référence produits par des hu- mains. Notre choix s’est alors orienté vers une évaluation manuelle. Celle de Knight et Marcu, présentant des caractéristiques proches de nos attentes, nous nous sommes appuyé sur cette méthode, en l’adaptant à nos exigences en termes d’allègement de l’effort cog- nitif imposé aux évaluateurs, afin de motiver ces derniers et de disposer d’un maximum de participation à notre évaluation.

Notre protocole se décompose en deux parties : l’évaluation de l’aide apportée par la version semi-automatique de COLIN et l’évaluation de la qualité des compressions produites par les deux versions du compresseur. Nous mesurons l’aide apportée selon 4

critères : le temps gagné, l’effort cognitif allégé, la satisfaction d’utilisation de l’outil et la qualité des compressions produites accrue. Dans la seconde partie du protocole nous proposons des critères de constitution du corpus d’évaluation, basés sur la cohérence discursive, le genre textuel et la taille des textes, puis nous définissons comment nous souhaitons noter les compressions. Nous décrivons alors les modes de compressions uti- lisés (manuel, semi-automatique et 4 types d’automatique), puis notre présentation des compressions à l’évaluateur (découpées en paragraphes), et enfin la méthode de notation, qui a pour but d’attribuer une note selon la conservation du contenu important et la cohérence globale des compressions. Nous terminons cette section en présentant le sys- tème informatique utilisé pour l’évaluation, des technologies utilisées à la décomposition en étapes et traitement du logiciel.

Enfin nous abordons l’expérimentation. Le corpus utilisé est présenté, ainsi que les pré- traitements que nous avons dû effectuer sur le corpus, sur SYGFRAN, et sur COLIN, afin que l’analyse syntaxique du corpus soit d’une qualité suffisamment élevée pour permettre à notre compresseur de disposer des données nécessaires à son bon fonctionnement. Les résultats sont ensuite exposés, en commençant par des informations sur la participation des évaluateurs, leur répartition sur les tâches, les compressions et notations produites, puis en continuant avec les données de temps de compression, de satisfaction d’interac- tion, de taux de compression, de notation des compressions et de type des incohérences dans le cas des mauvaises notes. La compression interactive de COLIN permet de gagner presque 20 % de temps, par rapport à la manuelle, et ce gain augmente avec l’entraîne- ment des évaluateurs à l’outil interactif, jusqu’à presque 100 % sur le 5ième texte compressé.

Les évaluateurs ont été satisfaits de leur interaction avec l’interface du compresseur, ils ont donné une note moyenne d’environ 4 sur 5. Le taux de compression du mode semi- automatique est nettement supérieur à celui du mode manuel, d’environ 15 %, pour une qualité des compressions équivalente. Le taux de compression du mode automatique se situe entre ceux des 2 autres modes, pour une qualité des compressions légèrement infé- rieure et un temps de compression non comparable, car de l’ordre de 5 secondes par texte pour 200 à 300 secondes pour les autres modes, ce qui confère au mode automatique le meilleur rapport de temps/taux/qualité de compression. Parmi les 4 types de compression automatique, celui qui conserve les modifieurs circonstanciels de lieu et de temps de la proposition, en effaçant les autres circonstants a obtenu les meilleurs résultats, et se place donc en paramétrage favori pour le mode automatique. Le genre journalistique s’est révélé être le plus propice à la compression. Le genre scientifique se compresse aussi bien que le narratif, alors que nous pensions qu’il serait peu sujet à la compression. La qualité des résumés produits est bien subjective, car dans les 3 modes de compression nous retrouvons des notes faibles attribuées pour des raisons de préférence plutôt que d’incohérence, ce qui nous conforte dans notre protocole d’évaluation, où ne sont pas utilisés des résumés

de référence pour déterminer la qualité des compressions. Nos résultats sont sensiblement dégradés à cause d’une analyse syntaxique non parfaite, malgré nos prétraitements, et de quelques bugs dans COLIN, au niveau de la phase d’assemblage des mots conservés dans les compressions.

Nos résultats sont donc très encourageants, car nous avons pu montrer la réelle aide au résumé automatique apportée par COLIN, ainsi que la qualité de ses compressions automatiques. Notre compresseur reste toutefois dépendant d’une analyse syntaxique, qui, si elle est partielle, peut dégrader les résultats.

Enfin, notre hypothèse théorique sur l’influence de la fonction syntaxique sur l’impor- tance des constituants a été largement confortée par ces résultats.

Conclusion et perspectives

Sommaire

6.1 Synthèse . . . 165