• Aucun résultat trouvé

L’enrichissement avec SelDe pour différents seuils d’Asium

4.3 Seconde application pour évaluer SelDe : la classification de textes

4.3.1 L’impact des différents types de données textuelles sur la classifica-

4.3.3.3 L’enrichissement avec SelDe pour différents seuils d’Asium

Plusieurs objectifs sont visés avec l’enrichissement via ExpLSA. Le premier est de montrer la qualité de nos descripteurs vis-à-vis de la méthode d’Asium, dont les résultats sont présentés dans cette section. La méthode d’Asium “simple” propose, rappelons le, d’enrichir un corpus sans utiliser de paramètres. Lors de nos précédentes expérimentations, nous avons montré que l’enrichissement d’Asium était amélioré en util- isant les paramètres de SelDe. Cependant, cette amélioration était parfois assez faible. Néanmoins, le taux d’enrichissement d’un corpus avec Asium est très dépendant de la taille initial du corpus à enrichir. Il en résulte alors un grand nombre de relations syntax- iques extraites et ainsi un fort enrichissement, qui bien sur est d’autant plus important que le seuil d’Asium est faible.

Le second objectif fixé est l’amélioration des résultats de classifications.

Nous présentons respectivement dans les tableau 4.11 et 4.12 les résultats obtenus avec

Tab. 4.11 – Enrichissement avec Asium, sélection par score Asium

la méthode d’Asium en faisant varier la méthode du choix du couple (cf. section 4.1.1), choix selon SA puis choix selon le nombre d’occurrences. Les résultats montrent que quel

Tab. 4.12 – Enrichissement avec Asium, sélection par nombre d’occurrences

que soit le choix du couple, les résultats se dégradent quand le seuil d’Asium diminue. Notons cependant une amélioration des résultats avec la macro-moyenne du f-score, pour la sélection du couple par scores d’Asium et pour SA = 0, 8 les résultats sont légèrement améliorés. Ce résultat n’est néanmoins pas significatif.

confirme les hypothèses précédemment avancées concernant le manque de filtrage. Remarquons finalement que le nombre trop faible de relations syntaxiques utilisables avec un score d’Asium à 0,9 explique que les résultats obtenus pour SA = 0, 9 soient les mêmes avec ChV erb = “Occurrences′′ et ChV erb = “Asium′′. En effet, cela signifie qu’un seul couple de verbes n’est possible pour l’expansion. Dès lors la méthode de sélection du couple n’a pas d’importance.

4.3.3.4 Choix des paramètres de SelDe

Cette section a pour objectif de sélectionner les paramètres du modèle SelDe qui seront les plus adaptés afin d’enrichir un corpus en vue d’une classification automatique de textes. Nous utiliserons un corpus enrichi avec SA = 0, 8 à l’instar des expérimenta- tions de classification conceptuelle, ce seuil étant un bon compromis qualité/quantité afin de sélectionner aux mieux les valeurs de nos paramètres. Nous évaluerons ici l’influence des mêmes paramètres (présentés en section 3.4.3.3) que ceux évalués pour la tâche de classification conceptuelle (section 4.2) : NbOccMin, NbOccMax, nbObj, order. Afin de présenter les résultats obtenus pour ces paramètres, nous suivrons le protocole expéri- mental précédemment décrit. Nous ne présentons que les résultats les plus significatifs, les autres étant placés en annexes.

Le nombre minimal (NbOccMin) et maximal d’occurrence (NbOccMax) Nous mesurons dans un premier temps l’impact des paramètres NbOccMin et NbOccMax. Nous évaluons pour ces deux paramètres les valeurs 2, 4, 6 et 8. Notons que nous faisons également varier le type de sélection du couple, se faisant avec ChV erb = Asium ou ChV erb = Occurrences. Les résultats sont présentés dans le tableau 4.13. À l’instar

Tab. 4.13 – Évaluation des paramètres “NbOccMin” et “NbOccMax”.

des résultats de classification conceptuelle, le paramètre le plus influent reste NbOccMin, dont les meilleurs f-scores ont été ici obtenus avec une valeur de 4. Nous expliquons l’influence de ce paramètre par le fait qu’il privilégie les termes fréquents. Rappelons le principe d’enrichissement. Les objets communs de couples de verbes jugés proches avec Asium sont sélectionnés afin d’enrichir un corpus. Avec le paramètre NbOccMin, nous limitons ces objets à ceux ayant ici au minimum 4 occurrences communes entre les

deux verbes du couple. Ainsi, les objets rares sont écartés du processus d’enrichissement. Ces objets peu fréquents génèrent une quantité de bruit plus importante que ceux très largement présents. En effet, pour ces derniers, même s’ils sont bruités, il est plus probable qu’ils soient également fortement présents dans le corpus et donc dans d’autres couples. L’enrichissement est alors “égalisé”. Pour les objets rares, nous pouvons supposer qu’ils sont moins présents dans le corpus et ainsi, l’enrichissement effectué avec ceux-ci sera assez ponctuel et sujet au bruit.

La fréquence autorisée (nbObj) et l’ordre des termes dans un couple de verbes (order)

La fréquence autorisée (nbObj) qui, rappelons le est le nombre d’objets à sélectionner par couple et le paramètre order, l’ordre dans lesquels les objets sont triés (en terme de nombre d’occurrences, croissant ou décroissant), n’ont pas donné de résultats pertinents lors de la sélection des paramètres adaptés à la classification conceptuelle. Les résultats obtenus avec la classification de textes sont assez différents tels que montré dans le tableau

4.14. En effet, les scores résultant de ces paramètres améliorent les résultats, notamment

Tab. 4.14 – Évaluation des paramètres “nbObj” et “Order”

la macro moyenne en passant de 71,23% à 72,95%.

Choix des paramètres pour l’approche ExpLSA

Nous avons sélectionné, suite aux expérimentations présentées ci-dessus un certain nom- bre de paramètres qui vont définir notre approche d’enrichissement ExpLSA. Rappelons que ces expérimentations vont être menées avec le corpus de référence. Ce dernier est en effet à distinguer des autres corpus qui serviront à évaluer la qualité de l’approche ExpLSA.

Une première approche nommée ExpLSA_1, utilisera un enrichissement fondé sur le modèle SelDe en utilisant le paramètre nbObj fixé à 2 et le paramètre order à “c”. La sélection du couple de verbes est alors effectuée en fonction du score d’Asium.

La seconde approche nommée ExpLSA_2 utilisera quant à elle les paramètres NbOccMin et NbOccMax aux valeurs respectives 3 et 5. Notons que l’utilisation simultanée de ces

deux seuils est plus bénéfique que l’utilisation seul de NbOccMin ou NbOccMax. Certes l’approche avec NbOccMin fixé à 4 donne les meilleures f-scores (dans la tableau 4.13). Cependant, le corpus de référence est de taille moyenne. Avec l’utilisation d’un corpus de plus grande taille, nous pouvons supposer que l’expansion avec NbOccMin = 4 serait trop importante, introduisant du bruit. Ainsi, nous avons opté pour l’utilisation de NbOccMin et NbOccMax simultanément. Ce choix de paramètres produira des descripteurs de moindre qualité avec les petits corpus, mais de meilleure qualité avec ceux de taille plus importante, constituant un bon compromis. Finalement, nous présenterons dans la section suivante les résultats des approches Asium (l’enrichissement sans filtrage avec les paramètres de SelDe), ExpLSA_1 et ExpLSA_2, et les résultats obtenus avec le corpus original.