• Aucun résultat trouvé

Analyse de l’évolution de quelques critères

B.1 Cinquante premiers mots les plus fréquents dans le corpus [DIAB_CP], utilisés dans le

5.5 Étude des classifieurs, pertinence des critères

5.5.3 Analyse de l’évolution de quelques critères

Nous étudions dans cette section l’évolution de quelques critères discriminants selon le score attri- bué à chaque document parSVM. Pour cela, nous avons observé les valeurs des différents critères sur l’ensemble du corpus et n’avons conservé que quelques uns des critères présentant une évolution que nous jugions intéressante. Les valeurs de chacun des critères présentés dans les sections suivantes sont les valeurs normalisées. Chaque graphique figurant dans les sections suivantes représente l’évolution des valeurs d’un critère selon le scoreSVMattribué aux documents correspondants. Ces schémas permettent de se rendre compte de la difficulté de la tâche de classification. Rares sont les critères permettant de

trancher. Généralement, leur évolution est assez floue, ou n’est discriminante que sur un sous-ensemble d’une classe.

5.5.3.1 Critères français

Le graphique 5.6 représente la proportion de balisesIMGetPdans le corpus, permettant d’insérer dans un documentHTMLdes images et des paragraphes (respectivement). Notons que les deux courbes évoluent de façon sensiblement équivalente selon le score des documents. Les documents classés comme vulgarisés (au score négatif) semblent contenir plus de ces balises que les documents classés comme scientifiques. Cela peut s’expliquer par la proportion de fichiers PDF, plus importante dans la partie scientifique du corpus que dans la partie vulgarisée.

Figure 5.6 – Proportion de balisesIMGetPen fonction du score des documents

Le graphique 5.7 représente la proportion de pronoms personnels allocutifs et élocutifs dans le cor- pus. Les documents utilisant des pronoms obtiennent en majorité un score négatif. Les pronoms élocutifs semblent être moins utilisés que les pronoms allocutifs (sauf pour un document). Quelle que soit le type de pronom personnel, si un document classé comme scientifique en utilise, leur quantité sera en moyenne inférieure à celle des documents classés comme vulgarisés.

Le graphique 5.8 présente la proportion de racines gréco-latines dans les documents en fonction de leur score SVM. Cette courbe peut se décomposer en trois parties. Les documents dont le score est inférieur à 0.7 environ contiennent globalement moins de racines gréco-latines. Entre 0.7 et 0 se trouvent les documents contenant le plus de racines, avec des pics à 200 et 300 (valeurs normalisées). Au dessus de 0, les valeurs sont constantes et légèrement supérieures à la première partie de la courbe. Il paraît logique que les documents les plus scientifiques contiennent plus de racines gréco-latines que les autres. Cette courbe ne contredit pas forcément cette hypothèse, elle signifie juste que les document les plus scientifiques selon SVM ne correspondent pas aux valeurs maximales.

Le graphique 5.9 représente l’évolution de la proportion de caractères numériques dans les docu- ments du corpus. Nous constatons tout d’abord que la quantité de caractères numériques est très faible pour les documents obtenant les scores minimaux. Une forte hausse du nombre de caractères numé- riques apparaît entre -0.5 et 0. Cette brusque augmentation correspond en réalité à deux documents

Figure 5.7 – Proportion de pronoms en fonction du score des documents

Figure 5.8 – Proportion de racines gréco-latines en fonction du score des documents

classés comme vulgarisés pour lesquels la proportion est largement supérieure. Ces documents peuvent simplement contenir des tableaux avec beaucoup de quantités numériques par exemple.

Le graphique 5.10 montre l’évolution de la présence de marqueurs des modalités d’opinion, de dé- claration et d’obligation dans les documents du corpus. Nous notons tout d’abord que la quantité de marqueurs de ces modalités est assez faible en général (sauf pour quelques documents dont les scores se situent entre -0.6 et 0). Globalement, la quantité de marqueurs de l’obligation semble être légère- ment supérieure aux autres marqueurs, nous remarquons toutefois que l’évolution des trois modalités semble corrélée. De plus, les marqueurs de ces modalités sont liés à l’utilisation des pronoms personnels allocutifs ou élocutifs, leurs évolutions sont corrélées entre elles, ainsi qu’avec la courbe des pronoms (graphique 5.7).

5.5.3.2 Critères japonais

Le graphique 5.11 présente la proportion de citations bibliographiques dans les documents en fonc- tion de leur scoreSVM. Bien que la proportion soit globalement très faible, nous remarquons que les seuls

Figure 5.9 – Proportion de caractères numériques en fonction du score des documents

Figure 5.10 – Proportion de marqueurs des modalités d’opinion, de déclaration et d’obligation en fonc- tion du score des documents

documents dans lesquels des citations bibliographiques ont été détectées sont classés comme scienti- fiques, ce qui paraît assez logique. Ce critère paraît donc fortement discriminant pour déterminer un sous-ensemble des documents scientifiques.

Le graphique 5.12 illustre l’évolution du nombre normalisé de parenthèses en fonction du score des documents. Cette courbe est très irrégulière, mais nous observons globalement une baisse de l’intervalle

(valeur minimale,valeur maximale). De plus, les documents ayant un score supérieur à 0.6

ont la proportion de parenthèses la plus basse.

À l’inverse, nous remarquons sur le graphique 5.13 que l’utilisation de particules neutres ou polies en fin de phrase semble être caractéristique des documents vulgarisés. En effet, seuls quelques documents scientifiques utilisent des fins de phrases neutres. Les fins de phrases polies semblent être légèrement plus fréquentes en moyenne pour les documents classés comme vulgarisés et elles ne sont jamais utilisés dans les documents scientifiques.

Figure 5.11 – Proportion de citations bibliographiques en fonction du score des documents

Figure 5.12 – Proportion de parenthèses en fonction du score des documents

La courbe 5.14 présente la proportion de phrases narratives, interrogatives et exclamatives dans le corpus. Nous constatons tout d’abord que les phrases narratives sont beaucoup plus fréquentes que les phrases interrogatives. Les phrases exclamatives quant à elles sont quasiment inexistantes. Néanmoins les quelques occurrences de phrases exclamatives (peu visibles sur le graphique) sont, à quelques exceptions près, dans des documents classés comme vulgarisés. Les courbes des deux autres types de phrases sont assez peu discriminantes. Bien qu’ayant chacune une légère tendance à croître ou décroître, les écarts entre deux documents ayant quasiment le même score sont trop élevés pour pouvoir conclure.

La figure 5.15 présente la proportion de marqueurs identifiant les pronoms dans les documents du corpus. Ces marqueurs sont peu fréquents dans les deux cas bien que quelques documents utilisent plus de pronoms allocutifs. Les documents classés comme scientifiques utilisent peu de pronoms élocutifs, seuls ceux obtenant un score proche de zéro en utilisent.

Figure 5.13 – Proportion de fins de phrase polies et neutres en fonction du score des documents

Figure 5.14 – Proportion de phrases narratives, interrogatives et exclamatives en fonction du score des documents

critères n’étant pas présents dans les documents PDF, les courbes ont des formes assez crantées. La proportion de ces balises semble plus faible dans les documents scientifiques, ce qui peut s’expliquer par la proportion de documentsPDFdans la partie scientifique du corpus.

5.5.4

Étude du bruit et du silence générés par les critères sur quelques