• Aucun résultat trouvé

5.4 Comparaison du modèle avec les données empiriques

6.2.3 Prise en compte du titre

Modélisation des xations sur le titre

Dans le cas des paragraphes accompagnés d'un titre, celui-ci a un statut par-ticulier et le modèle le traite de manière diérenciée. D'après les observations des données oculomotrices, l'amplitude de la saccade entrant sur le bloc est déterminante. Comme nous pouvons le voir sur la gure6.9, la proportion de saccades arrivant sur le titre est plus importante lorsque l'amplitude de la saccade est faible. Cette courbe est fortement dépendante de la distribution des saccades de transition entre blocs (c'est-à-dire les saccades arrivant sur un bloc, gure 6.10). Cette distribution nous permet également de noter ici un biais du matériel expérimental. En eet, étant don-née la disposition des blocs, il y a moins de saccades d'amplitude d'environ 200 pixels (environ 8 degrés d'angle visuel) que de saccades de 100 pixels et de 300 pixels. Ceci est dû au fait que dans une stratégie de déplacement de titre en titre les distances sont xes et ne sont pas d'environ 200 pixels, mais plutôt de 100 ou 300 pixels (voir gure6.11 page 122). Le pic vers le bas de la gure6.9correspond à un artefact du

Modélisation 121

Figure 6.9  Probabilité d'aller sur le titre lors de la première xation sur le bloc selon l'amplitude de la saccade entrant sur ce bloc.

Figure 6.10  Répartition des saccades entrant sur le bloc selon leur amplitude. matériel que nous n'essaierons pas de modéliser.

Nous avons modélisé globalement le rôle de l'amplitude de la saccade d'une ma-nière simple, en utilisant une loi exponentielle. Une fois le bloc choisi au niveau du parcours inter-blocs, cette loi détermine la probabilité qu'a le modèle d'atterrir sur le titre dépendamment de l'amplitude de la saccade (AmplitudeS). Si l'amplitude de la saccade est importante cette probabilité sera plus faible, mais si l'amplitude de la saccade est plus courte la probabilité d'atteindre le titre sera plus grande. La loi représentant ce phénomène est la suivante :

e(−γ×AmplitudeS) (6.1) avec γ = 0, 3.

Cette courbe, basée sur les données expérimentales (gure 6.9) ne prend pas en compte les amplitudes de saccades au-delà de 600 pixels (24 degrés angulaires) car des saccades de si grandes amplitudes sont très rares. Il en va de même pour les

Figure 6.11  Distance en pixels entre les titres des blocs.

Figure 6.12  Probabilité d'aller sur le titre lors de la seconde xation sur le bloc selon l'amplitude de la saccade entrant sur ce bloc, si le titre n'a pas encore été xé. saccades de très faibles amplitudes inférieures à 50 pixels (2 degrés angulaires) (voir la répartition des saccades arrivant sur un bloc selon leur amplitude gure6.10).

Si le titre n'est pas xé lors de l'arrivée sur le bloc, une seconde probabilité est utilisée pour déterminer si la seconde xation sera sur le titre ou non. À partir des données expérimentales, nous avons observé que cette probabilité ne dépend pas de l'amplitude de la saccade, comme le montre la gure6.12. Nous avons donc xé cette probabilité à 0,5. Ainsi lors de la seconde xation, le titre sera xé une fois sur deux s'il ne l'a pas été lors de la première xation. Enn si le titre n'est toujours pas xé, il ne le sera plus par la suite. En eet, en observant le comportement des participants, nous voyons que les xations sur le titre après plus de deux xations sur le texte sont plus rares (8% des cas).

Lecture du titre

Nous venons de décrire la modélisation de la xation d'un titre, nous allons maintenant décrire la prise en compte du titre comme élément d'information. Un

Modélisation 123 titre a une signication particulière lors d'une recherche d'information. En eet, si celui-ci est en lien avec le thème de la recherche, l'intérêt du paragraphe dont il fait référence augmente. Au contraire, si le titre n'est pas du tout relié au thème de la recherche, la lecture du paragraphe devient inutile. Par exemple si le thème est Faiblesse du dollar, un paragraphe dont le titre est Sports ne paraît pas du tout pertinent, par contre un paragraphe dont le titre est Économie paraît intéressant.

Le modèle prend donc cette similarité en compte en calculant le cosinus LSA entre le thème et le titre lorsque celui est xé. Si ce cosinus est en-dessous d'un certain seuil, le paragraphe n'est pas lu. Le seuil est xé à 0,2. Cette même valeur a également été utilisée dans les chapitres précédents car il est communément admis qu'à partir de ce seuil les similarités entre termes sont jugées comme pertinentes. Ainsi, seuls les paragraphes vraiment éloignés du thème ne sont pas lus.

LSA est connu pour avoir des performances moindres dans le cas de comparaisons entre deux documents courts (deux ou trois mots). Dans notre cas, la similarité entre le thème (deux mots) et le titre (un mot) est moins bien évaluée par LSA. Ainsi la décision de ne pas lire le bloc si la similarité est inférieure à 0,2 peut paraître brutale et entachée d'erreurs. Nous avons tout de même laissé ce seuil à 0,2, ne sachant pas comment  proprement  résoudre ce problème.

Si la similarité entre le titre et le texte était supérieure à ce seuil, celui-ci est pris en compte pour la comparaison entre les mots traités et le thème. An de prendre en compte son importance particulière, son poids est doublé par rapport aux autres mots traités, comme nous le verrons dans l'exemple de trajet page suivante.

Lorsque le modèle quitte un bloc la similarité entre ce bloc et le thème est mé-morisée pour les revisites (comme mentionné dans le chapitre précédent). Si un bloc a été abandonné en raison de sa pertinence pour la recherche, sa similarité avec le thème sert de base au mécanisme de mémoire. Il en est de même si le texte est lu dans son intégralité. Par contre si le bloc est abandonné car non pertinent, sa valeur pour le mécanisme de mémoire est initialisée à 0.

Validation des paramètres

An de valider l'ajustement des probabilités, nous avons observé la répartition des données empiriques et simulées dans les quatre classes de comportements vis à vis du titre. Nous rappelons que ces classes sont : aucune visite sur le titre ; texte xé en premier puis xation sur le titre ; titre xé en premier puis xation sur le texte ; titre xé en premier puis transition vers un autre bloc. Nous obtenons une répartition du modèle proche de celle des données expérimentales à un niveau global, même si les diérences pourraient être moindres (voir gure6.13 page suivante).

Nous allons maintenant décrire un exemple de trajet, avant de passer aux com-paraisons entre les trajets simulés par ce modèle et les trajets empiriques.

Figure 6.13  Répartition globale des paragraphes selon l'utilisation du titre pour les participants et le modèle.