• Aucun résultat trouvé

concept de synthèse d'informa- d'informa-tion

5.2 Méthodologie .1 Introduction.1 Introduction

Les évaluations qualité spéciques à la Recherche d'Information orientée tâche ont été présentées au sein du Chapitre 3. Il s'agit alors de s'intéresser à la qualité logicielle en général, et d'estimer en quelle mesure les notions d'adéquation à la tâche, pertinence situationnelle et pertinence interprétationnelle s'intègrent au sein des problématiques de qualité logicielle qui peuvent s'avérer intéressantes dans le cadre du prototype développé.

Ce problème de qualité logicielle n'est pas récent et a été rapidement identié comme un des facteurs principaux du succès ou de l'échec d'un produit. L'évaluation de cette qualité est donc une thématique qui fait l'objet de nombreux travaux en ingénierie logicielle. Ainsi, [Tian, 2004] propose une revue des divers catégories de modèles et mesures et indique des pistes pour choisir une approche d'évaluation.

De manière schématique, l'évaluation est variable selon la phase du développe-ment et poursuit en général deux buts distincts : évaluation formative en cours de développement pour améliorer le système, évaluation summative à la n du développement pour voir si le système correspond à ce qui est attendu. Dans le contexte présent, c'est-à-dire celui d'un prototype, il est possible de se placer dans ces deux cadres d'évaluation, de manière conjointe. En eet, la notion de prototype sous-tend un logiciel partiel, incomplet, que l'on veut pouvoir améliorer et auquel on veut ajouter des fonctionnalités, ce qui suggère une évaluation formative. D'un autre côté, le prototype a été construit dans un objectif particulier de réalisation et il est intéressant d'estimer si cet objectif a été atteint, par une évaluation summative.

De plus, on peut distinguer d'un part des évaluations quantitatives, basées sur un jeu de mesures numériques objectives (taux d'erreurs, temps de traitement, taux d'acceptation de la technologie etc.) ou subjectives (valeurs attribuées par un panel d'utilisateurs à des mesures de type utilité ou satisfaction) et d'autre part des mesures qualitatives (en général subjectives comme des commentaires d'usagers recueillis lors d'interviews).

Dans ce contexte, an d'estimer quelles évaluations et quelles métriques seraient pertinentes dans le cadre du prototype, une revue rapide de l'état de l'art du domaine va être menée. Cette revue va être réalisée en ce qui concerne l'évaluation logicielle en général, et l'évaluation des sites Web en particulier, ces deux types d'entités étant pertinents pour une application Web. Ensuite seront présentées succinctement les évaluations proposées.

5.2.2 État de l'art

5.2.2.1 Introduction

An de choisir une méthode et des mesures qualité à appliquer au prototype qui a été développé, une revue rapide de quelques pratiques courantes va être menée ici. L'objectif n'est bien sûr pas de mener une analyse exhaustive des notions de qualité et d'évaluation dans un contexte d'ingénierie logicielle, qui se trouve bien en dehors du champ couvert par ma thèse. Il s'agit plutôt de fournir quelques pointeurs et exemples qui permettent de guider le choix d'une méthodologie et la dénition de mesures qui seront appliquées par la suite pour valider le modèle de synthèse par l'intermédiaire d'une évaluation du prototype.

Le système ayant été développé comme une application Web, l'évaluation logicielle en général, et l'évaluation des sites Web en particulier, sont l'une et l'autre d'intérêt, et vont être rapidement évoquées.

5.2.2.2 Évaluation logicielle

En ce qui concerne l'évaluation logicielle, l'ancienneté et la criticité de cette prob-lématique ont conduit à la dénition d'un ensemble de normes ISO1. On peut noter par exemple la norme ISO/IEC 14598 qui est consacrée à la qualité logicielle, mais plutôt d'un point de vue processus de développement, qui n'est pas l'objet d'intérêt ici. Par contre, la norme ISO/IEC 9126 se focalise sur la qualité du logiciel en tant que produit et propose un modèle dans sa première partie, et des métriques dans les parties 2, 3 et 4. La partie 4 est d'un intérêt particulier dans l'évaluation du système d'assistance à la synthèse, étant donné qu'elle se focalise sur la qualité en utilisation. Enn, la norme ISO 9241, consacrée à l'ergonomie logicielle est elle aussi pertinente, étant donné que le système proposé est interactif.

Ces normes proposent en général des modèles qualité et éventuellement dénissent 1http ://www.iso.org

des métriques mais ne proposent pas de guide pratique pour leur application à des projets concrets. Par contre, elles servent de base à un certain nombre de modèles utilisés en milieu industriel ou académique.

Ainsi, [Lee and Lee, 2005] présentent un modèle d'évaluation qualité basé sur les ISO et une méthode de développement pour les systèmes à composants du ministère de la défense sud-coréen pour dénir un ensemble de métriques pratiques classées en catégories de type fonctionnalité, abilité, utilisabilité, ecacité, maintenabilité et portabilité. Dans le même esprit, [Gediga et al., 1999] proposent un questionnaire basé sur la norme ISO 9241-10 pour l'évaluation utilisateur de logiciels, nommé IsoMetrics, qui conduit à une évaluation en termes d'adéquation à la tâche, intu-itivité, contrôlabilité, conformité aux attentes des utilisateurs, tolérance à l'erreur, adéquation à l'individualisation et adéquation à l'apprentissage. On peut aussi citer [Côté et al., 2005], qui introduisent une application réelle de la norme ISO 9126 et d'un modèle qualité développé par un industriel, MITRE Corporation. En partic-ulier ils s'intéressent à la problématique de correspondance entre composantes des deux modèles, en présentant la traduction de l'un à l'autre.

Certains modèles ont en eet été dénis indépendemment des normes ISO, sans pour autant s'en éloigner beaucoup. Ainsi, [Wong, 2003] se base sur une étude quan-titative de ce qui est jugé important en terme de qualité logicielle pour des décideurs an de mettre en place des mesures au sein d'un framework d'évaluation de logiciels. Il obtient un jeu de mesures qu'il classe selon des catégories diérentes (économique, fonctionnel, institutionnel, opérationnel, technique, usabilité) mais qui sur le fond sont similaires à celles dénies dans les normes ISO.

5.2.2.3 Évaluation de sites Web

Dans le contexte du Web, les métriques proposées pour les logiciels en général ne sont pas forcément adaptées, et d'autres points de vue s'avèrent d'intérêt. Ainsi, [Reix, 2003], après avoir replacé l'évaluation des sites entre problématiques qualité d'interface Homme/Machine et théorie de la satisfaction du consommateur propose d'aller vers une perspective interactionniste, sans forcément proposer de métriques. Dans une autre direction, [Cohen and Casanova, 2001] introduisent une grille d'-analyse des sites Web basée sur des considérations cognitives, par interprétation des phénomènes visuels, conduisant à une catégorisation entre indicateurs perceptifs, in-dicateurs graphiques et inin-dicateurs d'orientation, très proches de la forme des pages. Ces contingences basées sur la forme sont aussi utilisées par [Ivory et al., 2001], qui montrent que des mesures page par page basées sur des éléments de forme permet-tent de prévoir une évaluation qualité par un expert pour un site Web, permettant ainsi la dénition d'un prol pour de bonnes pages.

Mais l'évaluation des sites Web dépasse en général les simples éléments de forme et se base aussi sur des questionnaires incluant d'autres considérations. Ainsi, [Olsina et al., 2001] introduisent la méthodologie QEM, qui catégorise les probléma-tiques en utilisabilité, fonctionnalité, abilité du site, ecacité. [Mich et al., 2003] proposent le modèle 2QCV3Q, qui permet une évaluation de site Web du point de vue auteur et utilisateur selon un ensemble de directions : Quis (identication et caractérisation), Quid (couverture et exactitude), Cur (fonctionnalités, contrôle), Ubi (accessibilité, interactivité), Quando (actualité, maintenance), Quomodo (ac-cessibilité, navigabilité, compréhensibilité), Quibus Auxiliis (ressources, technologies de l'information et de la communication).

Enn [Tullis and Steton, 2004] présentent une comparaison de questionnaires classiques pour des études utilisateur sur des sites Web, fournissant ainsi un panel d'exemples qui peuvent s'avérer d'intérêt.

5.2.2.4 Des tendances générales pour l'évaluation

Les quelques exemples de méthodes et métriques d'évaluation qualité présentés ici permettent de dégager quelques tendances.

En ce qui concerne les logiciels en général, on peut noter deux grandes catégories de métriques : celles liées à l'artefact logiciel en tant que tel, proposant une évaluation de son développement, de sa maintenabilité et de son évolutivité, et celles liées à l'usage qui en est fait, apportant un point de vue utilisateur.

Au niveau des sites Web, ces métriques se déclinent entre fond (qualité et ac-tualité des informations présentées), forme (rendu des pages) et usage (navigation, recherche, utilisabilité, etc.).

L'étape suivant est donc de déterminer quelles catégories de métriques sont per-tinentes pour évaluer le prototype développé au cours de ma thèse.

5.2.3 Méthodes choisies

Dans le contexte d'un prototype de système d'assistance à la synthèse dédié au domaine applicatif des Tissue MicroArrays, il s'agit alors d'estimer quelles métriques courantes en évaluation logicielle seraient pertinentes, tout en prenant en compte les contingences qualité qui ont été évoquées au sein du modèle de synthèse. Cette no-tion de pertinence des métriques est liée à l'objectif de l'évaluano-tion. Il s'agit donc de garder à l'esprit que le logiciel testé est un prototype qui se veut une opérationnal-isation d'un modèle, où c'est le modèle qu'il faut valider. Ce point de vue permet

d'écarter certains types des métriques ou d'en restreindre d'autres, pour proposer un jeu d'évaluations pertinent dans l'objectif recherché.

En ce qui concerne l'évaluation logicielle en général, la majorité des métriques liées à l'objet logiciel sont peu pertinentes. En eet, la qualité du processus de développement, les besoins en maintenance et évolutivité, ne sont pas des éléments critiques dans le cadre d'un prototype visant à valider des propositions conceptuelles. Par contre, des mesures de performance peuvent s'avérer intéressantes : en eet, s'ils sont confrontés à un système à la réactivité faible et produisant beaucoup d'erreurs, les utilisateurs potentiels peuvent juger qu'il est inutile d'aller plus loin dans le développement.

D'un point de vue évaluation de sites Web, la qualité du fond, souvent assimilée à la qualité de l'information, n'est pas vraiment pertinente, car les documents de synthèse ne constituent pas de vraies pages et la qualité des résultats dépend plutôt de la qualité du corpus documentaire, problème situé en amont du système de synthèse. La forme, quand elle concerne des aspects de couleurs ou fontes, n'est pas non plus d'un intérêt majeur.

Enn, en ce qui concerne les mesures évoquées dans le cadre du modèle de synthèse, la pertinence situationnelle, en tant que mesure objective, est dicile à dénir et ne sera pas abordée plus avant que les pistes de dénition évoquées Paragraphe 3.4.4.2.

Par contre, les points de vue usage de l'évaluation logicielle et de l'évaluation de sites Web semblent tout à fait en adéquation avec la problématique de validation du modèle. De plus, les dimensions adéquation, complétude, expressivité, extensibilité et navigabilité de l'adéquation à la tâche du modèle de synthèse, et les dimen-sions intuitivité, informativité, utilité, suggestivité et navigabilité de la pertinence interprétationnelle peuvent chacune être considérée comme une dimension des axes d'évaluation courants en ce qui concerne l'évaluation de l'usage.

Cette évaluation de l'usage peut être appréhendée selon plusieurs axes.

Dans un premier temps, l'évaluation de l'usage implique des considérations con-cernant les fonctionnalités proposées, d'un point de vue système. Il s'agit alors de considérations de type diagnostic : le système propose-t-il des fonctionnalités aux résultats correspondant à ce qui était prévu ? Une telle évaluation peut être réalisée par l'intermédiaire d'études de cas, qui consistent, dans le contexte du prototype de système d'assistance à la synthèse, en une analyse détaillée de quelques exemples d'études menées avec le système.

Dans un second temps, l'évaluation de l'usage induit de s'intéresser au point de vue des usagers potentiels du système. Une telle problématique suggère de mener une étude utilisateurs, basée sur un questionnaire et des interviews réalisés auprès d'un

panel représentatif d'utilisateurs après une session avec le prototype. Le question-naire, organisant des questions selon les divers axes d'évaluation identiés précédem-ment, permet de collecter des données quantitatives, tandis que les interviews four-nissent des informations qualitatives. L'ensemble permet d'avoir un point de vue subjectif sur le système.

Au cours des tests utilisateur, des mesures de performances peuvent être réalisées, qui donnent un aperçu tout à la fois sur les éventuels problèmes du système et les dicultés rencontrées par les usagers.

La suite de ce chapitre va présenter ces études de cas et étude utilisateurs.

5.3 Études de cas