• Aucun résultat trouvé

2. Méthodologie de conception d’outil

2.1. Les modèles

La situation de recherche dans laquelle nous évoluons nous amène à définir de nouvelles pratiques à assister, comme l’interprétation collective de documents numériques. Cette pratique peut être analysée à l’aide de concepts issus des SHS ou des Sciences et Technologies de l’Information et de la Communication. De ce fait, un processus de conception classique en informatique fondé sur une analyse des besoins, ou sur une analyse de l’activité existante, pour en déduire des primitives de conception, n’est pas adapté. « La recherche en informatique a donc ici un rôle fondamental, celui d’inventer de nouveaux possibles » (Tchounikine, 2002b, p. 207).

Dans ce contexte, nous proposons de recourir aux théories qui permettent de fournir une description, d’expliquer, de donner une idée générale du comportement d’un utilisateur, de fournir un cadre d’analyse (c'est-à-dire de fournir un outil de haut niveau conceptuel pour identifier des problèmes et modéliser certains types d’interaction), de fournir un langage commun (un ensemble de concept simple à utiliser pour discuter d’une conception), ou encore de générer des dimensions de conception et des représentations interactives. B. Shneiderman (2002 cité dans Rogers, 2004) souligne qu’il existe au moins cinq types de théories utilisables dans le cadre de la définition de systèmes d’Interaction Homme-Machine :

• descriptive : au sens où la théorie fournit des concepts, qu’elle clarifie une terminologie et guide des recherches à venir ;

17

• prédictive : c’est à dire qui permet de prévoir des performances des utilisateurs

• prescriptive : qui fournit un guide pour la conception

• générative : au sens où la théorie permet aux domaines appliqués de créer.

Ces théories peuvent permettre de fournir des « intuitions » pour produire des modèles de l’activité qui peuvent être utilisés à différentes fins :

• modèle informatif : fournit des résultats de recherche utiles ;

• modèle prédictif : fournit des outils pour modéliser les comportements d’utilisateurs ;

• modèle prescriptif : fournit des indications et des conseils sur la façon de concevoir ou d’évaluer un système.

Le modèle est un objet interdisciplinaire. Dans cette pluridisciplinarité d’utilisation, J L. Le Moigne (2004) reconnaît deux options épistémologiques de validation du modèle dues à une conception « ontologique » (donnée) ou une conception « phénoménologique » (construite) du modèle. La première conception est légitimée par « la réalité présumée objectivement observable ou expérimentable de ces faits » (Le Moigne, 2004, p. 3) (réalité présumée indépendante de l'observateur qui les décrit) et la seconde par « la modélisation artificielle puisque le modèle n'est plus tenu pour donné par la réalité, mais construit intentionnellement, à partir de l’un des points de vue possibles du phénomène, à l'aide d'artefacts symboliques, par un modélisateur » conscient (Le Moigne, 2004, p. 3). Dans la mesure où l’on peut aussi bien tenir pour construits des modèles de faits initialement tenus pour donnés, J - L. Le Moigne (Le Moigne, 2004) se penche sur le glissement réducteur du terme modèle au terme modélisation depuis ces vingt dernières années où modélisation représente plutôt un patron taillé pour de la programmation à fin de simulation qui permet de rendre pensable l’interdisciplinarité. Dans le champ de la conception des Environnements Informatiques pour l’Apprentissage Humain (EIAH), M. Baker (2000) et P. Tchounikine (2002a) mènent une réflexion où ils distinguent les modèles comme outil scientifique, utilisés pour comprendre ou prédire une situation, des modèles pour la conception de systèmes, qui traduisent les premiers en modèle permettant l’implémentation de systèmes supports à l’activité.

(Lewkowicz et al., 2006) font remarquer que « les théories issues des Sciences Humaines habituellement mobilisées lors de la conception de collecticiels (théorie de l’activité, théorie de l’apprentissage, théorie de l’agir communicationnel, …) sont difficiles à exploiter telles quelles pour en déduire des primitives de conception » (p. 297). De même, il

18 est difficile de « transposer leurs définitions dans un cadre médiatisé par un système informatique » (p. 297). Le travail de conception consiste alors à mettre en place de nouveaux modèles, définissant les éléments du système, suivant une théorie qui décrit l’activité existante. La théorie permet ensuite d’analyser les traces ainsi mémorisées.

Nous suivons ce positionnement méthodologique et adoptons la démarche suivante, illustrée en figure 1 (Lewkowicz et al., 2006). Ainsi, dans le cadre d’une théorie en Sciences Humaines adaptée aux phénomènes que l’on souhaite assister/observer, nous proposons un modèle de description de l’annotation en tant que production de discours. Ce modèle permet d’opérationnaliser la théorie et sert de base de réflexion à la définition de fonctionnalités d’un système qui soutiendrait l’activité médiatisée. Cette réflexion conduit à un modèle de l’activité instrumentée. Ce modèle de l’activité instrumentée est ensuite matérialisé dans un modèle de conception d’outil. Le collecticiel développé permet d’assister les interactions entre les utilisateurs et peut également être un moyen de recueil de corpus. Le corpus, analysé à l’aide de la théorie mobilisée permet alors de valider ou revoir la théorie mobilisée et ainsi de faire évoluer notre compréhension de l’activité observée.

THEORIE

Elaborée pour interpréter des phénomènes, sans v isée

prescriptiv e

MODELE DE DESCRIPTION Outil scientif ique pour mieux comprendre ou dév elopper un

aspect de la théorie Permet de décrire, de simuler, d'analy ser l'activ ité coopérativ e

MODELE DE L'ACTIVITE INSTRUMENTEE Permet de décrire l’activ ité

médiatisée à l’aide de l’artef act, permet de simuler

l’usage de l’artef act MODELE DE CONCEPTION

Permet de produire un outil qui assiste et trace les

interactions C on ce pt io n de l’a ct iv ité m éd ia tis ée Opérationnalisation Conception de l’artef act A na ly se d es t ra ce s

19 Les modèles de description de l’activité et de l’activité instrumentée proposent une représentation a priori du support possible de l’activité. Afin de relier cette modélisation a priori et technocentrée à une représentation effective d’une activité humaine, nous proposons, dans le cadre de notre terrain, de constituer une collection des productions des collaborateurs au cours du projet. Cette collection de documents sera utilisée comme corpus d’analyse et comme ressource.

2.2. Le corpus

Le corpus est un objet remis à la mode, déjà largement défini et utilisé en Sciences Humaines et Sociales. Son renouveau s’est fondé sur des oppositions voire des contradictions liées à ses utilisations. Les principales différences s’établissent entre des genres de corpus, des analyses quantitative ou qualitative, une linguistique sur corpus et de corpus menant à des techniques d’interprétations différentes.

2.2.1. Le corpus : un genre

La constitution du corpus est une question centrale en linguistique de la parole (par opposition à langue et une linguistique hors corpus) depuis de nombreuses années. La construction du corpus, sur la base d’une validation empirique et d’une procédure explicite, était perçue comme une donnée scientifique permettant d’élargir la continuité du social vers les phénomènes langagiers (Guilhaumou, 2002). En analyse de discours par exemple, elle fait ses débuts dans les années 70. On définit ainsi généralement des :

• Corpus de référence, très étendus de manière à pouvoir servir de base représentative des variétés de la langue pour la construction de grammaires, de dictionnaires, etc.

• Corpus spécialisés, limités à une situation de communication, ou à un domaine. On parle aujourd’hui souvent de corpus électroniques, mais B. Habert, A. Nazarenko et A. Salem (1997- p. 145) soulignent à juste titre que « la simple existence sur support électronique ne fait pas d'un ensemble de textes un corpus électronique. Encore faut-il que ce document obéisse à des conventions de représentation, de codage répandues, voire consensuelles, qui permettent la transmission et la réutilisation des données textuelles en cause. »

20 D. Mayaffre (2006) raffine ces types de corpus en reconnaissant des genres de corpus plus fins définis selon leurs utilisations suivant des champs d’étude spécifiques. Il définit donc des :

• Corpus phrastiques de grammairiens ou de syntacticiens (recueil d’exemples non pas attestés mais forgés, non pas trouvés mais controuvés).

• Corpus lexicographiques ou sacs de mots (recueil de l'ensemble du dictionnaire) dont la grande spécificité et l'incroyable avantage est de pouvoir prétendre à l'exhaustivité. Ce sont donc des corpus clos mais aussi des corpus finis.

• Corpus textuels qui ne peuvent aspirer ni à l'exhaustivité ni même à la représentativité et qui concentrent toujours des données attestées puisqu'on ne saurait fabriquer artificiellement un texte pour prétendre en appréhender le sens.

En effet, c’est au début des années 80 que la notion de corpus naturel (Guilhaumou, 2002) ou corpus attesté prend son essor, largement représenté par les corpus textuels. Ce naturalisme « révoque le corpus clos préféré dans des corpus phrastiques […], remet en cause la confrontation entre le corpus et le hors-corpus, […] refuse enfin la présentation référentielle des conditions de production, au profit d’une description de la réflexivité du discours » (Guilhaumou, 2002, p. 2). La propriété réflexive de la langue est celle qui consiste en l’analyse de la langue par la langue ; la langue s’analyse par ses propres termes.

Cette caractéristique naturelle du corpus est un des critères de qualité chez C. Plantin ((2005) cité dans (Atifi et al., 2006)). Pour ce dernier, le corpus doit manifester les trois dimensions suivantes :

• Technique : il faut réaliser des corpus de bonne qualité technique sonore et visuelle pour faciliter leur conservation, leur transcription et leur exploitation manuelle ou informatique ;

• Juridique : il faut réaliser des corpus qui respectent la vie privée des personnes enregistrées (accord préalable des enquêtés, anonymisation des données), le droit d’auteur (entre collecteurs, transcripteurs et chercheurs) et le recueil et la diffusion de données (préparation et mise en place de l’enregistrement) ;

• Sociolinguistique : il faut réaliser des corpus décrits souvent dans la littérature comme naturels, authentiques et représentatifs (dans le sens évoqué ci-dessus).

21 Dans le cadre de la représentativité du corpus, J. Sinclair préconise la typicalité du corpus. Ce qui est nouveau, surreprésenté dans un laps de temps court n’est souvent que peu représentatif (Sinclair, 1991). Des textes atypiques peuvent donc être inclus dans un corpus, mais le corpus devrait être complété par des textes plus neutres. Cependant, la typicalité est difficile à définir. Quel est le degré de typicalité dans un corpus dédié à une analyse de la néologie ? Dans le cadre des annotations, quelle forme, quel style a une annotation stéréo- ou proto- typique? Quel contexte de référence est le plus favorable à une annotation prototypique? Ces questions doivent être posées afin de recueillir un corpus pertinent où le corpus amènera des réponses.

2.2.2. Exhaustivité ou pertinence ?

Jusqu’aux années 70, le corpus défini comme « un ensemble déterminé de textes sur lesquels on applique une méthode définie » ((Dubois, 1969), cité dans (Guilhaumou, 2002)) est adopté. Cette définition implique une neutralisation de l’effet discursif comme vu dans la linguistique de Harris et sa présentation dans Discours analysis (Harris, 1952). À la suite de la préférence pour les données naturelles sur des données construites, l’analyse du discours et la constitution de corpus prennent la forme d’une approche sociolinguistique.

La lexicométrie qui quantifie les faits langagiers apparaît au cours des années 1970 et ouvre la voie à la linguistique de corpus. Selon, B. Habert (2000), en linguistique de corpus, un corpus est « une collection de données langagières qui sont sélectionnées et organisées selon des critères linguistiques et extra - linguistiques explicites pour servir d’échantillon d’emplois déterminés d’une langue ». Il reprend en cela la définition désormais classique de J. Sinclair ((1996), cité dans (Habert, 2000)) « A corpus is a collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language.7 » Cette définition représente à la fois la démarche descriptive et interprétative de la linguistique de corpus et son intérêt quantitatif, gage de sa représentativité par l’exhaustivité. L’explosion de la numérisation des ressources textuelles dans les années 90 a permis la constitution d’une nouvelle étape de la longue histoire entre linguistique et corpus puisqu’elle a permis le recueil de très grand corpus attesté. La linguistique de corpus a pour objectifs la constitution et la mise à disposition de ressources, et leur confrontation par la communauté des linguistes (Pery-Woodley, 2005). Le temps du

7 Un corpus est une collection de fragments de langage sélectionnés et ordonnés selon des critères linguistiques explicites afin d’être utilisé comme échantillon du langage. (Traduction personnelle)

22 corpus limité, clos, est ici révolu. Le linguiste finit en effet par concentrer son attention sur l’enrichissement des corpus, via les banques de données, l’accroissement de leur taille et l’amélioration des accès aux corpus.

A. Condamines (2005) souligne cependant que le problème de la représentativité n’est pas nécessairement articulé à une ambition de généralisation et que le chercheur dégage seulement ce qui est propre au corpus étudié, ce qui en est un phénomène récurrent. En linguistique interactionnelle, H. Atifi et C. Lejeune (2006) expliquent que l’analyse ne se limite pas au contenu, et le chercheur prend également en considération le niveau formel, à travers la structure et l’organisation des interactions. L’unité d’analyse sera, en fonction du niveau de granularité, la conversation, la séquence, l’échange, l’intervention ou l’acte de langage.

Il est donc important de tenir compte de l’exhaustivité d’un corpus par rapport à un contexte d’analyse bien défini pour permettre une représentation quantitative des données, ainsi que de la pertinence et de la fiabilité de ce corpus pour permettre une représentation qualitative fine. Un corpus spécialisé exhaustif extrait d’un corpus de référence large doit permettre une analyse complexe. Reste à définir le type d’analyse possible à effectuer sur un corpus.

2.2.3. L’interprétation du corpus

La réflexivité du discours a ouvert la voie au corpus réflexif sous la forme du très grand corpus où texte et contexte se retrouvent dans un même espace construit. Le corpus donne alors lieu à une interprétation, « un geste de lecture de facture herméneutique » (Guilhaumou, 2002, p. 7) fondé sur les capacités réflexives, donc interprétatives. D. Mayaffre développe d’ailleurs une herméneutique numérique (Mayaffre, 2002), dans le cadre de l’analyse de textes assistée par ordinateur (ADT, Salem, 1986) principalement fondé sur des analyses lexicométriques statistiques. Dans la veine saussurienne, il considère le texte (et ce qui va avec le texte, le con-texte) comme « l’unité fondamentale d’une linguistique aboutie » d’où naît le sens. Dans un contexte de linguistique de corpus, F. Rastier considère donc que : « Le texte est pour une linguistique évoluée l'unité minimale, et le corpus l'ensemble dans lequel cette unité prend son sens » (Rastier, 2005, p. 31).

Cette double incidence du texte est celle qui guide l’interprétation en linguistique de / sur corpus. G. Williams (2005) distingue ainsi les études corpus-based (basées sur le corpus) et les études corpus-driven (guidée par le corpus). Le positionnement est simple, soit le