Limites de ce corpus

Ce corpus présente un certain nombre de limites qu’il est nécessaire de préciser pour relativiser les observations que nous avons synthétisées précédemment.

4 entretiens sont en partie inexploitables. Cela peut être imputé à plusieurs causes : – Des problèmes d’enregistrements :

– Les enregistrements sont coupés avant la fin ([AL03], [AL11]). – Des retranscriptions partielles ([AL09a]).

– Des verbalisations de l’expert insuffisantes qui ne permettent pas de comprendre le déroulement d’une séquence (fin de [AL01], milieu de [AL09a]).

– Un entretien ne présente aucun dialogue, c’est l’expert qui réalise seul la séquence de recherche. Il s’agit de l’entretien [AL01].

Les autres limites du corpus sont liées à une verbalisation insuffisante de la part de l’expert des requêtes qui sont réalisées. Nous avons référencé un total de 74 requêtes sur l’ensemble des entretiens. Sur ce total, 18 requêtes ne sont pas clairement explicitées. Nous avons pu déduire leur contenu de manière approchée. Ce sont les requêtes que nous qualifions d’“incertaines” ou de “pas sûres”. Il est possible que le véritable contenu de ces requêtes soit légèrement différent de celui que nous avons déduit. En effet, l’expert a pu ajouter un élément sans l’expliciter clairement à l’oral. Leur contenu est cependant exploitable contrairement aux requêtes que nous qualifions d’“inconnues”. Ce sont les requêtes dont le contenu est indéchiffrable depuis les transcriptions, et ce malgré tous nos efforts. Elles sont au nombre de 8. Ces différents éléments sont regroupés dans le tableau 2.15.

Si nous synthétisons, seules 2 séquences de recherche sur 12 sont sans problème. Il s’agit de celles contenues dans les entretiens [AL02] et [AL07]. L’entretien [AL11] ne présente pas de requête incertaine ou inconnue mais est cependant coupé avant le fin. Les séquences de recherche [AL06] et [AL09a] sont cependant difficilement exploitables. Toutes les autres séquences de recherches (i.e. 8) contiennent au moins une requête incertaine.

no Partie de l’entretien inexploitable Requêtes incertaine(s) Requêtes inconnue(s) Nombre total de requêtes 1 × 1 3 2 4 3 × 1 2 4 4 7 5 5 10 6 5 9 7 5 9(a) × 1 3 7 9(b) 1 2 10 3 8 11 × 6 12 2 11 Total 4 18 8 74

Table _{2.15 – Limites du corpus AL}

2.6 Synthèse

Nous avons étudié dans ce document le corpus AL à travers le prisme des éléments retenus lors de l’étude du corpus VD. L’objectif était de voir les éléments qui se trouvaient confortés, confirmés ou infirmés. Nous synthétisons les observations réalisées dans cette partie.

Nous avons vu que les phases de dialogue étaient identiques entre les deux corpus et que le dialogue consiste en une phase d’ouverture, de verbalisation, de construction de la première requête puis d’un cycle lancement de la requête - présentation et évaluation des résultats - réparation de la requête pour terminer sur une phase de clôture. Nous avons vu que la stratégie globale adoptée par l’expert impacte les phases de dialogue. Ainsi, les phases de verbalisations du corpus AL sont sensiblement plus courtes que les phases de verbalisations du corpus VD (cf. 2.1.2). Elles conduisent à un cadrage beaucoup plus flou des besoins en information de l’enquêté qui motivent la recherche. Cela influe sur les phases d’évaluation qui présentent maintenant des demandes de clarifications sur la recherche de l’enquêté. Ces phases d’évaluation sont menées par l’expert qui se fie à son propre jugement (cf. 2.1.3). Il sollicite très peu l’enquêté sur l’adéquation des ressources obtenues. Néanmoins, l’enquêté n’hésite pas à intervenir spontanément pour donner son avis. Nous avons retrouvé les cas particuliers de jugement de l’inadéquation d’une ressource par rapport à la demande de l’enquêté vu dans le corpus VD (cf. 2.1.3). Nous avons détecté un nouveau cas particulier : l’expert est capable de juger un document comme trop général s’il est indexé par un nombre trop important de termes comparés à ceux de la requête. La principale critique de la stratégie globale de l’expert est le risque de déviation par rapport à l’objectif initial (cf. 2.1.3).

Nous avons ensuite considéré les éléments saillants de la phase de recherche. Nous avons confronté la notion d’aspects aux entretiens du corpus AL (cf. 2.2.1). Les aspects des recherches tels que nous les avons extraits ressemblent à des catégories. Nous utilisons ces catégories pour “ranger” les termes de la requête ce qui nous permet de définir des caractéristiques comme le fait qu’une requête soit complète ou pas. En fait, nous avons vu que la sémantique des requêtes est plus compliquée qu’il n’y paraît. L’entretien [AL11] fait apparaître explicitement une relation de causalité entre la tendinite et les caries qu’il est difficile de cerner avec des catégories. Un travail plus approfondi est nécessaire pour répondre à des questions sur les aspects comme : est-ce que la requête est en lien avec la demande de l’enquêté ? est-ce que la requête recouvre entièrement la demande de l’enquêté ? est-ce une relation purement sémantique ou un raisonnement est-il indispensable ? est-ce que les catégories sont une bonne approximation ? et plus généralement comment représenter de manière efficace le fait qu’une requête est un bon candidat pour représenter la demande d’information de l’enquêté ?

Nous avons présenté des exemples démontrant l’existence réelle des aspects. Le rôle des interlocuteurs est de les faire correspondre avec des éléments de la terminologie (cf. 2.2.1). Nous avons exhibé des exemples qui permettent de confirmer l’existence des aspects mineurs et majeurs.

Concernant le terrain commun, l’étude de ce corpus nous a permis de préciser et de confirmer ce que nous avons vu dans la précédente étude. Le terrain commun est constitué de termes proposés par l’un ou l’autre des interlocuteurs (cf. 2.2.2). Ces termes sont issus de sources (verbalisation de l’enquêté, notices des ressources, terminologie, raisonnement de l’enquêté ou de l’expert). La plupart du temps, le processus

de grounding est implicite. Par exemple, les termes extraits de la verbalisation sont supposés partagés entre les interlocuteurs. En effet, ils sont re-proposés sans aucune précaution, démontrant leur appartenance au terrain commun. Nous avons vu que le terrain commun contient également les requêtes elles-mêmes ce qui permet aux interlocuteurs de revenir sur l’une d’elle. Enfin, les liens hiérarchiques entre les termes issus d’un alignement verbalisation/terminologie sont également stockés. Cela permet aux interlocuteurs de généraliser ou préciser une requête en utilisant ces relations.

Nous avons pu constater l’impact de la stratégie globale de l’expert sur les stratégies locales. La tâche des interlocuteurs est de mener collaborativement une séquence de recherche sur CISMeF. L’expert – qui possède la maîtrise de l’outil (CISMeF) mais pas du domaine (la médecine) – apporte son savoir-faire via une stratégie globale. Dans le corpus VD, elle consiste à préciser au maximum la première requête puis de généraliser au fur et à mesure. Dans le corpus AL, c’est l’opposé. On cherche à partir d’une requête vague pour la préciser. La tâche des interlocuteurs consiste donc à modifier successivement les requêtes par rapport aux résultats qu’elles retournent. Nous avons observé dans le corpus VD un ensemble de stratégies locales de modification qui dépendent de :

– du nombre de nouveaux résultats obtenus (0 ou > 0) ;

– de la qualité des résultats obtenus par rapport à la demande de l’enquêté (satisfaisant, partiellement satisfaisant, non satisfaisant) ;

– du lien entre la requête et la demande de l’enquêté via la notion d’aspects qui permet de définir les notions de complétude, généralisabilité, couverture minimale, etc.

Nous avons listé 5 types de stratégies : initiale, précision, précision/reformulation, généralisation, généra- lisation/reformulation.

L’étude du corpus AL nous a permis de constater qu’on retrouvait ces mêmes types de stratégies locales.

La stratégie initiale de l’expert du corpus AL vise à produire une première requête générale contrairement à celle du corpus VD. Nous avons notamment noté une préférence pour les spécialités médicales de la part de l’expert (cf. 2.3.1).

Nous avons observé un faible nombre de stratégies de généralisation (7) qui nous a permis de raffiner les conditions de déclenchement de ce type de stratégie. Nous avons observé l’utilisation opportuniste d’une stratégie de précision dans une stratégie de généralisation. Ces éléments ne remettent pas en cause le modèle mais le complète (cf 2.3.2).

Les stratégies de précision ont été observées en grande quantité : 41 réparations sont de ce type (cf. 2.3.2). Elles sont du même type que celles observées dans le corpus VD : précisions par rapport au profil de l’enquêté, précisions parce qu’un aspect de la recherche n’est pas couvert par la requête, ou reformulation quand un petit nombre de ressources non satisfaisantes est obtenu.

En lien avec les phases de verbalisations courtes, l’expert n’hésite pas à demander des clarifications sur la recherche avant d’entamer la réparation. Nous avons également observé de nouveaux types de précisions par rapport à la hiérarchie terminologique, le mode explosion de CISMeF, et l’initiative mixte associée au terrain commun (cf. 2.3.2).

L’étude du corpus AL a principalement enrichi ou raffiner le précédent modèle. Elle nous a permis de constater l’influence de la stratégie globale de l’expert sur les stratégies locales. Cette influence se manifeste par la répartition en nombre des stratégies de précision et de généralisation. Dans le corpus VD, les stratégies de généralisation sont prépondérantes alors que ce sont les stratégies de précisions qui le sont dans le corpus AL (cf. 2.3.2).

Nous avons souligné que les résultats obtenus par la stratégie globale de l’expert étaient difficile à juger. En effet, seules 4 séquences de recherche sur 12 présentent l’obtention de ressources satisfaisantes. Cependant, l’échec des autres recherches semble dû au fait que CISMeF ne contient pas les ressources pour répondre aux demandes trop vagues des enquêtés (cf. 2.3.3). Les échecs ne semblent donc pas directement imputables à la stratégie de l’expert.

Enfin, nous avons détecté une nouvelle source de termes pour l’expert : il s’agit de l’extraction de termes depuis les notices des ressources obtenues pendant les phases d’évaluation des résultats (cf. 2.4.1). L’alignement verbalisation/terminologie est du même type que dans le corpus VD en ce qui concerne l’alignement direct. Concernant l’alignement indirect, on a pu observer que l’expert préférait utiliser le mode adjacence plein texte.

Au final, nous avons défendu l’idée selon laquelle la tâche décrite est collaborative entre l’expert et l’enquêté, et que l’interaction entre ces deux interlocuteurs est indispensable (cf. 2.4.2). Nous avons souligné l’aspect particulièrement collaboratif et coopératif de l’expert.

Pour finir, nous avons nuancé les résultats obtenus en présentant les différentes limites de ce corpus, notamment en terme d’exploitabilité. Des problèmes techniques et de verbalisation de l’expert nous obligent

à prendre des précautions sur les résultats obtenus. Néanmoins, l’étude de ce corpus conforte clairement les observations effectuées dans le corpus VD.

2.6

Synthèse

Annexe A

Étude du corpus dialogue par dialogue

du corpus VD

A.1

VD001