Écart nombre de clics - Résultats quantitatifs

5. ÉVALUATION

5.5. Résultats de l’expérience

5.5.2. Résultats quantitatifs

5.5.2.4. Écart nombre de clics

Pour consulter les valeurs récoltées durant les expériences, se référer au tableau correspondant qui présente tout le détail des valeurs obtenues (Annexe 21). Les valeurs présentées ci-après (Tableau 8) sont des valeurs moyennes (écart du nombre de clics

66 moyen Nd nécessaire aux participants, entre la première et la seconde utilisation des systèmes).

Système Moyenne de la 1^ère utilisation Moyenne de la 2^ème utilisation Écart nd en mm:ss

BabelDr 3,28 3,27 -0,01

MediBabble 5,54 6,25 +0,71

Tableau 8 : Moyennes de l’écart du nombre de clics (Nd) entre la première et la seconde utilisation, par système

À nouveau, on observe un écart minime du nombre de clics (Nd) entre la première et la seconde utilisation de BabelDr (Nd = 0,01 clic de moins lors de la deuxième utilisation) alors que la valeur est plus significative pour MediBabble (Nd = 0,71 clic de plus lors de la seconde utilisation), ce qui confirme les hypothèses énoncées plus haut (voir 5.5.2.3.) : les valeurs restent stables pour BabelDr, alors qu’elles indiquent l’absence d’apprentissage entre la première et la seconde utilisation de MediBabble. Rappelons toutefois qu’un petit tutoriel d’aide est proposé pour MediBabble, contrairement { BabelDr.

67 5.5.3. Résultats qualitatifs : questionnaires

Les résultats qualitatifs concernent les métriques dites subjectives (voir Section 5.3.3.3.2.) suivantes :

a) facilité d’utilisation (« usability »)/opérabilité (« operability ») :

 Réponses des participants aux questions contenues dans les questionnaires relatives à la facilité d’utilisation/à l’opérabilité des systèmes : Q1/Q2-q1, -q3, -q4, -q5, -q6, -q7, -q8 + Q3/Q4-q8, -q9³⁵.

b) facilité d’apprentissage (« learnability ») :

 Réponses des participants aux questions contenues dans les questionnaires relatives à la facilité d’apprentissage : Q3/Q4-q1, -q2, -q3, -q4, -q5, -q6, -q7.

c) interface (« user interface aesthetics »)



Réponses des participants aux questions contenues dans les questionnaires relatives à l’interface des systèmes : Q1/Q2-q2, -q10.

L’échelle adoptée dans les questionnaires et tableaux correspondants à cette section (voir Annexe 15 à 18 pour plus de détails) est la suivante :

1 = pas du tout d’accord 2 = pas vraiment d’accord 3 = ni d’accord, ni pas d’accord 4 = d’accord

5 = entièrement d’accord 0 = sans réponse

Si l’on en croit les résultats présentés ci-après (Tableau 9), BabelDr obtient globalement de meilleurs scores que MediBabble : moyenne des deux utilisations de 4,19 pour BabelDr et de 3,62 pour MediBabble (sur une note maximale de 5).

Nous allons nous intéresser à présent à différents paramètres en lien avec les métriques mentionnées ci-dessus, relativement { l’un ou l’autre des systèmes, ou aux deux.

35 Dans cette section, « Q » = questionnaire (1, 2, 3 ou 4) et « q » = question (numéro de la question), voir Annexes 15 à 18.

Tableau 9 : Résumé des moyennes obtenues pour BabelDr et MediBabble par question (questionnaires pour les participants)

Tous les participants étaient d’accord pour dire que les interactions simulées dans le cadre de ces expériences manquaient de naturel (en raison notamment du scénario qui a été choisi, en particulier la sélection des mots-clés donnés aux médecins et le manque de cohérence d’une question { l’autre³⁶) et que l’utilisation des systèmes de traduction automatique enlevaient une grande part d’humanité aux interactions entre le médecin et le patient. Ainsi, à la question « J’ai pu poser mes questions au/{ la patient-e de manière naturelle. » [Q1/Q2-q6], les moyennes obtenues étaient respectivement de 3,4 pour BabelDr et de 2,3 pour MediBabble (sur une note maximale de 5, ce qui représente des scores assez bas) (voir Annexes 15 et 16).

Un grand nombre de participants se sont sentis parfois limités quant à la rigidité des questions qu’ils avaient { disposition ; autrement dit, les deux systèmes ne leur permettaient pas de poser leurs questions de manière aussi précise qu’ils le souhaitaient. Qu’il s’agisse des formes canoniques auxquelles les questions posées par les médecins sont ramenées pour BabelDr ou des questions contenues dans les listes pour MediBabble, les participants avaient parfois l’impression d’être contraints dans la manière de poser leurs questions et, par conséquent, que celles-ci manquaient de

36 Cependant, comme il a été expliqué au préalable, la sélection des mots-clés donnés aux médecins s’est faite dans une logique d’exhaustivité de l’échantillonnage de questions proposées, plutôt que dans une logique permettant d’établir un diagnostic.

69 précision (ce qui peut être gênant lors de l’établissement d’un diagnostic). Par ailleurs, les deux systèmes ont obtenu des notes assez basses en réponse aux questions « J’ai pu poser mes questions au/à la patient-e de manière naturelle. » [Q1/Q2-q7] (3,4 pour BabelDr et 2,3 pour MediBabble sur une note maximale de 5) et « Le système permet une certaine liberté dans la formulation des questions. » [Q1/Q2-q8] (3,3 pour BabelDr et 2,5 pour MediBabble sur une note maximale de 5) (voir Annexes 15 et 16).

Plusieurs personnes ont également déclaré avoir apprécié la simplicité d’utilisation de BabelDr, ainsi que son interface (plus claire/lumineuse que celle de MediBabble) ; BabelDr a obtenu des notes significativement meilleures que MediBabble (moyennes de 4,7 contre 4, respectivement, sur une note maximale de 5) en réponse { l’affirmation

« L’interface de ce système m’a plu. » [Q1/Q2-q2] (voir Annexes 15 et 16).

Par rapport à l’utilité de la reconnaissance vocale, certaines personnes ont trouvé qu’elle permettait une prise en main du système plus rapide et plus aisée que de devoir chercher dans des listes de questions, mais ce n’était pas le cas pour tous les participants ; BabelDr a par ailleurs obtenu des notes sensiblement meilleures que MediBabble à la question « J’ai eu l’impression de bien maîtriser le système. » [Q1/Q2-q3] posée lors de la première utilisation des systèmes (moyennes de 3,8 et de 3,4 respectivement, sur une note maximale de 5) (voir Annexes 15 et 16), ce qui rejoint les données concernant la facilité d’apprentissage (« learnability »). BabelDr a par ailleurs également obtenu de meilleures notes que MediBabble en réponse à la question « Le système était pratique à utiliser. » [Q1/Q2-q4] (moyennes de 4,4 et de 3,8 respectivement, sur une note maximale de 5) (voir Annexes 15 et 16). La quasi-totalité des participants s’accordaient en revanche { dire que la reconnaissance vocale contribuait à rendre l’interaction plus humaine, notamment parce qu’elle permettait de garder un meilleur contact visuel avec le patient que l’utilisation de MediBabble sur l’iPad. Toutefois, lorsqu’elle ne fonctionnait pas correctement et que le médecin devait s’y prendre { plusieurs reprises pour parvenir { poser sa question, elle a également été synonyme de frustration. Durant l’ensemble des expériences qui ont été réalisées avec BabelDr, la technologie de la reconnaissance vocale a fonctionné dans 65,6 % des cas (voir Tableau 10). Deux occurrences ont posé passablement de problèmes aux participants avec la reconnaissance vocale, les questions portant sur l’hépatite et sur la pancréatite (voir mots-clés dans la Section 5.4.3.). Un participant sur les dix a essayé d’utiliser des « raccourcis » (c’est-à-dire des mots-clés au lieu de faire des phrases

70 complètes), mais il s’est vite rendu compte que cela ne fonctionnait pas ; toutefois, nous garderons en tête que cet élément joue un rôle, aussi infime soit-il, dans le score de performance obtenu pour la reconnaissance vocale. Plusieurs participants ont exprimé leur souhait de voir la technologie de la reconnaissance vocale améliorée avec BabelDr et certains participants qui avaient indiqué préférer MediBabble entre les deux systèmes ont dit que si la reconnaissance vocale était améliorée avec BabelDr, leur préférence se porterait sur ce dernier.

Il convient de revenir sur un point qui a posé problème durant l’étude expérimentale, mais dont nous nous sommes rendue compte seulement a posteriori : malgré les instructions qui avaient été données aux participants lors de la diffusion de l’annonce visant à trouver des personnes disposées à participer à l’étude, les instructions données par écrit dans le formulaire de consentement et les indications données oralement aux participants au début de l’expérience, plusieurs personnes ont perdu de vue le fait que le patient souffrait de douleurs abdominales et ont rencontré des problèmes au moment de demander au patient s’il souffrait (aussi) de maux de tête. Ainsi, au lieu d’accepter la forme canonique « Avez-vous aussi mal à la tête ? », certains participants l’ont rejetée (alors qu’elle était correcte), influençant de manière négative les performances de la reconnaissance vocale.

Participant

Score : nombre de tentatives fructueuses/nombre total de tentatives pour les 20 actions

Score en pourcentage

Student1 - -

Student2 - -

Student3 18/25 72%

Student4 20/36 55,6%

Student5 23/33 69,7%

Student6 23/30 76,7%

Student7 21/29 72,4%

Student8 21/29 72,4%

Student9 21/42 50%

Student10 22/34 64,7%

Student11 23/28 82,1%

Student12 20/37 54%

Total RV 212/323 65,6%

Tableau 10 : Performances de la reconnaissance vocale et compréhension des formes canoniques avec BabelDr, pour les deux sessions d’utilisation du système

71 Concernant la facilité d’apprentissage (« learnability »), comme nous l’avons vu, les progrès réalisés (en temps et en nombre de clics, voir Sections 5.5.2.3. et 5.5.2.4.) sont donc moins significatifs entre la première et la deuxième session avec BabelDr qu’avec MediBabble, parce que les participants étaient déjà relativement rapides et efficaces lors de la première utilisation de BabelDr ; cependant, les participants ont mis significativement plus de temps/clics avec MediBabble. Ces tendances sont reflétées dans les réponses données à la question « Il m’était beaucoup plus facile d’utiliser le système lors de la deuxième utilisation que lors de la première. » [Q3/Q4-q1] (voir Annexes 17 et 18) (BabelDr a obtenu le score de 4,1 et MediBabble de 3,5, sur une note maximale de 5). Plusieurs participants ont par ailleurs exprimé leur désaccord avec l’affirmation « Il m’était beaucoup plus rapide d’utiliser le système lors de la deuxième utilisation que lors de la première. » [Q3/Q4-q2] (voir Annexes 17 et 18) pour MediBabble (ce qui n’a pas été le cas pour BabelDr). Dans la même idée, plusieurs personnes ont exprimé leur désaccord avec l’affirmation « J’ai eu l’impression de bien maîtriser le système. » [Q3/Q4-q9] lors de la seconde utilisation de MediBabble (Voir Annexes 17 et 18).

Comme mentionné, MediBabble propose un menu d’aide (un bref tutoriel) pour utiliser l’application, alors que pour BabelDr, seules les instructions affichées dans les cases au départ indiquent comment utiliser le système. De manière générale, je pense que l’on peut dire que l’utilisation des deux systèmes est relativement simple ; la quasi-totalité des participants se sont déclarés « entièrement d’accord » ou « d’accord » avec l’affirmation « Le système était facile à utiliser. » [Q1/Q2-q1] lors de la première utilisation des systèmes (voir Annexes 15 et 16). En effet, BabelDr a obtenu le score de 4,7 et MediBabble de 4,4, (sur une note maximale de 5). L’utilisation des systèmes est donc assez intuitive une fois que l’on a compris de quelle manière chercher l’information. De plus, plusieurs participants ont déclaré que s’ils disposaient de plus de temps pour apprivoiser les systèmes et leur fonctionnement respectif, ils s’habitueraient vite aux systèmes et parviendraient à les utiliser de manière optimale assez rapidement.

En effet, la quasi-totalité des réponses étaient en accord avec les affirmations « Je pense qu’il est facile d’apprendre { utiliser un tel système. » [Q3/Q4-q5] et « Je pense qu’il est rapide d’apprendre { utiliser un tel système. » [Q3/Q4-q6] (Annexes 17 et 18), en particulier pour BabelDr, car les réponses concernant MediBabble ont reflété légèrement plus de réserve.

72 5.5.4. Commentaires des participants et discussion

5.5.4.1. Commentaires des médecins (questions ouvertes)

Dans le tableau (Annexe 19) dans lequel sont reportés les commentaires et réponses des participants aux questions qui leur étaient posées dans le questionnaire contenant les questions ouvertes, on trouve notamment le système que les participants ont préféré, les raisons qui ont motivé ce choix, des suggestions d’amélioration pour l’un ou l’autre (ou les deux) système(s), ainsi que la manière de poser les questions qu’ils ont préférée (reconnaissance vocale pour BabelDr ou recherche dans des listes de questions/{ l’aide de mots-clés pour MediBabble) et les raisons qui motivent leurs propos.

D’un point de vue général, sur les dix personnes qui ont pris part { l’expérience dans le rôle du médecin, six ont préféré BabelDr et quatre MediBabble (voir Annexe 19) ; cela pour différentes raisons, qui ont été exprimées soit dans le questionnaire comportant les questions ouvertes (Annexe 19), soit verbalement (enregistrements vidéo). Cette tendance se retrouve dans les moyennes des notes données aux systèmes grâces aux différents questionnaires, comme nous l’avons vu (5.5.3).

La quasi-totalité des participants a déploré le manque de contact visuel, voire oral, entre le médecin et le patient lors de l’utilisation de tels outils technologiques (qu’il s’agisse de l’ordinateur ou de l’iPad), ainsi que le temps (parfois long, voir 5.5.2.1.) que le patient devait attendre pendant que le médecin cherchait à poser sa question (que ce soit en cherchant dans les listes ou { l’aide de mots-clés avec MediBabble, ou en devant reformuler sa question à plusieurs reprises pour que la reconnaissance vocale fonctionne avec BabelDr).

En outre, plusieurs participants (y compris les personnes qui ont endossé le rôle du patient pour ces expériences) ont exprimé leur frustration quant { l’impossibilité pour le patient de répondre par autre chose que oui ou non (ou des gestes) ; plusieurs auraient apprécié un fonctionnement bidirectionnel ou que d’autres moyens soient mis { disposition du patient pour lui permettre de donner des réponses plus complètes (qu’il s’agisse de matériel, ou d’un système généraliste comme Google Translate, qui permettrait de formuler des réponses simples tout en garantissant une certaine fiabilité des traductions proposées).

73 Intéressons-nous maintenant aux remarques qui ont été faites par rapport { l’un ou { l’autre des systèmes évalués.

Dans un premier temps, concernant BabelDr, plusieurs personnes ont mentionné la question pratique de l’accès { Internet/au Wi-Fi (pas toujours disponible selon le contexte d’utilisation, même s’il est relativement facile d’équiper un service des urgences, par exemple, d’une connexion Internet/Wi-Fi), ainsi que le manque de praticité d’un ordinateur par rapport { une tablette ou { un smartphone, que l’on a plus facilement sur soi. Une possibilité d’amélioration serait donc de rendre la plateforme utilisable sur tablette, par exemple. D’un point de vue pratique, plusieurs personnes ont d’abord essayé de cliquer sur la question une fois qu’elle apparaissait dans la liste de questions supportées par le système, avant de comprendre qu’il s’agissait uniquement d’une indication et qu’il fallait reposer sa question au moyen de la reconnaissance vocale, et ont dit regretter que cette possibilité ne soit pas offerte.

Quant au contenu de l’application, plusieurs personnes ont déclaré avoir moins de choix de questions avec BabelDr qu’avec MediBabble. Il est vrai que le mécanisme d’appariement de la question posée par le médecin à une forme canonique peut donner cette impression. De plus, peut-être que des listes de questions comme celles contenues dans MediBabble donnent l’impression { l’utilisateur que davantage de formulations sont proposées. Plusieurs personnes ont donc exprimé leur souhait de pouvoir formuler leurs questions d’un plus grand nombre de façons. Les personnes qui ont pris part à l’expérience dans le rôle du patient ont déclaré avoir apprécié le fait de pouvoir préciser le sexe du patient (et que par conséquent, les tournures soient formulées au féminin) ainsi que les formules de politesse parfois utilisées, contrairement à MediBabble, qu’elles ont trouvé très, voire parfois trop, direct/concis.

Dans un deuxième temps, concernant MediBabble, plusieurs personnes ont souligné l’aspect pratique de l’utilisation sur tablette/smartphone, qui est un appareil que l’on transporte plus facilement qu’un ordinateur. La tablette peut d’une part représenter une solution avantageuse lorsque le médecin la tient dans la main (ou les deux mains, selon les personnes) et être moins « dissimulante » qu’un ordinateur. Toutefois, lorsqu’elle est posée { plat sur la table devant l’utilisateur (comme c’était le cas avec certains participants), le contact visuel avec le patient est quasi inexistant, ce qui renforce le sentiment de barrière causé par la technologie entre le médecin et le patient. Plusieurs participants ont trouvé long le temps qu’il fallait parfois pour trouver la question qu’ils

74 cherchaient à poser, notamment car les informations ne sont (apparemment) pas toujours organisées de manière logique d’un point de vue médical dans les différentes catégories et que la fonction de recherche présente un bug : parfois, des questions en anglais et/ou en espagnol apparaissent en plus des questions en français dans les résultats de recherche, ce qui rallonge considérablement la liste de résultats trouvés et le temps qu’il faut au médecin pour trouver la question qu’il souhaite poser. Un autre bug qui a été observé avec MediBabble, mais qui a peu d’importance au final, est que les questions sont parfois formulées différemment entre ce qui est énoncé { l’oral et ce qui apparaît { l’écran lorsque le médecin clique sur la question.

Quant au contenu de l’application, plusieurs personnes ont déclaré avoir grandement apprécié le choix de questions et de tournures à disposition. Toutefois, la grande majorité des participants (y compris les patientes) a été étonnée face à la brièveté et au laconisme de certaines formulations (p. ex. « Apendicitis ? » était la seule solution proposée en espagnol pour demander au patient s’il avait déj{ eu l’appendicite). La plupart des participants a par ailleurs déclaré que les informations n’étaient pas toujours présentées de manière intuitive et que cela pourrait être amélioré, ou qu’un répertoire avec les questions que l’on utilise le plus souvent pourrait être offert. Cette affirmation ne concerne pas la majorité des participants { l’expérience, mais plusieurs personnes ont trouvé MediBabble plus facile à prendre en main et plus rapide à utiliser que BabelDr (ce qui va toutefois { l’encontre des résultats qualitatifs discutés plus haut, notamment le temps nécessaire aux participants). Par ailleurs, de manière générale, la fonction de recherche par mot-clé permet de trouver les questions que l’on souhaite poser plus rapidement qu’en cherchant dans les différentes catégories. Dans une grande partie des cas, les participants avaient recours à la recherche dans les catégories après avoir essayé la recherche par mot-clé et ne pas avoir obtenu de résultats satisfaisants.

Sur les dix participants (douze si on compte les deux personnes qui ont participé au pré-test), une seule personne a ressenti le besoin de poser sa question oralement en français à la patiente avant de cliquer sur la question sur l’iPad pour que celle-ci soit traduite dans la langue du patient. Encore plus étonnant, cette personne a d’abord commencé par utiliser MediBabble et n’a donc pas été influencée par l’utilisation de la reconnaissance vocale avec BabelDr et le côté « plus humain » lié { l’utilisation de la voix pour poser ses questions.

75 Pour en revenir à des remarques concernant les deux systèmes, il n’a parfois pas été possible au médecin de poser l’une ou l’autre de ses questions, soit parce que la reconnaissance vocale n’a pas fonctionné correctement avec BabelDr, soit parce que le médecin n’est pas parvenu { trouver la question qu’il cherchait dans les catégories ou à l’aide de la recherche par mot-clé avec MediBabble. Cela s’est produit { plusieurs reprises, même si un schéma n’a pas pu être observé (c’est-à-dire une question en particulier qui aurait posé problème) parmi les différents participants. Dans ce genre de cas, les participants éprouvaient en général une certaine frustration et finissaient par renoncer, malgré qu’ils savaient qu’il n’y avait pas de piège, en d’autres termes que toutes les questions qu’il leur était demandé de poser étaient reconnues par les systèmes évalués. Toutefois, cela ne s’est étonnamment pas reflété dans les questionnaires puisque la quasi-totalité des participants se sont déclarés « d’accord » ou

« entièrement d’accord » avec l’affirmation « D’une façon ou d’une autre, j’ai pu poser toutes mes questions au/à la patient-e. » [Q1/Q2-q7 et Q3/Q4-q8] (moyennes supérieures à 4 pour les deux systèmes). Par ailleurs, les consignes données ont parfois posé problème aux participants, malgré tout le soin qui avait été apporté à les rendre les plus claires et transparentes possibles. C’était par exemple le cas lorsque les participants devaient demander à la patiente si elle avait aussi mal à la tête (il faut rappeler que nous souhaitions rester dans le groupe des douleurs abdominales mais cela n’a pas toujours été compris par les participants) et qu’ils ont rejeté cette forme canonique car ils voulaient simplement tenter de demander à la patiente si elle avait mal à la tête, alors que la question posée en premier lieu était la bonne. En conclusion, les deux systèmes se sont rejoints sur certains points, notamment par rapport à leurs limites.

Finalement, plusieurs propositions d’amélioration ont été faites, en plus de celles déjà évoquées dans cette section, notamment :

- pour les deux systèmes : rajouter une section où le médecin pourrait enregistrer les questions qu’il pose le plus souvent ;

- pour les deux systèmes (mais particulièrement pertinent pour BabelDr) : rajouter des abréviations couramment utilisées dans le domaine médical, non seulement pour gagner du temps, mais aussi pour améliorer la robustesse du système dans le cas d’une utilisation par des spécialistes du corps médical, par exemple des

Dans le document Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble (Page 72-0)