Résultats et conclusions - Pré-test - Systèmes de traduction de dialogues médicaux : Évaluation

5. ÉVALUATION

5.4. Pré-test

5.4.3. Résultats et conclusions

Au terme du pré-test, nous avons vu qu’il était tout à fait possible de réaliser l’expérience dans les limites du temps imparti (maximum une heure par participant). Il a même été décidé d’augmenter le nombre de questions que le médecin devrait poser au patient : de vingt (deux séries de cinq mots-clés, posées chacune deux fois – une fois par système), nous avons décidé de passer à quarante questions (deux séries de dix mots-clés, posées chacune deux fois – une fois par système) (voir Tableau 4), parce que le temps nous le permettait largement et afin de tester davantage de propositions de questions offertes par les deux systèmes évalués. Il a également été décidé de modifier la

59 manière de présenter les concepts (c.-à-d. les mots-clés) donnés aux participants afin d’influencer le moins possible la manière dont ils poseraient leurs questions (voir

Tableau 4). Par ailleurs, une attention particulière a été portée à respecter une certaine symétrie entre les deux séries de questions (Série A et Série B), afin de permettre une évaluation aussi objective que possible de la facilité d’apprentissage (« learnability »), et ce autant lors du pré-test que des expériences.

Mots-clés donnés au médecin

RP = indiquer la partie inférieure du ventre, à droite

RP = Répondre ‘Bonjour’ / Répondre ‘OK’

2. fièvre ? RP = oui (+)

2. Douleur : ventre ? / Douleur : endroit ? RP = oui (+) / Indiquer la partie inférieure du ventre, à droite

3. pris médicaments contre la nausée ? RP = non (-)

3. Fièvre ? / Diarrhée ? RP = non (-) / non (-) 4. hépatite ?

RP = non (-)

4. Appendicite ? / Pancréatite ? RP = non (-) / non (-) depuis la partie inférieure à droite du ventre, vers le centre du ventre

RP = [patient déjà assis] / Répondre ‘OK’

2. diarrhée ? RP = oui (+)

2. Douleur : tête ? / Douleur : propagation ? RP = non (-) / indiquer un déplacement de la douleur depuis le côté vers le centre du ventre

3. nouveau traitement ? RP = non (-)

3. Vomissements ? / Constipation ? RP = non (-) / non (-) RP = réponse du patient (mots-clés donnés au patient – en espagnol)

Tableau 4 : Résumé des mots-clés donnés aux médecins (pré-test/expérience)

Au niveau du matériel et des logiciels utilisés, tout a fonctionné correctement (si ce n’est parfois qu’un léger décalage a été observé entre ce qui se passait sur l’écran de l’iPad et ce qui était projeté sur l’écran du PC, en raison de la stabilité du Wi-Fi).

60 Les réponses et données (en tout cas les résultats quantitatifs) recueillies dans le cadre du pré-test ne seront pas prises en compte dans l’analyse des résultats, car différents paramètres ont été modifiés de manière non négligeable entre le pré-test et l’expérience.

61 5.5. Résultats de l’expérience

5.5.1. Note introductive

Au vu de la quantité de données récoltées, qu’il s’agisse de résultats quantitatifs (voir Section 5.5.2.) ou qualitatifs (voir Section 5.5.3.), de nombreuses conclusions s’imposent.

Certaines ne concernent que l’un ou l’autre des systèmes évalués, d’autres les deux. Dans cette section, nous allons nous pencher sur les résultats présentés dans les tableaux (Tableaux 5 à 10) contenus dans les sous-sections suivantes (5.5.2. à 5.5.4.), en regard non seulement des différentes métriques adoptées pour l’évaluation (voir Section 5.3.3.3.2.), mais également des questions de recherche qui ont orienté ce travail et que nous souhaitons rappeler rapidement ici :

1. évaluer l’utilité de la reconnaissance vocale (disponible seulement pour BabelDr) ; 2. dégager les points forts et les points faibles de chaque système ;

3. contribuer { une éventuelle optimisation de l’application BabelDr³⁴.

5.5.2. Résultats quantitatifs

Les résultats quantitatifs concernent les métriques dites objectives (voir Section 5.3.3.3.2.) suivantes :

a) facilité d’utilisation (« usability »)/opérabilité (« operability »)

 temps (t) nécessaire (en mm:ss) pour réaliser une action :

Pour les deux systèmes, temps en mm:ss écoulé entre le premier clic et la fin de l’énonciation orale de la question, calculé à l’aide du logiciel de visionnement des enregistrements d’écran BB FlashBack Express Player.

 nombre (n) de clics nécessaire pour réaliser une action :

Pour BabelDr, clics comptés manuellement à partir des indications de clics (cercles rouges) données par le logiciel de visionnement des enregistrements d’écran BB FlashBack Express Player ; pour MediBabble, clics comptés manuellement (y. c. les descentes/montées de la barre latérale pour faire défiler les questions ; pour la recherche par mot-clé, 1 clic = saisie ou correction d’un mot (et non lettre par lettre)) à l’aide du logiciel de visionnement des

34 Les résultats et conclusions de cette évaluation seront également communiqués { l’équipe de MediBabble via les informations de contact disponibles sur son site ; libre à elle ensuite de prendre en compte ou non les informations qui lui auront été transmises.

62 enregistrements d’écran BB FlashBack Express Player (puisque les indications de clics (cercles rouges) n’étaient pas disponibles comme pour BabelDr, en raison de l’émulation de l’iPad sur le PC).

b) facilité d’apprentissage (« learnability »)

 temps (td) nécessaire (en mm:ss) pour réaliser une action, différence (en mm:ss) entre la 1^ère et la 2^èmeutilisation des systèmes :

Voir explications de la manière dont le temps a été mesuré au point a) ci-dessus.

 nombre (nd) de clics nécessaire pour réaliser une action, différence entre la 1^ère et la 2^èmeutilisation :

Voir explications de la manière dont le nombre de clics a été mesuré au point a) ci-dessus.

Nous allons donc en premier lieu nous intéresser au temps nécessaire aux participants pour réaliser les actions demandées (5.5.2.1.), puis au nombre de clics qu’il leur a fallu pour réaliser ces mêmes actions (5.5.2.2.). Par la suite, nous nous pencherons sur l’écart en temps et en nombre de clics (respectivement 5.5.2.3. et 5.5.2.4.) entre la première et la seconde utilisation des deux systèmes, avant de nous intéresser aux observations faites par les participants concernant les deux systèmes (5.5.3. à 5.5.5.) et de dégager les conclusions qui s’imposent (5.5.6.).

5.5.2.1. Temps

Pour consulter les valeurs récoltées durant les expériences (notamment l’ordre d’utilisation des systèmes par participant), se référer au tableau correspondant qui présente tout le détail des valeurs obtenues (Annexe 21). Les valeurs présentées ci-après (Tableau 5) sont des valeurs moyennes (temps T moyen, en mm:ss, nécessaire par participant par session d’utilisation des systèmes).

Student3 Student4 Student5 Student6 Student7 Student8 Student9 Student10 Student11 Student12 Moyenne T

BabelDr

1^ère utilisation 00:12 00:24 00:21 00:24 00:27 00:18 00:22 00:23 00:20 00:13 00:20

MediBabble

1^ère utilisation 00:45 00:29 00:35 00:36 00:22 00:31 00:26 00:26 00:17 00:37 00:30

BabelDr

2^ème utilisation 00:11 00:20 00:25 00:20 00:34 00:14 00:18 00:09 00:09 00:29 00:19

MediBabble

2^ème utilisation 00:20 00:17 00:41 00:38 00:38 01:16 00:51 00:30 00:27 00:36 00:41

Tableau 5 : Moyennes de temps (T) nécessaire par participant, par session d’utilisation des systèmes

On observe ainsi un temps moyen par session d’utilisation (10 questions par session) moins élevé pour BabelDr (T = 20 secondes) que pour MediBabble (T = 30 secondes) lors de la première utilisation des systèmes. Il en va de même pour la seconde utilisation des systèmes : BabelDr obtient un score nettement plus bas (T = 19 secondes) que MediBabble (T = 41 secondes). Une autre constatation que l’on peut faire est que le temps nécessaire pour réaliser les différentes actions varie grandement entre les participants (voir Annexe 21). Certaines actions ont parfois pris beaucoup de temps aux utilisateurs de l’un ou de l’autre système, mais une tendance claire n’a pas pu être dégagée non plus ; il arrivait à certaines personnes de buter sur certaines questions alors que d’autres n’avaient aucun problème et rencontraient des difficultés avec d’autres questions. Ce phénomène prouve bien que chaque utilisateur réfléchit et s’exprime différemment, même des spécialistes d’un même domaine, d’où la difficulté de rendre des phraselators comme BabelDr et MediBabble aussi performants que possible en incluant le maximum de tournures dans les contenus des systèmes.

5.5.2.2. Nombre de clics

Pour consulter les valeurs récoltées durant les expériences, se référer au tableau correspondant qui présente tout le détail des valeurs obtenues (Annexe 21). Les valeurs présentées ci-après (Tableau 6) sont des valeurs moyennes (nombre de clics N nécessaire par participant par session d’utilisation des systèmes).

Student3 Student4 Student5 Student6 Student7 Student8 Student9 Student10 Student11 Student12 Moyenne N

BabelDr

1^ère utilisation 2,3 3,7 2,7 3,5 3,4 3,4 3,2 3,8 4,1 2,7 3,28

MediBabble

1^ère utilisation 6,4 5,2 6,6 5,6 5,8 4,9 4,8 5,2 4,8 6,1 5,54

BabelDr

2^ème utilisation 2,5 4,9 3,1 3,1 3,6 2,6 3,5 2,1 2,2 5,1 3,27

MediBabble

2^ème utilisation 4,9 4,5 5,7 4,7 7,9 7,4 8,6 4,5 6,7 7,6 6,25

Tableau 6 : Moyennes du nombre de clics (N) nécessaire par participant, par session d’utilisation des systèmes

De même que pour le paramètre temps, on voit que BabelDr obtient un meilleur résultat (N = 3,28) que MediBabble (N = 5,54) lors de la première utilisation. Lors de la seconde utilisation des systèmes, BabelDr nécessite également moins de clics pour réaliser une action (N = 3,27) que MediBabble (N = 6,25). Même remarque que celle faite plus haut concernant le paramètre Temps, le nombre de clics nécessaire pour réaliser une action varie passablement entre les participants (voir Annexe 21).

Qu’il s’agisse du temps (t) ou du nombre de clics (n), nous pensons que les résultats présentés dans les deux tableaux ci-dessus nous permettent d’affirmer que la technologie de la reconnaissance vocale représente un avantage en termes de gain de temps et de facilité d’utilisation par rapport { un système qui n’est pas doté de cette technologie. Toutefois, comme nous le verrons plus loin, elle peut également être synonyme de frustration lorsqu’elle ne fonctionne pas correctement.

5.5.2.3. Écart temps

Pour consulter les valeurs récoltées durant les expériences, se référer au tableau correspondant qui présente tout le détail des valeurs obtenues (Annexe 21). Les valeurs présentées ci-après (Tableau 7) sont des valeurs moyennes (écart de temps moyen Td en mm:ss nécessaire aux participants, entre la première et la seconde utilisation des systèmes).

Système Moyenne de la 1^ère utilisation Moyenne de la 2^ème utilisation Écart Td en mm:ss

BabelDr 00:20 00:19 -00:01

MediBabble 00:30 00:41 +00:11

Tableau 7 : Moyennes de l’écart de temps (Td) entre la première et la seconde utilisation, par système

On observe donc que l’écart en temps (td) entre la première et la seconde utilisation des systèmes est très peu significatif pour BabelDr (diminution de temps d’1 seconde) alors qu’il l’est nettement plus pour MediBabble (écart positif de 11 secondes). Ce résultat est assez surprenant vu que l’on s’attendrait à un score meilleur lors de la seconde utilisation que lors de la première. Ce phénomène pourrait vouloir indiquer deux choses ; premièrement, que la seconde série de questions était plus « difficile » que la première, bien que les résultats obtenus avec BabelDr n’étaient de loin pas aussi marqués. Deuxièmement, du point de vue de la facilité d’apprentissage (« learnability »), ces résultats semblent indiquer que les participants auraient peu appris entre la première et la seconde utilisation de BabelDr (écart stable) car le système était déjà suffisamment facile et intuitif à utiliser lors de la première utilisation (voir commentaires des participants à ce propos dans la Section 5.5.3.). Avec MediBabble, au contraire, les participants ne semblent pas avoir réalisés de progrès puisque l’écart moyen est positif. D’après nous, cela pourrait être dû au fait que les questions ne sont pas toujours classées de manière logique dans les différentes catégories de ce système (comme signalé par plusieurs participants) et qu’ils n’ont ainsi pas pu appliquer une logique avec succès. De même, pour la recherche par mot-clé, les résultats qui apparaissaient en premier n’étaient pas toujours ceux escomptés (des questions en anglais et en espagnol apparaissaient parmi les résultats (bug), certaines questions surprenaient par leur concision, etc.). De manière générale, les participants ont passablement tâtonné avec ces deux modes de recherche (par mots-clés et dans les catégories de questions).

5.5.2.4. Écart nombre de clics

Pour consulter les valeurs récoltées durant les expériences, se référer au tableau correspondant qui présente tout le détail des valeurs obtenues (Annexe 21). Les valeurs présentées ci-après (Tableau 8) sont des valeurs moyennes (écart du nombre de clics

66 moyen Nd nécessaire aux participants, entre la première et la seconde utilisation des systèmes).

Système Moyenne de la 1^ère utilisation Moyenne de la 2^ème utilisation Écart nd en mm:ss

BabelDr 3,28 3,27 -0,01

MediBabble 5,54 6,25 +0,71

Tableau 8 : Moyennes de l’écart du nombre de clics (Nd) entre la première et la seconde utilisation, par système

À nouveau, on observe un écart minime du nombre de clics (Nd) entre la première et la seconde utilisation de BabelDr (Nd = 0,01 clic de moins lors de la deuxième utilisation) alors que la valeur est plus significative pour MediBabble (Nd = 0,71 clic de plus lors de la seconde utilisation), ce qui confirme les hypothèses énoncées plus haut (voir 5.5.2.3.) : les valeurs restent stables pour BabelDr, alors qu’elles indiquent l’absence d’apprentissage entre la première et la seconde utilisation de MediBabble. Rappelons toutefois qu’un petit tutoriel d’aide est proposé pour MediBabble, contrairement { BabelDr.

67 5.5.3. Résultats qualitatifs : questionnaires

Les résultats qualitatifs concernent les métriques dites subjectives (voir Section 5.3.3.3.2.) suivantes :

a) facilité d’utilisation (« usability »)/opérabilité (« operability ») :

 Réponses des participants aux questions contenues dans les questionnaires relatives à la facilité d’utilisation/à l’opérabilité des systèmes : Q1/Q2-q1, -q3, -q4, -q5, -q6, -q7, -q8 + Q3/Q4-q8, -q9³⁵.

b) facilité d’apprentissage (« learnability ») :

 Réponses des participants aux questions contenues dans les questionnaires relatives à la facilité d’apprentissage : Q3/Q4-q1, -q2, -q3, -q4, -q5, -q6, -q7.

c) interface (« user interface aesthetics »)



Réponses des participants aux questions contenues dans les questionnaires relatives à l’interface des systèmes : Q1/Q2-q2, -q10.

L’échelle adoptée dans les questionnaires et tableaux correspondants à cette section (voir Annexe 15 à 18 pour plus de détails) est la suivante :

1 = pas du tout d’accord 2 = pas vraiment d’accord 3 = ni d’accord, ni pas d’accord 4 = d’accord

5 = entièrement d’accord 0 = sans réponse

Si l’on en croit les résultats présentés ci-après (Tableau 9), BabelDr obtient globalement de meilleurs scores que MediBabble : moyenne des deux utilisations de 4,19 pour BabelDr et de 3,62 pour MediBabble (sur une note maximale de 5).

Nous allons nous intéresser à présent à différents paramètres en lien avec les métriques mentionnées ci-dessus, relativement { l’un ou l’autre des systèmes, ou aux deux.

35 Dans cette section, « Q » = questionnaire (1, 2, 3 ou 4) et « q » = question (numéro de la question), voir Annexes 15 à 18.

Tableau 9 : Résumé des moyennes obtenues pour BabelDr et MediBabble par question (questionnaires pour les participants)

Tous les participants étaient d’accord pour dire que les interactions simulées dans le cadre de ces expériences manquaient de naturel (en raison notamment du scénario qui a été choisi, en particulier la sélection des mots-clés donnés aux médecins et le manque de cohérence d’une question { l’autre³⁶) et que l’utilisation des systèmes de traduction automatique enlevaient une grande part d’humanité aux interactions entre le médecin et le patient. Ainsi, à la question « J’ai pu poser mes questions au/{ la patient-e de manière naturelle. » [Q1/Q2-q6], les moyennes obtenues étaient respectivement de 3,4 pour BabelDr et de 2,3 pour MediBabble (sur une note maximale de 5, ce qui représente des scores assez bas) (voir Annexes 15 et 16).

Un grand nombre de participants se sont sentis parfois limités quant à la rigidité des questions qu’ils avaient { disposition ; autrement dit, les deux systèmes ne leur permettaient pas de poser leurs questions de manière aussi précise qu’ils le souhaitaient. Qu’il s’agisse des formes canoniques auxquelles les questions posées par les médecins sont ramenées pour BabelDr ou des questions contenues dans les listes pour MediBabble, les participants avaient parfois l’impression d’être contraints dans la manière de poser leurs questions et, par conséquent, que celles-ci manquaient de

36 Cependant, comme il a été expliqué au préalable, la sélection des mots-clés donnés aux médecins s’est faite dans une logique d’exhaustivité de l’échantillonnage de questions proposées, plutôt que dans une logique permettant d’établir un diagnostic.

69 précision (ce qui peut être gênant lors de l’établissement d’un diagnostic). Par ailleurs, les deux systèmes ont obtenu des notes assez basses en réponse aux questions « J’ai pu poser mes questions au/à la patient-e de manière naturelle. » [Q1/Q2-q7] (3,4 pour BabelDr et 2,3 pour MediBabble sur une note maximale de 5) et « Le système permet une certaine liberté dans la formulation des questions. » [Q1/Q2-q8] (3,3 pour BabelDr et 2,5 pour MediBabble sur une note maximale de 5) (voir Annexes 15 et 16).

Plusieurs personnes ont également déclaré avoir apprécié la simplicité d’utilisation de BabelDr, ainsi que son interface (plus claire/lumineuse que celle de MediBabble) ; BabelDr a obtenu des notes significativement meilleures que MediBabble (moyennes de 4,7 contre 4, respectivement, sur une note maximale de 5) en réponse { l’affirmation

« L’interface de ce système m’a plu. » [Q1/Q2-q2] (voir Annexes 15 et 16).

Par rapport à l’utilité de la reconnaissance vocale, certaines personnes ont trouvé qu’elle permettait une prise en main du système plus rapide et plus aisée que de devoir chercher dans des listes de questions, mais ce n’était pas le cas pour tous les participants ; BabelDr a par ailleurs obtenu des notes sensiblement meilleures que MediBabble à la question « J’ai eu l’impression de bien maîtriser le système. » [Q1/Q2-q3] posée lors de la première utilisation des systèmes (moyennes de 3,8 et de 3,4 respectivement, sur une note maximale de 5) (voir Annexes 15 et 16), ce qui rejoint les données concernant la facilité d’apprentissage (« learnability »). BabelDr a par ailleurs également obtenu de meilleures notes que MediBabble en réponse à la question « Le système était pratique à utiliser. » [Q1/Q2-q4] (moyennes de 4,4 et de 3,8 respectivement, sur une note maximale de 5) (voir Annexes 15 et 16). La quasi-totalité des participants s’accordaient en revanche { dire que la reconnaissance vocale contribuait à rendre l’interaction plus humaine, notamment parce qu’elle permettait de garder un meilleur contact visuel avec le patient que l’utilisation de MediBabble sur l’iPad. Toutefois, lorsqu’elle ne fonctionnait pas correctement et que le médecin devait s’y prendre { plusieurs reprises pour parvenir { poser sa question, elle a également été synonyme de frustration. Durant l’ensemble des expériences qui ont été réalisées avec BabelDr, la technologie de la reconnaissance vocale a fonctionné dans 65,6 % des cas (voir Tableau 10). Deux occurrences ont posé passablement de problèmes aux participants avec la reconnaissance vocale, les questions portant sur l’hépatite et sur la pancréatite (voir mots-clés dans la Section 5.4.3.). Un participant sur les dix a essayé d’utiliser des « raccourcis » (c’est-à-dire des mots-clés au lieu de faire des phrases

70 complètes), mais il s’est vite rendu compte que cela ne fonctionnait pas ; toutefois, nous garderons en tête que cet élément joue un rôle, aussi infime soit-il, dans le score de performance obtenu pour la reconnaissance vocale. Plusieurs participants ont exprimé leur souhait de voir la technologie de la reconnaissance vocale améliorée avec BabelDr et certains participants qui avaient indiqué préférer MediBabble entre les deux systèmes ont dit que si la reconnaissance vocale était améliorée avec BabelDr, leur préférence se porterait sur ce dernier.

Il convient de revenir sur un point qui a posé problème durant l’étude expérimentale, mais dont nous nous sommes rendue compte seulement a posteriori : malgré les instructions qui avaient été données aux participants lors de la diffusion de l’annonce visant à trouver des personnes disposées à participer à l’étude, les instructions données par écrit dans le formulaire de consentement et les indications données oralement aux participants au début de l’expérience, plusieurs personnes ont perdu de vue le fait que le patient souffrait de douleurs abdominales et ont rencontré des problèmes au moment de demander au patient s’il souffrait (aussi) de maux de tête. Ainsi, au lieu d’accepter la forme canonique « Avez-vous aussi mal à la tête ? », certains participants l’ont rejetée (alors qu’elle était correcte), influençant de manière négative les performances de la reconnaissance vocale.

Participant

Score : nombre de tentatives fructueuses/nombre total de tentatives pour les 20 actions

Score en pourcentage

Student1 - -

Student2 - -

Student3 18/25 72%

Student4 20/36 55,6%

Student5 23/33 69,7%

Student6 23/30 76,7%

Student7 21/29 72,4%

Student8 21/29 72,4%

Student9 21/42 50%

Student10 22/34 64,7%

Student11 23/28 82,1%

Student12 20/37 54%

Total RV 212/323 65,6%

Tableau 10 : Performances de la reconnaissance vocale et compréhension des formes canoniques avec BabelDr, pour les deux sessions d’utilisation du système

71 Concernant la facilité d’apprentissage (« learnability »), comme nous l’avons vu, les progrès réalisés (en temps et en nombre de clics, voir Sections 5.5.2.3. et 5.5.2.4.) sont donc moins significatifs entre la première et la deuxième session avec BabelDr qu’avec MediBabble, parce que les participants étaient déjà relativement rapides et efficaces lors de la première utilisation de BabelDr ; cependant, les participants ont mis significativement plus de temps/clics avec MediBabble. Ces tendances sont reflétées dans les réponses données à la question « Il m’était beaucoup plus facile d’utiliser le système lors de la deuxième utilisation que lors de la première. » [Q3/Q4-q1] (voir Annexes 17 et 18) (BabelDr a obtenu le score de 4,1 et MediBabble de 3,5, sur une note maximale de 5). Plusieurs participants ont par ailleurs exprimé leur désaccord avec l’affirmation « Il m’était beaucoup plus rapide d’utiliser le système lors de la deuxième utilisation que lors de la première. » [Q3/Q4-q2] (voir Annexes 17 et 18) pour MediBabble (ce qui n’a pas été le cas pour BabelDr). Dans la même idée, plusieurs personnes ont exprimé leur désaccord avec l’affirmation « J’ai eu l’impression de bien maîtriser le système. » [Q3/Q4-q9] lors de la seconde utilisation de MediBabble (Voir Annexes 17 et 18).

Comme mentionné, MediBabble propose un menu d’aide (un bref tutoriel) pour utiliser l’application, alors que pour BabelDr, seules les instructions affichées dans les cases au départ indiquent comment utiliser le système. De manière générale, je pense que l’on peut dire que l’utilisation des deux systèmes est relativement simple ; la quasi-totalité des participants se sont déclarés « entièrement d’accord » ou « d’accord » avec l’affirmation « Le système était facile à utiliser. » [Q1/Q2-q1] lors de la première utilisation des systèmes (voir Annexes 15 et 16). En effet, BabelDr a obtenu le score de 4,7 et MediBabble de 4,4, (sur une note maximale de 5). L’utilisation des systèmes est donc assez intuitive une fois que l’on a compris de quelle manière chercher l’information. De plus, plusieurs participants ont déclaré que s’ils disposaient de plus de

Dans le document Systèmes de traduction de dialogues médicaux : Évaluation de BabelDr et MediBabble (Page 65-0)