• Aucun résultat trouvé

Evaluations subjectives : tests de perception

15.2 Compr´ ehension

15.2.1 Protocole

Cette deuxi`eme partie du test correspond `a l’´evaluation de la compr´ehension de notre syst`eme de synth`ese. Pour ´evaluer cette compr´ehension g´en´erale, nous demandons au sujet de visualiser

une vid´eo dans laquelle est incrust´ee un clone 3D de synth`ese codant LPC (cf.la figure 15.4).

Cette vid´eo est issue de l’´emission d’ARTE nomm´ee Karambolage. Il s’agit d’un documentaire

d’une dur´ee de 3’24 sur l’histoire duCaramBar. Apr`es avoir visualis´e l’´emission, il est demand´e

aux sujets de r´epondre `a une s´erie de dix questions (list´ees enannexe B) portant `a la fois sur le

contenu de la vid´eo (image de fond) et sur le discours (cod´e par le clone). Il est `a noter que seul 7 sujets sur les 8 ayant pass´e le pr´ec´edent test ont visualis´e cette vid´eo, un des sujets n’ayant pas pu faire l’exp´erience pour des raisons de disponibilit´es.

15.3. CONCLUSIONS 171

Fig. 15.4 – Impression ´ecran (taille r´eelle : 720x576 pixels) lors de l’´emissionKarambolageavec

le clone LPC incrust´e.

15.2.2 R´esultats

Le nombre de r´eponse moyen est de 3 r´eponses pour les 3 sujets qui n’ont pas ´et´e d´erout´e

par le clone de synth`ese en incrustation. Les r´esultats par sujet se trouvent enAnnexe C. Pour

la majorit´e des sujets cette incrustation n’est pas habituelle et pose des probl`emes d’adaptation. Certains sujets n’ont pas souhait´e regarder l’´emission avec incrustation dans sa totalit´e. Une

seconde vid´eo o`u cette fois-ci la vid´eo d’une vraie codeuse ´etait incrust´ee, ´etait pr´esent´ee aux

sujets. Les personnes ayant visualis´e ces 2 vid´eos en entier ont pu r´epondre `a 3,3 questions de plus en moyenne que pr´ecedemment. Mˆeme s’il y a un effet d’apprentissage ´evident, cet

accroissement se traduit qualitativement par des commentaires positifs envers le naturel vs la

synth`ese. Il est `a noter que quelque soit l’incrustation aucun sujet n’est capable de percevoir le discours en entier mais seulement des mots isol´es. Les commentaires des sujets apr`es l’exp´erience nous permettent d’´emettre des hypoth`eses pour expliquer le peu de r´eponses correctes fournies : le rythme (impos´e par le sous-titrage t´el´etexte) trop ´elev´e, la pr´esence de beaucoup de noms

propres, le manque de marqueurs «prosodiques»de segmentation et d’emphase...

15.3 Conclusions

15.3.1 Intelligibilit´e

Pour les 8 sujets, il y a un gain d’intelligibilit´e significatif entre les deux modalit´es. En effet,

pour la modalit´e «lecture labiale», les taux de reconnaissance ne sont pas significativement

diff´erents du hasard alors que pour la modalit´e «lecture labiale + code LPC», les taux de

reconnaissance sont sup´erieurs `a 90%.

labiaux. Ainsi, les taux de reconnaissance non significativement diff´erents du hasard pour la

modalit´e«lecture labiale»sugg`erent que les mouvements labiaux sont assez r´ealistes pour

trom-per les sujets. Afin de confirmer cette conclusion, Il nous faut cr´eer un test suppl´ementaire o`u

les oppositions impliqueraient des formes de l`evres diff´erentes pour des configurations de cl´es identiques.

Dans le cadre du test qui est construit pour v´erifier l’apport d’information de la main, la diff´erence significative des taux de reconnaissance en fonction de la modalit´e, nous permet d’affirmer que cet apport est av´er´e.

Les temps de r´eponse qui sont significativement sup´erieurs pour la session lecture labiale compar´ee `a la session lecture labiale augment´ee du code LPC, viennent confirmer la conclusion pr´ec´edente : l’apport de l’information de la main est significatif et se compl`ete d’un confort d’utilisation. Cette remarque est reprise par tous les sujets qui trouvent la premi`ere tˆache tr`es difficile.

15.3.2 Compr´ehension

Pour le test de compr´ehension, les r´esultats sont moins probants. En effet, la moiti´e des sujets ne r´ev`ele qu’une diff´erence minime entre le clone de synth`ese et la vid´eo naturelle incrust´ee (si l’on tient compte de l’effet d’apprentissage). L’autre moiti´e au contraire trouve la tˆache trop difficile dans le cas du clone LPC mais r´eussit `a capter une partie du message dans le cas de la vid´eo naturelle incrust´ee. Afin de pouvoir fournir des conclusions plus tranch´ees, nous devons poursuivre les tests aupr`es d’un plus grand nombre de sujets.

Toutefois, nous pouvons noter que la tˆache demand´ee est difficile puisqu’`a la compr´ehension de la vid´eo de fond s’ajoute la compr´ehension du code LPC de l’´emission. Il semble que des

«marqueurs» de d´ebut de phrases pourraient aider les sujets. Par marqueur, nous entendons

un signal qui souligne le d´ebut de la phrase. Il pourrait s’agir simplement d’une lumi`ere ou de mouvements prosodiques effectu´es par le clone. Il serait int´eressant d’ajouter des marqueurs prosodiques gestuels ou autres capables de fournir une segmentation du message et de mettre en emphase des parties difficiles du discours.

Pour aller plus loin...

Afin de comprendre les raisons des r´esultats du test de compr´ehension, nous avons conduit

une exp´erience suppl´ementaire `a l’aide d’un syst`eme oculom´etrique TobiiR non invasif. Nous

avons demand´e `a 4 sujets sourds profonds ayant appris le LPC de fa¸con pr´ecoce de visualiser la vid´eo du test de compr´ehension sous-titr´e dans sa premi`ere partie et avec incrustation d’une vid´eo de codeuse dans la seconde partie (voir figure 15.5). Les r´esultats pr´eliminaires montrent que les sujets passent 56.36% en moyenne sur le cadre t´el´etexte contre 80.70% sur le cadre de l’incrustation vid´eo avec une diff´erence significative (F(1,6) = 9.06, p < 0.05). Ce r´esultat indique que l’incrustation d’une vid´eo `a la place du t´el´etexte n’est pas b´en´efique en terme de charge cognitive dans notre cas, puisque le temps pass´e `a d´ecoder est significativement sup´erieur

`a celui de la lecture. Ceci peut ˆetre dˆu au rythme trop ´elev´e du t´el´etexte dans cette ´emission (un

15.4. R ´ESUM ´E 173