Les approches sonores - Les approches pour l‟accès aux mathématiques

CHAPITRE 1 ÉTAT DE L‟ART SUR LA PRÉSENTATION DES EXPRESSIONS

1.4 Les approches pour l‟accès aux mathématiques

1.4.3 Les approches sonores

Il existe deux types de méthodes sonores : le premier type permet une lecture précise de la totalité de la formule, alors que le deuxième n‟offre qu‟un aperçu de l‟expression afin d‟avoir une idée de sa complexité et de son aspect général.

La lecture séquentielle à haute voix

La lecture, à haute voix, de la formule est une autre forme de présentation des données. Cette présentation a été utilisée depuis longtemps vu qu‟elle est facile et n‟exige pas une phase d‟apprentissage longue. En effet, la parole est une forme de communication naturelle. Par contre, si seule la lecture à voix haute est utilisée, cela peut devenir très ambigu pour l'auditeur. Il existe deux approches pour éviter l‟ambigüité :

L’utilisation d’indicateurs lexicaux : on ajoute des informations supplémentaires pour délimiter les blocs dans une expression. Ces indicateurs correspondent aux parenthèses dans l‟écriture en noire. Par exemple, la fraction (2.1) sera lue comme suit :

Début numérateur x moins 1 fin numérateur divisé par début dénominateur x plus 1 fin dénominateur.

Cette approche a été adoptée dans la plupart des outils qui présentent les expressions mathématiques vocalement, et elle a été reconnue efficace quand on traite des expressions ayant des blocs importants (racine carrée, fraction, sin, cos, etc.). D'autre part, des études comme (Stevens, Edwards et Harling, 1997) ont démontré les aspects négatifs causés par les indicateurs lexicaux. Ils sont surtout associés à la surcharge de la mémoire du lecteur.

L’utilisation de la prosodie : le changement est dû au synthétiseur de parole qui tente de conserver le caractère multidimensionnel de l‟information. Pour cela, la lecture n‟est pas monotone. Plus précisément, la façon dont l‟expression mathématique est lue « la tonalité (emphase), rythme (pause) et la hauteur de la voix (aiguë, médium ou grave) » donne des informations qui aident à comprendre le sens de cette expression. La formule est explicitée grâce à la prosodie. Des mots sont également rajoutés parfois pour une meilleure compréhension.

Dans ce contexte, le projet MathTalk (Stevens et Edwards, 1994a; Stevens et Edwards, 1994b) a implémenté cette approche. Il repose sur deux idées principales: la navigation au sein d‟une expression mathématique et la possibilité d‟accéder à un aperçu général de la formule. Un simple enregistrement sonore (magnétophone, livres enregistrés, etc.) ne permet pas de « naviguer» dans l'expression. C'est pour cela que MathTalk met à la disposition de l‟utilisateur plusieurs fonctions de navigation. Cette navigation, indirecte et directe, par commandes vocales ou par raccourcis clavier, est basée sur la structure syntaxique de l'expression mathématique. Il y a huit actions possibles ("aller au début", "expliciter", etc.), couplées à huit cibles différentes ("exposant", "numérateur", etc.) permettant d'atteindre rapidement n'importe quel terme de la formule. Avec la possibilité de naviguer au sein de l‟expression mathématique, l‟utilisateur contrôle mieux le processus de lecture. Un langage a été élaboré afin de bien formuler les expressions mathématiques. En lecture, la méthode de parcours semble être efficace. Cependant, elle n‟est valable que si les expressions

mathématiques sont formulées correctement, c'est-à-dire que le formalisme imposé par le langage soit respecté. Le lecteur n‟est pas obligé d‟avoir connaissance de ce langage, mais l‟auteur des formules doit l‟être.

MathTalk ne s‟occupe pas de la saisie. C‟est pour cela que MATHS24 (Mathematical Access for Technology and Science) (Dix, 1996; Stevens, 1996) a été développé. Cet outil repose sur une extension de MathTalk. Les auteurs cherchaient à étendre ce programme à la manipulation des expressions via la reconnaissance de la parole ou via le clavier. La saisie des formules mathématiques est quelque chose de primordial, non seulement pour communiquer avec autrui, mais pour servir d‟aide-mémoire. Il est donc nécessaire de concevoir un outil permettant la lecture ainsi que la saisie d‟expressions mathématiques. Pour la saisie de textes ou d‟expressions, on utilise un clavier conventionnel, la parole et le braille. Pour la sortie, MATHS emploie la synthèse de parole, du braille, un écran (pour les voyants ou mal voyants) et un ensemble dans des sons non parlés. L‟interaction par un terminal braille se fait en entrée comme en sortie.

Dans les deux projets suivants, ASTER (Raman, 1994; 1998) et AudioMath (Ferreira et Freitas, 2004; 2005) l‟utilisation de la prosodie pour désigner la structure de l‟expression est employée. Le premier traite les documents écrits en LaTeX, alors que le deuxième permet la lecture des documents codés en MathML.

D‟autres projets comme MathGenie (Gillan et al., 2004; Karshmer, Bledsoe et Stanley, 2004), VoiceXML (Reddy, Annamalai et Gupta, 2004) et MathPlayer25 (Soiffer, 2005; 2007) permettent la lecture et la navigation dans des expressions codées en MathML. Dans ces systèmes, l‟utilisateur a l‟avantage d‟utiliser des « repères audio » pour dénoter une sous expression lors de la navigation. Ces repères peuvent être utiles pour que l‟utilisateur puisse ajuster la lecture de l‟expression à son rythme et à ses besoins.

24_{MATHS :}_{http://www.cs.york.ac.uk/maths/maths.html}_{. Consulté le 4/4/2009.} 25_{MathPlayer :}_{http://www.dessci.com/en/products/mathplayer/}_{. Consulté le 4/4/2009.}

Cependant, avec des formules longues, cette approche (la lecture à haute voix) n‟est pas très avantageuse. Bien qu‟apportant de nombreuses améliorations par rapport à une lecture avec une voix de synthèse basique (sans prosodie), l‟empan mnésique26 peut ne pas être suffisant pour que l‟utilisateur se souvienne du début de la formule lorsqu‟il arrive à la fin de celle-ci. Le principal inconvénient de ces deux outils est qu‟ils nécessitent en entrée des documents numériques bien formalisés (MathML ou LaTeX), ce qui n‟est pas évident pour tous les utilisateurs.

Les sons non parlés (earcons)

Les earcons sont des sons obtenus par utilisation de fréquences musicales organisées selon une grammaire plus ou moins complexe faisant intervenir des changements de hauteur et de rythmes (Blattner, Sumikawa et Greenberg, 1989). Les earcons sont employés normalement pour fournir de l‟information à l‟utilisateur concernant une action, un objet manipulé, etc.

Des études (Brewster, 1998; Brewster, Wright et Edwards, 1993) ont suggéré l‟utilisation d‟earcons pour associer les sons non parlés aux différents opérateurs. Par exemple, une fraction complexe est associée à deux longues notes avec une tonalité constante séparée par deux pauses (Stevens, Edwards et Harling, 1997). Pour générer un earcon (Blattner, Sumikawa et Greenberg, 1989), le système parcourt la formule et remplace les caractères par des sons venant d‟instruments différents, et joués à différentes hauteurs, fréquences et longueurs.

Les projets MathTalk, MATHS et MAVIS utilisent cette méthode pour donner un aperçu des formules mathématiques. De plus, les earcons sont utilisés pour signaler le début et la fin d‟un bloc (racine, numérateur, etc.). Les méthodes utilisant la décomposition en arbre (MAVIS et MathTalk) planifient la manière dont l‟ordinateur va présenter la formule. Les earcons ne permettent pas de prendre connaissance de la formule en détails, mais juste un

26_{Quantité limitée d'environ 7 (± 2) unités d'information pouvant être retenues en mémoire à court terme pour}

aperçu. C‟est le reproche qu‟on peut faire à cette méthode. Cette méthode nécessite également un apprentissage difficile. L'utilisateur doit avoir une oreille très attentive et musicale. Il doit apprendre à reconnaître qu'un son donné représente un opérateur donné, que telle note signifie un indice ou un exposant, etc.

Décomposition en arbre

Les expressions mathématiques peuvent être représentées par des arbres comme nous l‟avons vu dans les approches braille et en particulier avec le chunking dans MAVIS. La différence est que, cette fois-ci, « l‟affichage » ou bien le média de sortie n‟est plus le terminal braille, il est remplacé par le système de synthèse vocale avec l‟utilisation de la prosodie.

Les commandes vocales permettant la navigation au sein de l‟expression sont composées de deux parties : action (lire, aller, sortir, etc.) et cible (terme, expression, numérateur, etc.). Par exemple dans MathTalk, la commande « lire expression » permet de lire la totalité de l‟expression, alors que la commande « Terme suivant », si l‟on est sur le premier facteur d‟une multiplication, passera au deuxième. Ce langage de commande, certes assez simple, suppose que l‟utilisateur aveugle ait une représentation mentale bien construite de la formule. À titre d‟exemple concret, quand l‟utilisateur dit "aller à la racine carrée" cela semble aisé pour un voyant puisque, l'ayant sous les yeux, il sait où elle se trouve. Mais l'aveugle peut ne pas savoir où elle se trouve dans la formule, pouvant ainsi ne plus avoir de repère, ou pouvant ne plus se souvenir de son existence. Enfin, on peut aussi remarquer que peu d‟aveugles sont familiers avec la notion d‟arbre.

Dans le document 2009 — Techniques d'interaction multimodales pour l'accès aux mathématiques par des personnes non-voyantes (Page 62-66)