Observations et améliorations envisageables

5.4 Un modèle computationnel interactiviste de perception de l’écriture cursive

5.4.1 Modèle interactiviste de perception de l’écriture manuscrite cursive

5.4.4.2 Observations et améliorations envisageables

La première observation rassurante est que si une image interne de lettre est utilisée comme image réelle à reconnaitre, alors elle se reconnait à coup sûr (ce qui n’était pas forcément le cas avec l’implémentation précédente). Deuxièmement, si cette image est bruitée, il y a aussi de fortes chances pour que la lettre soit aussi correctement reconnue.

De manière évidente, notre algorithme est sensible aux décalages et aux déformations. Pour contrevenir à ce problème, il faudrait faire intervenir un certain nombre de pré- traitements utilisés usuellement dans ce genre d’applications. Notons en revanche qu’il n’y aurait pas besoin d’un algorithme de séparation de caractères. En effet dans notre cas, si l’on arrive à la fin d’une image interne et que celle-ci a une bonne adaptation, il est possible d’enchaîner directement la reconnaissance de la lettre suivante en faisant correspondre le dernier patch de cette lettre au premier patch des images internes cherchant à anticiper cette deuxième lettre.

Comme tout algorithme de reconnaissance de caractère, cette méthode pourrait béné- ficier de connaissances a priori, telles que la probabilité de présence d’une lettre dans un texte, la probabilité d’enchaînements de paires de lettres, et aussi de l’existence ou non du mot en construction dans un mot. Une connaissance préalable du champ lexical du

Figure 5.2 – Animation de l’algorithme en fonctionnement. L’image au centre est l’image perçue. Le bandeau d’images en base représente les images internes. Pour chaque lettre interne, une case colorée suit la temporalité de celle-ci sur sa représentation interne et sur l’image réelle. La lettre à reconnaître est bruitée, pourtant l’algorithme arrive à reconnaître le "l".

texte et des constructions grammaticales autorisées permettraient également d’améliorer les résultats.

5.4.5 Discussion

Nous avons proposé deux algorithmes de reconnaissance de caractère dont les résultats semblent mitigés. Le second, qui semble plus prometteur, aurait besoin d’être intégré à une suite de reconnaissance de l’écriture manuscrite pour que l’on puisse statuer sur son utilité applicative. En particulier, une étude quantitative de la qualité de la reconnaissance est nécessaire.

Cependant, on remarque bien qu’il nous apporte d’emblée une certaine résistance au bruit. Cela est dû à l’ancrage actif de la perception ; seules les zones dignes d’intérêt sont prises en compte. Peu importe ce qu’il se passe en dehors de ces zones. Les approches usuelles qui consistent à tenter de comprendre l’ensemble du flux perceptif sont de fait plus sensibles au bruit. Dans notre exemple, seule une petite portion du flux perceptif suivant une représentation dynamique interne de l’objet à reconnaître est appréhendée, ce qui simplifie les choses. La notion d’apprentissage n’est pas présente dans ce second algorithme. Si les caractères à reconnaître sont trop éloignés de l’image interne de celui-ci, alors la reconnaissance n’aura pas lieu.

Théoriquement, la première implémentation est plus intéressante. D’une part, la re- présentation interne des lettres est purement basée sur un modèle génératif, ce qui en fait une représentation basée sur l’action. D’autre part, la notion d’adaptation est présente : les mécanismes de mutation devraient permettre l’émergence de représentations internes capables d’anticiper n’importe quelle trace (si l’on n’impose aucune contrainte de temps). Hélas, en l’état actuel de l’implémentation, ce résultat n’est pas obtenu en un temps rai- sonnable. Nous proposons donc des pistes qui pourraient permettre d’obtenir de meilleurs résultats mais qui n’ont pas été testées.

Premièrement, il faudrait utiliser un algorithme permettant de repérer sur une image les points de départ des traces écrites. On pourrait alors faire partir les représentations internes de ces points de départ. Deuxièmement, au lieu de tenter de s’adapter à l’ensemble de la lettre, on pourrait le faire quart de cycle par quart de cycle (selon le modèle POMH), en cherchant à adapter les paramètres oscillatoires dans leur ordre d’apparition. Par ailleurs, la dynamique de l’écriture étant peu variable, on pourrait utiliser les temps des points d’annulation des vitesses associés à l’extraction de tangentes sur l’image à reconnaître. Cela permettrait de réduire grandement l’ensemble des séquences possibles. Bien sûr, de nouvelles erreurs seraient induites car les algorithmes d’extraction de points extrêmes et l’extraction de tangentes ne donnent pas toujours de bons résultats.

Conclusion

6.1 Contributions

Nous résumons ici les principales contributions de cette thèse tant au niveau théorique qu’au niveau technique.

Notre première contribution a été de réhabiliter le modèle oscillatoire de l’écriture, d’abord présenté par Hollerbach [1981], de le symétriser, de fournir une heuristique permettant de calculer les paramètres de celui-ci à partir de traces enregistrées, de l’appliquer à des lettres, des mots et des phrases entières. Il a aussi été appliqué avec succès à des traces écrites en langue étrangère, sur des phrases en arabe et sur des kanji chinois. A notre connaissance, c’est la première fois qu’un modèle oscillatoire de l’écriture est appliqué à des traces aussi complexes. Nous avons aussi comparé quantitativement notre modèle à celui d’Edelman et Flash [1987], qui est un des modèles usuels de la production de trace.

Notre seconde contribution a été, en s’appuyant sur les travaux de l’équipe du LAPMA à Toulouse [Athènes et al., 2004; Sallagoïty et al., 2004; Danna et al., 2010], d’étendre l’étude de la coordination par l’approche dynamique lors de la génération de trace, étu- diée pour des ellipses, à l’écriture en général grâce à différentes méthodes de calcul de la phase relative continue s’appuyant sur une vision oscillatoire de l’écriture. Par ailleurs, les liens entre phase relative, vitesse d’écriture et formation de la trace ont commencé à être explorés.

Notre troisième et dernière contribution théorique a été de commencer à appliquer la vision générative de l’écriture à la reconnaissance de caractère. En particulier, on a cherché à reconstruite la dynamique d’une trace écrite en utilisant POMH. Ce travail repose sur la philosophie interactiviste développée par Bickhard [2009], reprise dans le domaine de l’intelligence artificielle par Buisson [2004], Buisson et Quinton [2010], Perotto [2010] et Quinton [2008].

En ce qui concerne nos contributions techniques, nous avons d’abord mis en place une suite logicielle d’étude de l’écriture, HollerTools, présentée en annexeA, permettant :

• une gestion facilitée de la saisie de données manuscrites dans le cadre d’une expé- rience,

• une édition des signaux qui composent l’écriture, permettant d’explorer et de comprendre comment celle-ci se met en place,

• l’application à la volée d’algorithmes d’analyse sur des traces enregistrées, • une meilleure compréhension de la modélisation oscillatoire de l’écriture.

Nombre de nos algorithmes étant échafaudés avec MATLAB, et la traduction de ce dernier en Java (langage utilisé pour notre suite HollerTools) étant fastidieuse à la main, nous avons élaboré un traducteur automatique MATLAB vers Java, appelé MC, qui pourra être amélioré et mis à disposition de la communauté.

Enfin, nous avons développé une méthode, basée sur le crochetage d’API, permettant la réutilisation de jeux vidéos afin de bénéficier de leur moteurs physiques et graphiques souvent très sophistiqués (voir 6.2et D). Cet environnement permet aux équipes voulant interagir avec des environnements virtuels, riches et réalistes, de le faire sans dépenser de ressources au préalable à la réalisation d’un simulateur.

Dans le document Modélisation oscillatoire de l'écriture manuscrite (Page 107-112)