Évaluation en linguistique - Modèle descriptif des signes pour un traitement automatique des la

Pour évaluer la pertinence et l’utilité linguistiques du modèle, nous considérons la tâche qui consiste à rapprocher les signes (leurs descriptions) selon des propriétés communes ou établir des statistiques mesurant le taux d’apparition d’un phénomène particulier, à partir d’un corpus de plusieurs milliers de signes par exemple.

5.2.1 Utilité du modèle et mise en œuvre

Lorsque l’on observe un nombre suffisamment grand de descriptions, il devient naturel de les compiler dans un dictionnaire, sous une forme papier ou électronique via une interface utilisateur de consultation. Mais comment organiser le dictionnaire, en particulier l’ordre ou l’indexation des descriptions qu’il contient, pour réduire le temps de consultation, et quels moyens se donner pour sa consultation ?

Les bases de données informatisées deviennent en général incontournables pour mener ce type de recherche car :

– leur capacité de stockage est quasi-infinie ; – leur temps de consultation est quasi-nul.

Avec des données paramétriques, une base de données ne peut offrir que des requêtes sur des valeurs ou des listes de valeurs spécifiques pour chaque paramètre. Les requêtes typiques ont pour but de connaître la liste des signes utilisant une certaine configuration ou un certain emplacement parmi une liste, etc. Avec Zebedee et son fonctionnement par contraintes et dépendances, les requêtes deviennent plus riches. On peut désormais s’intéresser non seulement aux valeurs utilisées dans les descriptions, mais aussi à la structure même de ces descriptions, en d’autres termes consulter la topologie des dépendances et des objets contenus, pas seulement leur présence ou leur valeur.

Par exemple, il peut être intéressant de connaître la liste ou le nombre de signes définis avec un segment du côté dominant qui dépend (éventuellement par transitivité, voir note 7 page 128) d’un segment du côté dominé. C’est le cas de [bureau], où la tranche de la main dominante sera positionnée en des sites corporels liés à l’avant-bras opposé. En revanche, [ballon] ne vérifiera pas ce critère. La description de la fig. 4.25 définit le vecteur d’arc d’un point lié à la main dominée comme l’opposé de son homologue côté dominant, c’est-à-dire fait apparaître la dépendance inverse. Depuis près d’un an, le Limsi élabore une plate-forme complète de dictionnaire de signes ainsi qu’une interface de consultation, montrée sur la figure 5.3. Chaque entrée de ce dictionnaire admet déjà plusieurs visualisations : dessin tiré de [Moody 86b, Moody 89], vidéo d’un informateur LSF,

Fig. 5.3 – Interface de consultation du dictionnaire du Limsi

animation 3D rotoscopée²... La recherche de signes se fait pour l’instant en des termes paramé-triques classiques de configuration et d’emplacement. Les configurations sont cependant groupées selon leur ressemblance pour permettre une marge d’erreur dans les requêtes et éviter l’inconfort d’une longue liste de valeurs trop précises. L’emplacement est celui du début du mouvement de la main dominante, mais nous avons déjà démontré combien cette solution provisoire était limitée.

La section qui suit formule un bon nombre de pistes quant à de nouvelles possibilités de requêtes et d’études qu’ouvre notre modèle. En vue de tester ces propositions, nous entamons présentement, pour chaque entrée de notre base, la saisie de sa description selon le modèle donné dans cette thèse, reformulé dans le standard Merise. Nous agrémenterons ensuite notre dictionnaire d’un système de requêtes permettant l’extraction de signes sur la base de ces descriptions.

5.2.2 Propositions pour une évaluation

Une possibilité est de grouper les signes en fonction de leurs dépendances contextuelles, ou plus particulièrement de leurs arguments. Sur un dictionnaire entier de signes, si les groupes obtenus coïncident avec des critères sémantiques au lieu de présenter une répartition homogène, on peut supposer une raison sémantique (« étymologique » ?) aux groupes obtenus. Cette méthode est efficace pour confronter à des résultats statistiques plusieurs intuitions et hypothèses formulées par [Cuxac 00, Cuxac 04].

Nous donnons ci-dessous d’autres questions qu’il serait possible de traduire en requêtes pour

une base de données, ainsi que quelques signes qui les vérifient : – Quels signes contraignent un segment du bras dominé ?

Autrement dit, dans quels signes trouve-t-on une contrainte visant !f_arm(w), !arm(w), ou éventuellement !clav(w) ?

Par exemple, [bureau] convient ici.

– Quelle est la proportion de signes présentant une dépendance des deux mains sur un même troisième objet ?

P. ex. la contrainte maintenue dans [ballon] : For $h = s, w

Orient NRM !palm($h) along <@PA($h), [loc]> End

Les deux mains (segments !palm(s) et !palm(w)) dépendent ici de [loc].

– Quels signes ont une orientation, un emplacement ou une configuration indéterminée ou sous-déterminée pour une des mains à un instant du signe ?

En d’autres termes, quand bien même les trois paramètres historiques manuels suffiraient, quels signes ne sont pas descriptibles de manière paramétrique sans créer de sur-spécification ? P. ex. dans [garçon], donné figure 5.4, l’orientation absolue du segment !palm(s) n’est pas contraint.

– Quels signes n’ont aucune dépendance contextuelle ? Ici, [garçon] semble être un bon candidat.

– Plus de signes dépendent-ils (en contexte) d’une taille ou d’une distance que d’un objet géométrique ou l’inverse ?

– Quels signes n’ont pas d’influence contextuelle de type Point ?

– Parmi les signes ayant au moins un argument, combien font appel à la macro #m ? – . . . et ainsi de suite.

Fig. 5.4 – [garçon]

notions et observer les dépendances non plus individuellement mais de manière globale. À titre d’exemple, nous proposons les propriétés d’inclusion et d’égalité de structure. La définition exacte reste encore à établir, mais on peut penser à une inclusion structurelle de [garçon] dans [cicatrice] en LSF — nous rappelons ces signes figure 5.5. Leurs descriptions sont en effet qua-siment identiques ; le positionnement de l’extrémité du pouce est fixe aux deux postures-clés pour [garçon] tandis qu’il fait apparaître des dépendances contextuelles pour [cicatrice]. Avec le langage de spécification, on a pour les postures-clés de [garçon] les lignes :

(a) Place @T_TIP(s) at @FH(w) (b) Place @T_TIP(s) at @FH(s)

La ligne a spécifie la première posture-clé et la b la deuxième. Pour [cicatrice], les lignes homo-logues sont :

où [loc1] est le point (influencé par le contexte) de la première extrémité de la balafre, et [loc2] la deuxième. On peut voir la ligne a de garçon comme « incluse » dans la ligne c de [cicatrice]. Cette ligne est plus générique car [loc1] peut être fixé à @FH(w), mais pas nécessairement. De même, on définit une inclusion de b dans d.

Plus généralement, soient deux descriptions dont les séquences temporelles sont de même forme, c’est-à-dire composées du même nombre d’unités temporelles de description. Si toute contrainte à la n-ième unité temporelle de l’une est présente ou « incluse » à la n-ième unité de l’autre, la première sera dite structurellement incluse dans la seconde. Si la seconde est également structurellement incluse dans la première, elles sont alors structurellement égales. La paire [cicatrice]/[se faire opérer] serait un exemple de signes structurellement égaux. Aussi aurait-on des signes structurellement similaires entre [cicatrice] et [chirurgie] : la seule différence pour le positionnement de @T_TIP(s) entre ces deux signes au niveau descriptif est la définition des influences contextuelles [loc1] et [loc2]. La première est un point de contact corporel (sur le front), l’autre est dans l’espace. Dans les unités temporelles, @T_TIP(s) subit les mêmes contraintes. D’autres définitions peuvent encore faire un usage puissant des descriptions. Toute propriété observée sur les valeurs contenues dans les descriptions, les relations de dépendances, la topologie de ces dépendances dans les unités temporelles voire la répartition de celles-ci sur l’axe temporel pourra le cas échéant se révéler une propriété intéressante et mettre au jour de nouveaux critères en typologie des signes. Grouper ensuite les descriptions au regard des résultats ouvre de nouvelles

[cicatrice] [se faire opérer] [chirurgie]

(appendicite)

Fig. 5.5 – Inclusion et comparabilité des structures descriptives

perspectives en typologie des signes, voire des langues des signes si l’on compare les résultats en considérant plusieurs langues des signes à requêtes égales.

À ce stade, on comprend déjà que les possibilités de requêtes et d’études sont nettement plus nombreuses qu’une simple consultation de valeurs paramétriques. Elles deviennent plus modulables et plus spécifiques, ce qui précise les recherches et l’extraction de signes, et par conséquent affine les analyses. Pour autant, seule une utilisation à grande échelle par des linguistes ayant apprivoisé le modèle et l’ayant confronté à un corpus significatif de signes formera les bases d’une évaluation sur ce plan. Leur retour sur la productivité et la représentativité du modèle définira son utilité en recherche linguistique.

Nous nous intéressons maintenant au volet de l’évaluation en informatique.

Dans le document Modèle descriptif des signes pour un traitement automatique des langues des signes (Page 123-127)