• Aucun résultat trouvé

7.2 Perspectives

7.2.2 Interopérabilité inter-taxonomique

Nous avons présenté nos travaux sur le développement d’un méta-modèle destiné à rendre les taxonomies plus inter-opérables. À ce stade, nos expériences représentent une importante preuve de concept : il est effectivement possible de produire des annotations pour une taxonomie différente de celle utilisée pour annoter les don- nées d’entraînement. Cependant, il devrait être possible d’aller plus loin dans cette direction s’il on souhaite aboutir à un système véritablement performant.

Les classifieurs que nous avons utilisés dans cette expérience sont simples, et nous avons montré qu’ils étaient peu efficaces lorsqu’il est question de reconnaître directe- ment les trait fonctionnels. Le meilleur système que nous ayons présenté consiste à reconnaître un label, puis à le convertir vers le label le plus pertinent dans la taxonomie de destination. Mais il serait intéressant de travailler sur l’alternative, à savoir apprendre et reconnaître directement les traits fonctionnels : en effet, cette démarche est nettement plus flexible, puisqu’elle permettrait d’apprendre à partir de données extraites de différents corpus, chacun pouvant être annoté avec sa propre taxonomie. À ce stade des expérimentations, les mêmes ensembles de caractéris- tiques ont été utilisés pour la reconnaissance des différents traits primitifs, mais une approche différente pour chaque type de trait devrait grandement améliorer le système, et permettre la reconnaissance directe des traits primitifs.

Cette solution a deux avantages. Le premier, bien sûr, est qu’elle permet d’utiliser plus de corpus, donc plus de données. Le second, tout aussi important, est qu’elle permet d’utiliser différents corpus pour apprendre tous les traits fonctionnels présents dans la taxonomie de destination, ce qui n’est pas possible autrement si la taxonomie de destination comporte des traits absents des annotations du corpus d’entraînement. Par exemple, admettons que la taxonomie pour laquelle nous souhaitons produire des annotations contienne les traitsA,BetC. Pour notre apprentissage, nous disposons du corpus X, dont la taxonomie comprend les traitsAetB, et le corpus Y, dont la

taxonomie comprend les traitsAetC. Si nous pouvons apprendre directement les traits, nous pouvons nous permettre de fusionner les corpus X et Y pour apprendre les trois traits,A,BetC.

Employer des techniques sophistiquées pour obtenir des résultats comparables à ceux d’un classifieur état-de-l’art en se basant sur les traits fonctionnels pourrait grandement réduire le besoin de produire de nouvelles annotations pour pouvoir utiliser une nouvelle taxonomie dans le contexte d’une tâche de reconnaissance des actes de dialogue. Il est extrêmement complexe et coûteux d’acquérir de nouvelles données annotées dans le domaine. Un tel système, s’il est suffisamment performant, pourrait grandement simplifier l’accomplissement de travaux futurs dans le domaine. On peut même imaginer l’extension du principe à d’autres tâches : le manque de

données annotées représente un des principaux obstacles au développement de nouveaux outils linguistiques basés sur des techniques d’apprentissage supervisé. Permettre la réutilisation de corpus annotés à l’aide de taxonomies différentes peut constituer un moyen intéressant de pallier à ce manque.

A

Taxonomie d’actes de dialogue

employée pour le corpus

Ubuntu-fr

La taxonomie présentée dans cette annexe se conforme aux principes conceptuelles du standard ISO 24617-2. Les actes de dialogue sont considérés comme la conjonc- tion d’une dimension sémantique et d’une fonction communicative.

Les dimensions sémantiques représentent l’aspect de la conversation sur lequel l’énoncé porte, tandis que les fonctions communicatives représentent l’intention rhétorique du locuteur, i.e. ce qu’il cherche à accomplir en produisant l’énoncé.

A.1

Dimensions sémantiques

DOMAIN / ACTIVITIES:

Concerne ce qui se rapporte strictement à la tâche, au domaine et à l’activité autour de laquelle la conversation est structurée, comme les instructions et les questions sur le sujet de la discussion (e.g. « ça fait longtemps que tu es sous Ubuntu ? »).

SOCIALOBLIGATION MANAGEMENT :

Concerne les énoncés porteurs d’actes de gestion sociale du dialogue et de politesse, comme les remerciements ou les salutations.

DISCOURSE MANAGEMENT:

Concerne les actes qui ont pour but de façonner la structure du discours, comme les annonces (e.g. « laissez-moi vous expliquer ») ou les demandes de changement de sujet (e.g. « parlons plutôt du problème de driver »).

EXTRA DISCOURSE:

Concerne les actes qui ont une fonction communicative mais qui ne sont pas discur- sifs, propres aux modalités de l’écrit en ligne, comme l’envoi d’un lien, d’un log ou le copié/collé d’un message d’erreur.

EVALUATION:

Concerne les actes de feedback qui portent sur le résultat de l’évaluation du contenu d’un énoncé précédent, i.e. de la comparaison de l’information nouvelle avec les connaissances antérieures du locuteur (e.g. « hein ? mais juste avant tu m’as dit de faire le contraire ? »).

ATTENTION PERCEPTIONINTERPRETATION:

Concerne les actes de feedback qui rapportent la bonne ou mauvaise perception (e.g. j’ai bien reçu ton sms »), compréhension (e.g. j’ai rien compris »), ou sur le manque d’attention du locuteur ou d’un allocutaire (e.g. tu m’écoutes ? »).

PSYCHOLOGICALSTATE:

Concerne les actes qui portent sur l’état psychologique et mental du locuteur (e.g. ça me fait marrer tout ça ! »).

CONTACTMANAGEMENT :

Concerne les énoncés porteurs d’actes de gestion et de contrôle de la transmission, que ce soit au niveau de son établissement, de son maintien, de sa reprise ou de son interruption (e.g. « je déco dans 5 minutes »).

COMMUNICATIONMANAGEMENT :

Concerne les actes de gestion des retours et des corrections portant sur la forme, le rendu, l’encodage ou la réalisation linguistique des énoncés générés (e.g. « pourquoi on voit pas les accents quand j’écris ? »).

TIMEMANAGEMENT:

Concerne les énoncés porteurs d’actes de gestion du temps, comme ceux signifiant que le locuteur a besoin de plus de temps pour contribuer ou qu’une pause dans le dialogue est nécessaire (e.g. « euuuuh... hmmm... »).