Traits utilisés - Étiqueteur Brill - : Identification automatique des MI

Chapitre 3 : Identification automatique des MI

2.2 Étiqueteur Brill

2.3.5 Traits utilisés

Le classifieur SVM utilise différents types d'information au sujet du contexte linguistique de l'unité qu'il cherche à identifier. Nous avons testé un grand nombre de ces traits au cours du processus d'optimisation du classifieur. La combinaison des six traits présentés ici s'est avérée avoir l'influence la plus positive sur les performances de la méthode d'identification.

Le tableau 8 montre comment différents traits permettent au système de considérer le problème de classification à partir de différentes sources d'information. Notons que le terme token est ici utilisé afin de regrouper les différents types d'unités que l'on retrouve dans les transcriptions, comme les mots, les pauses, les intonations, les marques de citation et les indicateurs de rire.

Tableau 8 : Traits utilisés pour l'entraînement du classifieur SVM

Sources d'informations

Traits Dimensions potentielles

Texte cible Signifiant du token cible 85 (nb de signifiants qui peuvent être des MI)

Signifiant du token suivant 27899 (nb de signifiants distincts dans le corpus)

Texte étiqueté Étiquette du token cible 2 (nb de classes, 'M' ou 'S') Étiquette du token suivant 14 (nb d'étiquettes possibles) Étiquette du token précédent 14 (nb d'étiquettes possibles) Dictionnaire Regroupement syntaxique du token

cible 7 (nb de catégories)

L'exemple (51) permet de situer ces traits de manière concrète à partir d'un extrait d'un énoncé étiqueté. Chacun des couples de parenthèses liste un signifiant et l'étiquette que l'étiqueteur à n- gramme lui a attribué.

(51) [... ('ah', 'M'), ('non', 'M'), ('non', 'M'), ('écoute', 'M'), ('j_', 'PRO'), ('ai', 'S'), ('fait', 'S'), ('_debut_citation', 'M'), ('hi', 'M'), ('_fin_citation', 'M'), ('j-', 'AM'), ('ça', 'S'), ('ça', 'S'), ('fausse', 'S'), ('là', 'M'), ('ç-', 'AM'), ('ça', 'S'), ('fausse', 'S')]

[Texte original : CFPQ, sous-corpus 26, segment 6, page 99, ligne 9]

On voit que le texte cible fournit au système les signifiants du token cible (écoute) et du token suivant (j'). L'étiqueteur à n-grammes fournit les étiquettes du token cible ('M'), du token précédent ('M') et du token suivant ('PRO'). Le regroupement syntaxique du mot cible ('verbes' dans ce cas) est une information invariable fournie par une simple liste de valeurs dans le but de tenir compte de certaines similitudes de comportement syntaxiques entre certains vocables. Nous donnons plus d'explication sur chacun de ces traits plus bas.

Les nombres de la colonne de droite équivalent au nombre de valeurs que peuvent prendre les traits. Par exemple, 85 unités différentes sont dans la liste des signifiants qui peuvent être des

MI : le trait du signifiant du token cible peut donc être caractérisé par 85 valeurs différentes et exclusives.

2.3.5.1 Signifiant du token cible

Le signifiant de l'unité cible permet au système de différencier les vocables et de prendre en compte cette information lors de la classification. La prise en compte de ce trait a permis une légère amélioration des performances du classifieur.

Ce trait permet également au système de calculer précisément les scores du classifieur pour chaque vocable.

2.3.5.2 Signifiant du token suivant

Ce trait permet d'adresser un problème fondamental de l'étiqueteur à n-grammes qui ne prend pas en compte le contexte syntaxique à droite du token cible.

Comme un grand nombre de valeurs sont possibles pour ce trait, le système a besoin d'un plus grand nombre de bits pour le représenter. Ce trait est par conséquent le plus demandant en termes de ressources informatiques (besoins qui restent très faibles).

2.3.5.3 Étiquette du token cible

Comme nous allons le voir au point 3, l'étiqueteur à n-grammes identifie le plus souvent correctement les MI. Nous estimons que le trait le plus déterminant pour l'entraînement du classifieur SVM est l'étiquette attribuée au token cible par l'étiqueteur à n-grammes. Parmi toutes les informations dont le système dispose, aucune autre n'est plus directement liée à la classe du token cible que cette étiquette.

2.3.5.4 Étiquette du token suivant

L'étiquette du token qui suit le token cible permet un niveau de généralisation supplémentaire quant au contexte syntaxique à droite de celui-ci. Il permet par exemple de regrouper les intonations de différentes forces en un seul trait.

2.3.5.5 Étiquette du token précédent

L'étiquette du token qui précède le token cible est une information qui semble redondante puisque déjà prise en compte par l'étiqueteur à n-grammes (par l'étiqueteur à bi-grammes). Le système bénéficie pourtant nettement de l'utilisation de ce trait.

2.3.5.6 Regroupement syntaxique du token cible

Le groupement syntaxique du token cible est un trait qui est déterminé à partir d'informations extérieures au contexte linguistique du texte cible. Nous avons regroupé les signifiants qui peuvent être des MI en différentes catégories suite à une expérience avec l'étiqueteur à n- grammes qui a permis de démontrer que certains MI ont des comportements syntaxiques similaires. Le processus qui a mené à la détermination des regroupements de signifiants présentés au tableau 9 est expliqué plus bas.

Tableau 9 : Regroupements syntaxiques des MI

Regroupements Signifiants

sacres ostie, ostique, ostifie, ostine, crisse, crif, crime, cristie, câlisse, câlique, câline, câlif, tabarnaque, tabarnache, tabarnouche, tabarnique, calvaire, calvince, ciboire, cibole, viarge, sacrement, sacre, sacréfice, simonaque, maudit, mautadit, baptême, batinse, torieu

infirmatifs ┌_{pas du tout}┐_{, pantoute,}┌_{pas vraiment}┐_,┌_{vraiment pas}┐_,┌_{du tout}┐ affirmatifs ┌_{je comprends}┐_,┌_{une chance}┐

expressifs super, malade, cool

verbes regarde, écoute, tiens, arrête, envoye, arrêtez, regardez, écoutez adverbes ┌_vraiment┐_,┌_{pour vrai}┐_{, franchement, tellement}

L'étiquetage automatique des MI par l'étiqueteur à n-grammes présente plusieurs difficultés, principalement en raison de la faible fréquence de plusieurs d'entre eux. Une façon de contourner ce problème est de rassembler des signifiants aux comportements syntaxiques similaires afin de constituer des corpus d'entraînement de plus grandes tailles.

Afin de déterminer la pertinence de regrouper certains vocables, nous avons testé et comparé (de manière automatique) une grande quantité de regroupements de vocables possibles et avons retenu les regroupements qui obtenaient les meilleurs résultats lorsque l'étiqueteur à n-grammes les prenait pour cibles.

Le regroupement des vocables SUPER, MALADE et COOL est un exemple où les performances de l'étiqueteur augmentent significativement si on les compare avec celles qu'il obtient lors de l'analyse individuelle de chacune de ces unités.

Il est intéressant de constater que les unités qui gagnent le plus à être regroupées sont souvent issues de classes grammaticales similaires et ont des sens similaires. Ainsi, le regroupement des « infirmatifs » concerne des vocables issus de locutions adverbiales, tandis que le regroupement des expressifs concerne des unités dont les signifiants peuvent jouer le rôle d'adjectifs.

En pratique, l'information au sujet du regroupement syntaxique auquel appartient tel ou tel vocable est communiquée au classifieur SVM à l'aide d'une liste de variables. Les unités qui sont absentes du tableau 9 se voient attribuer la valeur « autres » pour ce trait.

Dans le document Identification automatique et analyse sémantique des marqueurs illocutoires du français québécois en contexte de conversation familière (Page 87-91)