• Aucun résultat trouvé

Insertion de l’attribut LSA : Coefficient de proximité sémantique

Méthode d’analyse du corpus

3.7 Etiquettes et balises

3.7.4 Insertion de l’attribut LSA : Coefficient de proximité sémantique

Après avoir testé le site de LSA de l‘université de Colorado, qui traite également l‘anglais et le français, j‘ai décidé d‘adjoindre cet attribut. En effet, ce coefficient mesure l‘écart sémantique entre deux mots (et donc d‘une certaine façon la violation sémantique potentielle qui dénote les métaphores vives), deux textes ou un mot et un texte. Comme le montre Walter Kintsch (2000 : 257, 261), les métaphores semblent être détectables par ce coefficient qui représente le cosinus de l‘angle formé par les deux vecteurs9

représentant deux mots dans un espace virtuel sémantique à vingt dimensions. Les corpus utilisés pour le moteur LSA sont assez importants comme le montre l‘étude de Guy Denhière et de Benoît Lemaire (2004 :11,12), ils sont composés de :

En anglais (http://lsa.colorado.edu):

• Encyclopédies, littérature, manuels de psychologie, manuels scientifiques En français (en partie sur http://lsa.colorado.edu):

• Le Monde 93, 95, 97, 99 (~20 millions de mots chacun) • Textenfants (3,2 millions de mots)

• Littérature (15 millions de mots)

• Textenfants + Littérature ( 18,2 millions de mots)

Et les résultats sont concluants au vu de ces extraits de calculs de coefficients de distance sémantique:

• The cat was lost in a forest / My little feline disappeared in the trees: 0.66

• The radius of spheres / a circle's diameter: 0.55 • The radius of spheres / the music of spheres: .01

On voit par ces exemples que le moteur déjoue les fausses apparences, en attribuant une grande distance au couple « the radius of spheres/the music of spheres », alors que les deux premiers couples sont jugés très proches. Ici, dans le cadre des métaphores, ces deux mots sont d‘une part le terme qui porte la métaphorisation (tête de métaphore), d‘autre part le sujet, le topic ou support.

L‘attribution d‘un coefficient LSA permet d‘utiliser un critère sémantique pur conjointement à des critères morphosyntaxiques dans le phénomène de métaphorisation à l‘oral dans ces deux langues. En effet, on pourra sélectionner uniquement les lexèmes ou encore uniquement

les adverbes et prépositions (PREP, ADV), afin de faire des requêtes ciblées. C‘est le dernier attribut dont la procédure d‘étiquetage est déjà détaillée dans le chapitre suivant.

3.7.4.1 Efficacité du site LSA pour la détection de métaphoricité

Cette méthode a fait ses preuves en analyse de proximité sémantique (Hofmann 1999 :§3-4). Le moteur fait un score semblable à un bon niveau TOEIC au niveau de la justesse de l‘appréciation de la distance sémantique. De plus la méthode fonctionnant par l‘assimilation d‘un mot ou d‘un groupe de mots ou même d‘un texte à un vecteur, l‘ensemble des mots occupe un espace à n dimensions. Le coefficient attribué à un mot par rapport à un autre mot ou un autre texte est le cosinus de l‘angle que les deux vecteurs forment.

L‘analyse de Yves Bestgen et de Anne-Françoise Cabiaux a servi de référence à l‘adoption du moteur LSA pour l‘étiquetage. Le matériel et la problématique des auteurs étaient identiques à ceux de cette étude :

Vingt phrases contenant des expressions métaphoriques ont été sélectionnées dans neuf contes de Maupassant. Dix phrases exprimaient une métaphore vive et 10 une métaphore morte. Ont été considérées comme mortes les métaphores employant des mots dans un sens que le dictionnaire Petit Robert qualifie de figuratif alors que le sens des mots employés dans les métaphores considérées comme vives n'était pas mentionné dans ce même dictionnaire (Bestgen, Y,Cabiaux Anne-Françoise, 2002 :333)

De plus les teste opérés par les auteurs se sont avérés très satisfaisants :

Comme on peut le voir dans le Tableau 1, les métaphores vives ont généralement été évaluées comme plus figuratives que les métaphores mortes. La différence entre les valeurs moyennes pour les 10 métaphores vives (5,8) et celles pour les 10 métaphores mortes (5,2) est très significative selon un test t pour échantillons indépendants (t(1,18) = 3,07; p<,01). (Ibid., Ibid.:333, 334)

Les estimations des juges ont correspondu assez bien avec celles du moteur LSA quand à l‘appréciation de l‘intensité figurative. Plus la métaphore est vive, moins le calcul LSA semble efficace : « L'ASL approxime donc d'autant mieux le sens d'une métaphore que les juges l'ont jugée peu figurative » (Ibid., Ibid.:335).

Mais les auteurs concluent que « L'ASL peinerait donc là où les lecteurs rencontrent aussi des difficultés », ce qui est à moindre mal. Il semble en résumé que les résultats des auteurs soient concluants par rapport à la capacité du moteur LSA à faire la différence entre les versions métaphoriques et les versions littérales. Nos résultats semblent aller dans ce sens, et en

mesurant la distance sémantique systématiquement entre le véhicule potentiel et la topique qui demeure inchangée, on peut repérer une très forte proportion des éléments à potentialité de vivacité métaphorique.

Donc plutôt que d‘établir un programme qui pour chaque mot va établir un coefficient d‘écart sémantique avec ses proches voisins, on regarde tout simplement la différence des coefficients établis par rapport au Vecteur symbolisant le texte.

Plus le texte est long, plus il se rapprochera d‘un corpus représentatif, et plus les coefficients sont écrasés. On pourrait donc concevoir comparer chaque mot avec un texte composé des termes les plus fréquents (ici musique, jazz, rythme, taper, battre, batteur, son etc).

3.7.4.2 Essai de calcul des coefficients en opposant chaque terme du corpus

avec un texte composé des têtes de liste par ordre de fréquence

Il s‘agit de fabriquer un texte artificiel qui est une forme de mise en abyme du corpus entier. Ce proto-texte est formé de l‘adjonction des mots les plus fréquents pondérés par rapport à leur fréquence dans le corpus :

music 257 play 162 blues 161 band 135 jazz 108 playing 102 feeling 83 listen 81 album 77 guitar 75 feel 68 song 68 sing 62 hear 53 played 53 singing 45 songs 45 bands 44 rock 35 sound 33 listening 30 piano 15 voice 15

Le texte de référence sera donc : « album album band band band band band bands blues blues blues blues blues blues feel feel feeling feeling feeling etc». Les résultats obtenus sont peu satisfaisants : Texts Text 1 he -0.00 plays 0.35 like 0.06 water -0.00

Après de nombreux essais, il s‘avère que pour un étiquetage total du corpus, toutes catégories morphosyntaxiques confondues, les valeurs les plus justes ou cohérentes sont celles obtenues en comparant chaque terme avec un terme unique, à savoir « musique ». Le moteur LSA semble fonctionner de façon nettement efficace dans sa comparaison sémantique de deux termes. En effet dans ce cas-là les deux termes se voient assignés des valeurs calculées par rapport au corpus de référence, alors que lors des calculs terme à texte, seul le terme unique est sémantiquement évalué par rapport au corpus. Ce qui explique que le terme « he » ait un coefficient très faible au même titre que « water » : les deux ne figurent pas dans le texte comparé.

En comparant chaque terme avec un texte composé des termes les plus fréquents du corpus isolés à l‘aide d‘un logiciel d‘analyse de texte, même en pondérant les mots de façon relativement fidèle à leur fréquence dans le corpus, les catégories de lemmes grammaticaux étant sous-représentées dans le texte pilote se voient attribuer un très faible coefficient LSA, alors que leur écart sémantique avec le texte représentant le corpus devrait être moyen. C‘est donc avec un terme unique (musique) que la distance sémantique sera calculée dans cette étude. Pour un corpus dont la topique générale serait variable, la méthode utilisant un parseur de relation syntaxique a été détaillée supra.

3.7.4.3 Essai de calcul des coefficients en opposant chaque terme du corpus

avec un texte représentatif du corpus et avec le concept de musique seul

En réalisant des essais mot à mot avec le lexème le plus fréquent du corpus : « musique », il apparaît que les résultats sont moins aplatis, font émerger la différence entre les morphèmes grammaticaux et les lexèmes relativement éloignés sémantiquement de « musique ». Ce terme est aussi le terme le plus fréquent dans le corpus anglais. Autre avantage, il est le thème même de tous les échanges.

En considérant un seul terme, le coefficient de proximité sémantique sera calculé par rapport aux co-occurrences de « musique » dans le corpus utilisé par le moteur LSA de l‘université du Colorado. Cette solution est donc sélectionnée au vu des résultats des tests effectués. Les corpus de référence sélectionnés pour le calcul sont les plus larges pour le français et pour l‘anglais:

Figure 9 sélection des paramètres de réglage de LSA Matrix comparison (http://lsa.colorado.edu/)

Comparaison texte à termes (MUSIC  he, plays, etc…) Texts music

he -0.02 plays 0.20 like -0.01

water -0.01

Comparaison terme à terme (music he, music plays etc…) :

Texts music he 0.13 plays 0.34 like 0.17 water 0.02

Ici, trois catégories émergent clairement des résultats de façon remarquable:

FORT COEFFICIENT : Il s‘agit de la catégorie de termes tels que plays qui est sémantiquement proche de musique, et est affectée du coefficient 0.34 (cosinus des deux vecteurs représentant les deux concepts), ce qui est élevé.

MOYEN COEFFICIENT : La catégorie des morphèmes grammaticaux, he, like dont les coefficients avoisinnent 0.15. Cela correspond en quelque sorte à un indicateur de neutralité.

FAIBLE COEFFICIENT : La catégorie de water, qui avec une distance sémantique de 0.02 avec music, se positionne nettement comme un candidat à la métaphorisation.

Conclusion

Les résultats sont nettement plus probants en utilisant les termes musique/music seuls, qui demeurent la topique générale de tous les entretiens, qu‘en utilisant un proto-texte composé des mots les plus fréquents pondérés selon leur fréquence. Les résultats pour he sont plus pertinents avec une comparaison terme à terme que texte à terme, (0.13 / -0.02). Ce pronom anaphorique renvoyant souvent au musicien dans le cadre des interviews n‘est pas sémantiquement incompatible avec music, puisqu‘il entretient une relation métonymique avec ce même concept. Cette solution sera donc adoptée, bien qu‘elle ne soit pas parfaite. Il demeure à vérifier si l‘on obtient le même éclairage avec le corpus français.

terme musique jouer 0.39 du 0.26 mètre 0.04 impair 0.03 ben 0.10 ce 0.26 être 0.21 oui 0.11 ce 0.26

être 0.21 comme 0.28 de 0.25 le 0.26 eau 0.08

Ici on obtient les candidats à un écart sémantique « métaphorique » ainsi que les deux autres classes de coefficients vues ci-dessus, il semble y avoir une assez bonne cohérence entre les deux langues : Fort coefficient : « jouer », moyen coefficient : « du, ce, être, comme… », et faible coefficient : « mètre, impair, eau », ces résultats sont à la fois compatibles avec une recherche de métaphore et avec les trois catégories définies en anglais.

3.7.5 Efficacité des coefficients LSA à donner un indice sur la

Outline

Documents relatifs