• Aucun résultat trouvé

Efficacité des coefficients LSA à donner un indice sur la métaphoricité à l’oral métaphoricité à l’oral

Méthode d’analyse du corpus

3.7 Etiquettes et balises

3.7.5 Efficacité des coefficients LSA à donner un indice sur la métaphoricité à l’oral métaphoricité à l’oral

L‘intérêt de l‘étiquetage de chaque terme du corpus est multiple. Tout d‘abord, cette procédure d‘étiquetage correspond à une expérience d‘utilisation de l‘analyse sémantique latente dans le cadre de l‘oral, ce qui peut paraître incongru au premier abord, puisque le corpus de référence utilisé par l‘université du Colorado est un corpus écrit. Cette incongruité sera dissipée au vu des résultats qui permettent effectivement un assez bon tri des métaphores selon des paramètres de vivacité et d‘innovation10

.

Le corpus utilisé par l‘université du Colorado est composé de numéros du Monde, de romans et d‘autres textes d‘origine diverse. Mais l‘écrit, s‘il est par nature différent de l‘oral, emprunte à l‘oral des citations, et, plus important encore, les métaphores de l‘écrit sont similaires à celles produites à l‘oral. Elles sont plus élaborées, élaboration que la réflexivité de l‘écrit rend possible. Cette conception est argumentée dans une analyse préliminaire exposée dans le cadre d‘un DEA (Cloiseau, 2000 : 42), qui a fait ressortir les différents types de véhicules ou d‘espaces mentaux sources selon les termes de Gilles Fauconnier (1994 :4) utilisés dans l‘expression des métaphores sur la musique à l‘écrit. Ces espaces sont sensiblement identiques (la musique est un parcours, un projectile protubérant, la musique transperce les corps, est une nourriture ou un langage verbal) et l‘on peut estimer qu‘un calcul de proximité sémantique établi à partir de corpus écrit est exploitable à l‘oral. Cela ne signifie en rien qu‘un calcul LSA effectué à partir d‘un corpus d‘oral ne serait pas plus efficace. L‘utilisation du moteur LSA est donc expérimentale.

L‘autre intérêt réside dans le fonctionnement même du calcul du coefficient LSA. Il opère en tenant compte d‘un certain nombre de facteurs calculés par degré de collocation. Si une métaphore est lexicalisée, il y a de grandes chances pour qu‘elle soit présente sous la même forme ou une forme similaire utilisant les mêmes appariements conceptuels dans le corpus de référence, et donc son indice de proximité sémantique tiendra compte de ces collocations. La conséquence directe est que cet indice, dans une situation parfaite où le corpus de référence utilisé par l‘université du Colorado serait immense et sans cesse réactualisé, pourrait distinguer les métaphores vives des catachrèses.

10 La vivacité correspond au degré avec lequel le locuteur est conscient d‘utiliser une métaphore vive, donc la référence à deux concepts au moins, le degré d‘innovation est estimé uniquement par rapport à la lexicalisation. Une métaphore peut être vive sans être innovante, il s‘agit par exemple de métaphore ravivée (voir chapitre 1).

Le corpus de référence n‘est pas parfait et l‘indice LSA étiqueté à chaque terme ne peut donc être qu‘un outil parmi d‘autres dans le cadre de cette étude. Il donne une indication et peut aider au dépistage en permettant d‘opérer un premier tri qui va saisir, en plus du repérage manuel, tous les termes qui peuvent instaurer une imprévisibilité par rapport à a topique. Il n‘est cependant pas extravagant de penser que l‘on pourra bientôt avec le haut débit Internet, disposer de corpus qui s‘auto-alimentent en se réactualisant sans cesse. N‘est-ce pas le cas des moteurs de recherche.

Plus l‘oral sera présent dans ces corpus, plus ces corpus seront efficaces pour un travail sur l‘oral. En effet, les métaphores sont créées à l‘écrit et à l‘oral, et leur lexicalisation est le résultat d‘une utilisation généralisée à l‘écrit mais d‘abord à l‘oral. Cela permettrait aux corpus d‘intégrer les nouvelles collocations, qui deviennent à un moment de mort métaphorique, des collocations régulières selon les termes d‘Agnès Tutin et Francis Grossmann (2001 :12).

3.7.5.1 Un exemple de vérification de l‟efficacité des coefficients LSA pour

le dépistage des collocations régulières dans le cadre de la musique

Des tests ont été menés pour vérifier l‘efficacité du moteur LSA dans le dépistage des collocations régulières, et donc les métaphores lexicalisées. Ces tests sont contrastés avec les intuitions naturelles en ce qui concerne la proximité des concepts repères avec un terme donné.

Soit une expression musique contemporaine, il est intéressant de comparer les résultats obtenus texte à terme avec contemporaine, terme à terme avec le même mot, puis de répéter l‘opération avec un synonyme de contemporaine qui ne constitue pas une unité phraséologique avec musique.

Contemporaine texte à terme

Texts Text 1

contemporaine 0.12

Contemporaine terme à terme

Document musique contemporaine

musique 1 0.37

contemporaine 0.37 1

Actuelle texte à terme

Texts Text 1 actuelle 0.04

Actuelle terme à terme

Document musique actuelle musique 1 0.08 actuelle 0.08 1

Là encore, la comparaison terme à terme est beaucoup plus parlante. La proximité sémantique de musique et de contemporaine est de 0.37, celle de musique et de actuelle est de 0.08. Ce test est positif en ce qui concerne la régularité des collocations. Les collocations qui ont trait à la musique sans faire intervenir le terme musique directement sont-elles identifiables efficacement?

Proximité de musique et de aiguë (une note aiguë) Document musique aiguë

musique 1 0.14 aiguë 0.14

Proximité de musique et de pointue Document musique pointue musique 1 0.10 pointue 0.10

Proximité de musique et de aiguisée Document musique aiguisée musique 1 0.09 aiguisée 0.09

Aiguë, qui est une collocation régulière de note et non directement de musique en tant que

terme (et non de concept) est tout de même dépisté, bien qu‘avec moins de netteté, par le moteur LSA, qui lui attribue une distance sémantique d‘une valeur de 0.14, alors que cette valeur chute à 0.10 pour pointue (synonyme d‘aiguë) et à 0.09 pour aiguisée. Ce résultat est plutôt positif dans le cadre de l‘étude, car il semble prendre en compte à la fois le fait que aiguë soit une collocation régulière de note, et donc indirectement de toute évocation du concept de MUSIQUE,mais aussi du fait que mis à part la collocation régulière « note aiguë », les collocations sont rares. Dans une recherche de métaphore vive, le terme aiguë serait donc classé comme ayant un potentiel de vivacité métaphorique moyen.

La plupart des expressions récemment lexicalisées sont reconnues : « wave » (format de codage électronique du son) est étiqueté avec un fort coefficient :

Document musique wave musique 1 0.40 wave

Les corpus dont se sert le moteur LSA ne sont donc pas trop poussiéreux.

Outline

Documents relatifs