• Aucun résultat trouvé

Informations exploitées pour la levée de l’ambiguïté

1.1. Le rôle du contexte dans la désambiguïsation

La seule manière d’identifier le sens d’un mot ambigu est de se référer à son contexte (Ide et Véronis, 1998), ce qui explique la place prépondérante du contexte dans tous les travaux de désambiguïsation. Plus précisément, la sélection du sens correct véhiculé par une nouvelle instance d’un mot ambigu consiste à supprimer les acceptions qui génèrent un « conflit » sémantique avec le contexte de l’instance. A la fin de ce processus, si toutes les acceptions sont supprimées sauf une, celle-ci est sélectionnée et attribuée à l’instance en question128. Ce mécanisme de sélection est caractéristique des méthodes

127 Une telle modélisation n’est pas évidente pour tous les domaines de connaissance ni pour un grand nombre de langues.

128 Dans le cadre de la communication humaine, le contexte peut avoir, outre la sélection, d’autres effets sur le sens d’un mot, comme la coercition et la modulation (Cruse, 2004 : 118-120). Dans le cas de la coercition, si aucune des acceptions établies d’un mot n’est compatible avec le contexte, les récepteurs du message cherchent des extensions possibles de sens (comme la métaphore et la métonymie), afin de trouver une acception compatible avec le contexte (en admettant l’hypothèse

automatiques de désambiguïsation. Il ne faut bien évidemment pas s’attendre à retrouver un tel fonctionnement dans le cadre de la communication humaine ; s’il peut se produire, consciemment ou inconsciemment, il est fort probable que les alternatives d’interprétation ne franchissent pas le seuil de conscience du locuteur et que la sélection du sens correct soit effectuée sans considérer les autres possibilités (Bréal, 1899 : 156).

Le contexte est donc conçu comme ayant, le plus souvent, un rôle réducteur : il ressemble à un « filtre » qui permet de lever nombre d’ambiguïtés virtuelles. Ce rôle du contexte dépend des mots qui y apparaissent. L’inclusion dans le contexte de mots sémantiquement apparentés à l’un des sens du mot ambigu (également appelés mots amorces) facilite la sélection de ce sens parmi l’ensemble des sens possibles du mot129. Le contexte peut, en outre, être

caractérisé comme inducteur, dans le cas où il existe une affinité préférentielle entre lui et l’une des significations de l’expression ambiguë, affinité que l’on peut traduire en termes de probabilité relative d’apparition de la significations en présence du contexte considéré (Fuchs, 1996 : 59)130.

Une remarque générale s’impose, à propos du rôle du contexte dans la levée de l’ambiguïté : la désambiguïsation de mots caractérisés par des types ou des

que les locuteurs essaient de transmettre un message intelligible). Si une telle acception est trouvée, elle est alors considérée comme l’acception visée et le contexte est considéré comme ayant induit une nouvelle acception. En revanche, la modulation peut être perçue comme de la variation contextuelle qui ne traverse pas les limites d’un seul sens et englobe des phénomènes comme l’enrichissement et l’ appauvrissement, qui dépendent du type de l’effet exercé par le contexte sur le mot. L’enrichissement ajoute du contenu sémantique, il enrichit le sens ou le rend plus spécifique (spécialisation hyponymique ou méronymique). L’appauvrissement survient lorsque le contexte rend évidente l’utilisation du mot dans un sens vague (Cruse, ibid.). Ainsi, le contexte ne lève pas toujours les ambiguïtés mais peut en révéler, voire même en créer de nouvelles (Fuchs, 1996 : 53- 55).

129 Le rôle important des « mots amorces » sur la sélection du sens correct d’une instance d’un mot polysémique a été démontré par des expériences menées en psycholinguistique, qui mesurent la facilité avec laquelle le sujet sélectionne le sens correct du mot en présence de mots amorces situés à proximité (Kintsch et Mross, 1985). Les résultats de ces expériences ont montré que les collocations sont traitées de façon différente des autres cooccurrences : les mots amorces qui se trouvent en collocation fréquente avec les mots polysémiques servent à les activer dans les tâches de décision lexicale, tandis que ceux qui sont liés au contexte thématique ne facilitent pas les décisions lexicales des sujets.

130 Comme nous avons déjà souligné, l’étude de la notion de « contexte » dans notre travail se limite au contexte linguistique. Nous pouvons néanmoins préciser que les facteurs extra-linguistiques ont, à l’instar du contexte linguistique, un rôle à la fois réducteur et démultiplicateur en matière d’interprétation. Ces facteurs exercent en effet une action déterminante dans l’interprétation, qui explique que peu d’ambiguïtés linguistiques effectives donnent lieu à de réelles équivoques en

degrés différents d’ambiguïté ne requiert pas le même type d’informations. La nature et la quantité des informations contextuelles requises sont dépendantes des relations entretenues entre les différents sens des mots, de leur distinctivité et de leur exclusion. La résolution de l’ambiguïté contrastive (Weinreich, 1964 ; Pustejovsky, 1996 : 2), par exemple, est considérée dans la plupart des travaux de désambiguïsation comme un cas relativement simple. Les sens contrastifs sont en effet souvent de nature exclusive, c’est-à-dire qu’un sens n’est disponible que si aucun autre ne l’est dans un contexte donné. Pour pouvoir opérer une sélection entre sens différents d’une unité lexicale caractérisée par ce type d’ambiguïté, la prise en compte d’informations sur le domaine ou le sujet traité peut donc s’avérer suffisante.

1.2. Exploitation des informations du domaine

1.2.1. Levée de l’ambiguïté par restriction à des domaines précis

Le rôle du domaine comme paramètre important de la restriction de l’ambiguïté lexicale a déjà été reconnu dans les premiers travaux de désambiguïsation menés dans le cadre de la TA. La solution proposée pour la réduction des sens possibles des mots ambigus – et la sélection de traductions pour de nouvelles instances de ces mots dans les textes – consistait à construire des micro-glossaires, c’est-à-dire des glossaires destinés à n’être utilisés qu’au sein de domaines spécialisés (Oswald, 1952 ; Reifler, 1954). Les sens des mots ambigus décrits dans ce type de glossaire étaient réduits aux sens pertinents dans le domaine concerné, ce qui éliminait une partie de son ambiguïté, proportionnelle à la spécialisation du domaine.

L’impact des informations du domaine et du sujet traité dans la désambiguïsation est en effet si important que, dans certains cas, ces informations suffisent à elles seules à sélectionner le sens correct des mots. Même si elles ne sont pas fournies au sein de ressources spécialisées, comme les micro- glossaires, elles peuvent être néanmoins repérées à l’échelle du document ou dans des portions de texte plus petites. Pour chaque sujet, il existe un sous-

vocabulaire de termes appropriés le désignant. Les méthodes de désambiguïsation qui utilisent ce type d’informations contextuelles exploitent la redondance dans les textes, c’est-à-dire l’usage répétitif de mots sémantiquement liés à un sujet précis. Dans ces cas, le contexte est traité le plus souvent comme un sac de mots, autrement dit un ensemble de mots non ordonné ; ce qui importe étant la cooccurrence d’un sens précis du mot ambigu avec des mots liés au sujet traité au sein d’une fenêtre textuelle. La tâche de désambiguïsation consiste alors à identifier le sujet traité par le nouveau texte et à sélectionner le sens du mot ambigu le plus adapté.

Dans un nombre important de travaux, le domaine traité constitue donc la principale source d’informations pour la désambiguïsation. Gale et al. (1992a) proposent de recourir à des méthodes proches des méthodes de Recherche d’Information131. Les informations exploitées par ce type de méthodes, lors des

phases d’entraînement (phase servant à élaborer des discriminateurs de sens) et d’évaluation (étape de désambiguïsation de nouvelles occurrences des mots ambigus), sont repérées dans des contextes très larges (100 mots autour du mot ambigu). La désambiguïsation se base sur le principe un sens par discours, principe régissant également la méthode proposée par Yarowsky (1995) 132, selon

lequel, le sens d’un mot est le même tout au long d’un document. Autrement dit, les différentes instances du mot dans le texte véhiculent tous le même sens. Les deux méthodes précitées (Gale et al, ibid., Yarowsky, ibid.) visent néanmoins à distinguer les deux sens principaux des mots étudiés, liés à des sujets différents133.

En revanche, le travail de Magnini et Cavaglià (2000) s’attache aux sens des mots décrits dans WordNet. Les synsets de WordNet sont étiquetés à l’aide d’informations de domaine (Magnini et Cavaglià, ibid.) et Magnini et al. (2002)

131 Les méthodes de recherche d’information visent la discrimination entre documents en fonction du sujet traité et l’identification de nouveaux documents relatifs à un sujet donné.

132 Dans le travail de Yarowsky, cette hypothèse est combinée avec le principe un sens par collocation. Ce principe prend en compte le contexte local du mot à désambiguïser, supposé fournir des indices forts et consistants sur le sens du mot, conditionnés par la distance relative, l’ordre et la relation syntaxique (Yarowsky, 1995). Le mot « collocation » est employé ici dans son sens traditionnel, à savoir, les mots apparaissant au même endroit ou une juxtaposition de mots. Aucune interprétation idiomatique ou non-compositionnelle n’y est impliquée.

utilisent ensuite ces informations pour la désambiguïsation134. Ces informations

permettent l’établissement de relations entre les sens lexicaux, qui peuvent être utilisées de manière profitable lors du processus de désambiguïsation. Des vecteurs construits à partir de WordNet déterminent les domaines pertinents pour les sens des mots ambigus et sont, par la suite, comparés avec les vecteurs construits sur la base des contextes des nouvelles instances de mots. Le sens correspondant au vecteur le plus proche au vecteur du contexte est alors sélectionné comme étant le sens approprié du mot135.

1.2.2. Limites de l’apport du domaine pour la désambiguïsation

La caractérisation d’un texte par rapport au domaine et au sujet traité peut donc, dans certains cas, aider à la désambiguïsation lexicale de manière importante. Ce processus n’est pourtant pas aussi simple qu’il le paraît, étant donné le degré variable de spécialisation des textes136 et l’existence possible de

sujets différents à l’intérieur d’un texte, et ce, même au niveau de petites sections textuelles. Une autre source de complication, entravant le bon fonctionnement de ces méthodes, concerne le nombre de sens d’un mot qui sont liés à un domaine ; lorsque ce nombre est supérieur à un, les informations du domaine ne suffisent évidemment pas pour pouvoir choisir entre les sens.

Cet aspect est souligné par Sparck Jones (1986 : 15-18), qui considère les étiquettes de domaine comme trop « grossières » et non pertinentes pour la description du sens d’un mot dans un contexte particulier : un mot peut en effet être utilisé dans des sens différents dans un texte qui traite pourtant d’un sujet bien précis137. Yarowsky (1992), en exploitant les informations liées aux catégories

134 Les informations de domaine permettent l’établissement de relations entre les sens décrits dans WordNet, et rendent possible leur regroupement et, par conséquent, la réduction de leur granularité (souvent critiquée comme étant trop fine).

135 Les résultats sont assez faibles du point de vue du rappel ; la raison en est, d’après les auteurs, que les mots des contextes, utilisés pour la désambiguïsation, ne véhiculent pas suffisamment d’informations relatives aux domaines.

136 Le terme « texte spécialisé » peut être appliqué à des textes caractérisés par des degrés de spécialisation différents. L’ensemble de sens possibles des mots ambigus au sein d’un texte est d’autant plus petit que la spécialisation du texte est grande.

137 Nous verrons plus bas l’exemple de l’homonyme anglais plant, dont les deux sens contrastifs, « plante » et « usine », se manifestent au sein de textes relatifs à la protection de l’environnement.

sémantiques du thésaurus Roget’s, souligne également les limites d’une telle méthode de désambiguïsation. Ces limites caractérisent, d’une part, les mots qui présentent des distinctions sémantiques indépendantes d’un sujet précis et, d’autre part, les cas où des distinctions sémantiques fines peuvent être repérées au sein d’une catégorie du thésaurus138.

La prise en compte des informations de domaine ne permet que le traitement de certains cas particuliers d’ambiguïté. Gale et al. (1992a, 1993) soulignent d’ailleurs que les exemples utilisés pour illustrer le fonctionnement des méthodes de ce type sont bien choisis et concernent des mots particulièrement adaptés à une telle procédure de désambiguïsation, dans la mesure où leur contexte contient souvent des indices très forts. La désambiguïsation à l’aide d’informations relatives au domaine et au sujet traité réussit effectivement bien surtout dans le cas de sens lexicaux bien distincts. Les informations de ce type ne sont pas suffisantes pour distinguer et sélectionner des sens moins clairement distincts et plus apparentés. Par exemple, dans le cas de la polysémie logique (Pustejovsky, 1995), où les sens d’un mot sont complémentaires et non exclusifs, et où ils ont un effet d’ « ombrage » beaucoup plus faible les uns sur les autres, la désambiguïsation par prise en compte d’informations de domaine n’est pas possible. Les sens différents d’un mot à polysémie logique peuvent paraître tous équivalents pour l’interprétation du mot dans un domaine précis, bien qu’un seul sens soit visé dans un contexte particulier.

La sémantique des mots traités influence donc fortement l’applicabilité et l’efficacité des méthodes de désambiguïsation basées sur les informations de domaine. Des divergences quant à l’efficacité de ces méthodes peuvent aussi être observées au niveau d’un seul mot ; ainsi lorsque le mot est caractérisé conjointement par homonymie et polysémie139.

Les informations de domaine s’avèrent également insuffisantes pour désambiguïser des mots dont les différents sens n’ont pas de lien clair à un sujet précis (Sparck Jones, 1986 : 15-18 ; Yarowsky, 1992 ; Leacock et al., 1998).

138 Telle est, par exemple, la distinction entre les sens médical et narcotique du mot drug, qui sont regroupés au sein de la catégorie ‘REMEDY’ du thésaurus Roget’s.

L’existence de sens qui ne sont pas limités à des sujets particuliers mais qui, au contraire, apparaissent librement dans des domaines différents de discours, fixe d’autres limites à l’applicabilité du principe « un sens par discours » de Gale et al. (1992b).

1.3. Le contexte local ou « micro-contexte »

1.3.1. Taille du contexte

L’inadéquation constatée des informations de domaine à la désambiguïsation dans un grand nombre de cas a généré la recherche d’autres sources d’informations plus appropriées, dont la plus importante est le contexte lexical ou local des mots140. Le contexte local (ou micro-contexte) d’un mot

concerne les mots qui apparaissent à proximité de ce mot dans le texte. Selon Weaver (1949), si l’on examine séparément chacun des mots dans un livre, comme à travers un masque opaque avec une fente de la taille d’un mot, il est alors impossible de déterminer leur sens. Cependant, si on élargit la fente du masque, jusqu’à ce que l’on puisse voir non seulement le mot cible en question mais aussi N mots de chaque côté, alors si N est assez grand, on peut décider de manière non ambiguë du sens du mot cible.

Le contexte local est donc souvent délimité à l’aide d’une fenêtre textuelle qui se situe à gauche ou à droite ou des deux côtés d’une instance du mot ambigu et dont la taille peut varier141. La définition de la taille de la fenêtre textuelle est

liée à celle de la distance optimale entre le mot ambigu et les indices contextuels pouvant servir à sa désambiguïsation. La détermination de cette distance optimale a fait l’objet d’un grand nombre de travaux dont les résultats sont assez variés.

140 Le contexte lexical est aussi appelé co-texte (Fuchs, 1994 : 133), ce qui permet de le distinguer du contexte plus général qui entoure l’acte de communication, et qui peut s’appliquer aussi bien aux informations venant du texte qu’aux paramètres extra-linguistiques de communication (les conditions spatiales et temporelles, les participants à l’acte de communication, les connaissances du domaine etc.).

141 Les fenêtres peuvent être soit délimitées à l’aide de séparateurs de phrases ou de paragraphes, soit définies à l’aide de « n-grammes », qui permettent l’observation d’un certain nombre (n-1) de mots entourant le mot polysémique dans le texte.

Pour Kaplan (1955), par exemple, le mot précédant le mot polysémique dans le texte est un très mauvais indice de désambiguïsation et nettement moins approprié que le mot suivant. Une fenêtre comprenant un mot de chaque côté du mot polysémique est plus efficace que celle qui en contient deux, et l’intérêt de retenir deux mots de chaque côté du mot polysémique est comparable à celui de la phrase entière. La pertinence des contextes très limités (± 1 ou ± 2 mots autour du mot polysémique) est également défendue par Choueka et Lusignan (1985) mais essentiellement pour la désambiguïsation des homographes142.

Leacock et al. (1998) utilisent une fenêtre de ± 3 mots autour du mot ambigu, tandis que le classificateur utilisé par Bruce et Wiebe (1994a, 1994b) prend en compte ± 2 mots autour du mot ambigu. Pour Yarowsky (1993, 1994), la taille optimale de la fenêtre textuelle dépend du type de l’ambiguïté qui caractérise les mots : une grande fenêtre (de 20 à 50 mots) autour du mot ambigu est considérée comme étant optimale pour les ambiguïtés sémantiques ou relatives au sujet traité, tandis que pour les ambiguïtés syntaxiques locales, une plus petite fenêtre (de 3 ou 4 mots) est considérée comme suffisante.

La catégorie grammaticale du mot ambigu constitue pour Yarowsky (ibid.) un autre facteur de variation de la taille de la fenêtre : une grande fenêtre textuelle peut être utilisée pour la désambiguïsation des noms, mais pour les verbes et les adjectifs, sa taille doit être beaucoup plus petite. En effet, Gale et al. (1992a, 1992b) montrent que l’utilisation d’un contexte large (±50 mots autour du mot polysémique) améliore sensiblement les résultats de la désambiguïsation des noms polysémiques, par rapport à l’utilisation d’un contexte plus restreint (±6 mots).

La catégorie grammaticale du mot ambigu peut également expliquer le besoin de recourir à un contexte symétrique. Audibert (2003) soutient que, contrairement aux noms et aux adjectifs pour lesquels la majeure partie de l’information levant l’ambiguïté se situe au sein d’un contexte de ± 1 mot autour du mot ambigu, pour les verbes la partie essentielle de l’information se trouve en

position +2, voire même +3143. Un contexte dissymétrique (-2 / +4) serait donc

préférable dans le cas des verbes. Crestan et al. (2003) ont élaboré, quant à eux, une méthode qui identifie automatiquement la fenêtre optimale pour chaque phrase contenant une instance du mot ambigu ; ce qui élimine le besoin d’identifier a priori la fenêtre optimale pour un mot donné. Ils ont ainsi démontré qu’utiliser un système à adaptation dynamique améliore la performance de la désambiguïsation, surtout en ce qui concerne les noms et les adjectifs.

1.3.2. Traits contextuels diversement appréhendés

Aux divergences quant à la taille du contexte viennent s’ajouter des divergences concernant la manière dont les traits du contexte doivent être pris en compte. Les informations contextuelles retenues peuvent caractériser, simplement, la présence ou l’absence de mots dans le contexte du mot ambigu, approche appelée sac de mots. Dans une telle approche, le contexte comprend les mots qui apparaissent à l’intérieur d’une fenêtre autour du mot ambigu, c’est-à- dire ses cooccurrents, et ceux-ci sont considérés comme un groupe en soi, sans égards à leurs relations avec le mot ambigu en termes de distance, de relations grammaticales, syntaxiques, etc. (Ide et Véronis, 1998)144.

Les relations entretenues entre cooccurrents, ou entre cooccurrents et mot ambigu, peuvent être prises alternativement en compte (Leacock et al., 1998). Les informations utilisées pour la désambiguïsation sont dans ce cas plus sophistiquées et peuvent s’appliquer à l’ordre, la position et la distance des mots, leurs relations syntaxiques et grammaticales, les collocations, mais aussi à des aspects comme les préférences de sélection des mots, leurs catégories sémantiques, leurs propriétés orthographiques ou morphologiques et leur