• Aucun résultat trouvé

En tant que tâche à part entière, l’identification d’EPs comporte de nombreux défis, en

particulier liés aux caractéristiques des EPs que sont l’ambiguïté, la discontinuité, l’enchâssement

et le chevauchement, ainsi que leur variabilité (cf. section 1.2).

2.5.1 Ambiguïté

Comme pour de nombreuses tâches du TAL, l’ambiguïté est l’un des défis importants de

l’identification d’EPs, puisqu’une méthode d’identification doit être capable de distinguer les

occurrences littérales des occurrences idiomatiques d’une EP, afin que des tâches aval utilisant

la sémantique puissent distinguer construction compositionnelle versus idiosyncrasique du sens.

Par exemple, la distinction des occurrences idiomatiques et littérales de l’EP les carottes sont

cuites est indispensable pour les modèles de traduction automatique.

Le degré d’ambiguïté est bien sûr variable d’une EP à une autre, et d’une langue à une autre.

On peut fournir une mesure globale du degré d’ambiguïté d’un corpus annoté en EPs : il faut

pour chaque EP annotée, rechercher les occurrences qui n’ont pas été annotées, et correspondent

donc à des occurrences littérales. La recherche peut se faire de manière plus ou moins exacte (on

peut rechercher exactement la même séquence de formes fléchies, voire les mêmes formes fléchies

exactement dans les mêmes relations syntaxiques, ou bien à l’autre extrême, les mêmes lemmes

que l’EP, dans tout ordre). Il peut être ensuite intéressant d’étudier le comportement d’un

sys-tème d’identification face aux occurrences littérales, en comptant comme réponse correcte le fait

de ne pas reconnaître l’occurrence. Dans leur article, Pasquer et al. (2018) projettent des patrons

utilisant les lemmes et les annotations morphosyntaxiques des EPs des jeux d’entraînement de

PARSEME 1.1 pour annoter les occurrences littérales. Ce travail révèle une proportion

d’occur-rences littérales variable selon les langues18 avec en tout 51 % d’occurrences littérales, ce qui

2.5. Défis

démontre l’importance de l’ambiguïté lecture littérale versus lecture idiomatique.

Notez que les étiquettes morphosyntaxiques et les informations syntaxiques ainsi que l’analyse

sémantique peuvent aider à désambiguïser certains cas ambigus. Par exemple, dansJe cherche à

savoir qui a écrit ce livre, l’analyse syntaxique indique sans ambiguïté queà savoir n’est pas EP

ici, alors qu’elle l’est dansIl a volé tout l’argent qu’il a trouvé, à savoir 300 euros. Ces informations

ne sont pas utilisables dans le cas d’architectures séquentielles où l’identification d’EPs précède

l’analyse syntaxique, mais on peut ici citer le cas d’architectures jointes où l’analyse syntaxique

aide l’identification (Nasr et al., 2015; Constant et Nivre, 2016). Ce type d’architecture sera

détaillé plus loin dans l’état-de-l’art.

2.5.2 Discontinuité

0

2

4

6

BG CS DE EL ES FR HE HU IT LT MT PL PT RO SL SV TR

ID CVS VRI CVP

Figure2.9 –PARSEME 1.0 : Trous : La moyenne de la longueur des trous des EPs pour les

différentes catégories des langues des jeux d’entraînement des données PARSEME 1.0. Source :

Savary et al. (2018).

La discontinuité des EPs rend leur identification plus difficile, la tâche étant de manière

évidente plus complexe qu’une recherche de séquences continues (ne serait-ce qu’en termes

com-binatoires). En pratique, la discontinuité est relativement rare pour les EPs autres que verbales.

Par exemple dans le « French Treebank » version 1.0 (voir section 2.3.3), on dénombre 39 EPs

discontinues sur les plus de30 000annotées19. En revanche, dans les données PARSEME ciblant

les EPs verbales, la discontinuité est loin d’être marginale. À noter cependant que les EPs tendent

à être connectées syntaxiquement, y compris les discontinues.

Moreau et al. (2018b) mesurent en effet les proportions des EPs verbales séquentiellement

continues versus discontinues et syntaxiquement connectées versus déconnectées, pour toutes les

langues de PARSEME 1.1. Alors qu’une EP est considérée comme séquentiellement continue si

tous ses tokens sont contigus, elle est connectée par dépendances syntaxiques si chaque token

dépend d’un autre token de l’EP, à l’exception de la tête de l’ensemble de l’EP, qui dépend d’un

token en dehors de l’EP. Nous reprenons leur visualisation graphique à la figure 2.10, qui montre

tout d’abord que la majorité des EPs verbales est à la fois séquentiellement continue et

Figure 2.10 – PARSEME 1.1- distribution des EPs verbales : Proportions des EPs

verbales(a)séquentiellement continues et connectées par dépendances (seq cont dep conn),(b)

séquentiellement discontinues, mais connectées par dépendances (seq disc dep conn),(c)

séquen-tiellement continues mais déconnectées par dépendances (seq cont disque) et(d)séquentiellement

discontinues et déconnectées par dépendances (seq disc dep disc), pour chaque langue des jeux

de données de PARSEME 1.1. Source : Moreau et al. (2018b).

tée par dépendances pour la plupart des langues (en vert). En outre, les EPs séquentiellement

discontinues sont également majoritairement connectées par dépendances (en orange) pour la

plupart des langues. Par exemple, l’EP Mettre l’accent est séquentiellement discontinue dans la

phraseL’accent est également mis sur les deux roues .., mais syntaxiquement connectée. Moreau

et al. (2018b) en déduisent que la connectivité syntaxique est une caractéristique exploitable en

théorie pour l’identification des EPs verbales, y compris discontinues.

On remarque cependant que les discontinuités sont relativement courtes pour la plupart des

langues des campagnes PARSEME, comme en témoigne la figure 2.9, qui fournit la longueur

moyenne des « trous » cumulés pour les EPs dans les données PARSEME 1.0. Les discontinuités

les plus longues sont globalement celles des CVSs, et l’allemand se distingue avec des longueurs

moyennes supérieures à 2 pour les IDs, CVSs et VIRs, et supérieures à 5 pour les CVPs.

2.5.3 Enchâssement et chevauchement

L’enchâssement et le chevauchement (cf. section 1.2.4) représentent d’autres scénarios qui

peuvent compliquer l’identification des EPs. Ces deux phénomènes posent un vrai défi pour

les méthodes d’identification d’EPs, puisque beaucoup de schémas utilisés dans les méthodes

d’étiquetage de séquences n’ont pas le pouvoir expressif pour représenter ces deux phénomènes

(voir section 2.4). Le problème ne peut donc même pas être abordé avec de telles méthodes.

Alors que l’enchâssement est pris en considération par des méthodes de prédiction structurelle

gloutonne par transitions (qui seront abordées chapitre 4), le chevauchement représente un autre

défi pour ces méthodes ou d’autres, comme l’identification via étiquetage des séquences (abordée

chapitre 3).

2.5.4 Variabilité

Les EPs grammaticales sont souvent totalement invariables et à l’inverse, les EPs verbales

contiennent dans leur grande majorité un verbe tête qui se fléchit de manière régulière,

appor-tant ainsi de la variabilité. Elles admettent également une plus grande variabilité syntaxique.