En tant que tâche à part entière, l’identification d’EPs comporte de nombreux défis, en
particulier liés aux caractéristiques des EPs que sont l’ambiguïté, la discontinuité, l’enchâssement
et le chevauchement, ainsi que leur variabilité (cf. section 1.2).
2.5.1 Ambiguïté
Comme pour de nombreuses tâches du TAL, l’ambiguïté est l’un des défis importants de
l’identification d’EPs, puisqu’une méthode d’identification doit être capable de distinguer les
occurrences littérales des occurrences idiomatiques d’une EP, afin que des tâches aval utilisant
la sémantique puissent distinguer construction compositionnelle versus idiosyncrasique du sens.
Par exemple, la distinction des occurrences idiomatiques et littérales de l’EP les carottes sont
cuites est indispensable pour les modèles de traduction automatique.
Le degré d’ambiguïté est bien sûr variable d’une EP à une autre, et d’une langue à une autre.
On peut fournir une mesure globale du degré d’ambiguïté d’un corpus annoté en EPs : il faut
pour chaque EP annotée, rechercher les occurrences qui n’ont pas été annotées, et correspondent
donc à des occurrences littérales. La recherche peut se faire de manière plus ou moins exacte (on
peut rechercher exactement la même séquence de formes fléchies, voire les mêmes formes fléchies
exactement dans les mêmes relations syntaxiques, ou bien à l’autre extrême, les mêmes lemmes
que l’EP, dans tout ordre). Il peut être ensuite intéressant d’étudier le comportement d’un
sys-tème d’identification face aux occurrences littérales, en comptant comme réponse correcte le fait
de ne pas reconnaître l’occurrence. Dans leur article, Pasquer et al. (2018) projettent des patrons
utilisant les lemmes et les annotations morphosyntaxiques des EPs des jeux d’entraînement de
PARSEME 1.1 pour annoter les occurrences littérales. Ce travail révèle une proportion
d’occur-rences littérales variable selon les langues18 avec en tout 51 % d’occurrences littérales, ce qui
2.5. Défis
démontre l’importance de l’ambiguïté lecture littérale versus lecture idiomatique.
Notez que les étiquettes morphosyntaxiques et les informations syntaxiques ainsi que l’analyse
sémantique peuvent aider à désambiguïser certains cas ambigus. Par exemple, dansJe cherche à
savoir qui a écrit ce livre, l’analyse syntaxique indique sans ambiguïté queà savoir n’est pas EP
ici, alors qu’elle l’est dansIl a volé tout l’argent qu’il a trouvé, à savoir 300 euros. Ces informations
ne sont pas utilisables dans le cas d’architectures séquentielles où l’identification d’EPs précède
l’analyse syntaxique, mais on peut ici citer le cas d’architectures jointes où l’analyse syntaxique
aide l’identification (Nasr et al., 2015; Constant et Nivre, 2016). Ce type d’architecture sera
détaillé plus loin dans l’état-de-l’art.
2.5.2 Discontinuité
0
2
4
6
BG CS DE EL ES FR HE HU IT LT MT PL PT RO SL SV TR
ID CVS VRI CVP
Figure2.9 –PARSEME 1.0 : Trous : La moyenne de la longueur des trous des EPs pour les
différentes catégories des langues des jeux d’entraînement des données PARSEME 1.0. Source :
Savary et al. (2018).
La discontinuité des EPs rend leur identification plus difficile, la tâche étant de manière
évidente plus complexe qu’une recherche de séquences continues (ne serait-ce qu’en termes
com-binatoires). En pratique, la discontinuité est relativement rare pour les EPs autres que verbales.
Par exemple dans le « French Treebank » version 1.0 (voir section 2.3.3), on dénombre 39 EPs
discontinues sur les plus de30 000annotées19. En revanche, dans les données PARSEME ciblant
les EPs verbales, la discontinuité est loin d’être marginale. À noter cependant que les EPs tendent
à être connectées syntaxiquement, y compris les discontinues.
Moreau et al. (2018b) mesurent en effet les proportions des EPs verbales séquentiellement
continues versus discontinues et syntaxiquement connectées versus déconnectées, pour toutes les
langues de PARSEME 1.1. Alors qu’une EP est considérée comme séquentiellement continue si
tous ses tokens sont contigus, elle est connectée par dépendances syntaxiques si chaque token
dépend d’un autre token de l’EP, à l’exception de la tête de l’ensemble de l’EP, qui dépend d’un
token en dehors de l’EP. Nous reprenons leur visualisation graphique à la figure 2.10, qui montre
tout d’abord que la majorité des EPs verbales est à la fois séquentiellement continue et
Figure 2.10 – PARSEME 1.1- distribution des EPs verbales : Proportions des EPs
verbales(a)séquentiellement continues et connectées par dépendances (seq cont dep conn),(b)
séquentiellement discontinues, mais connectées par dépendances (seq disc dep conn),(c)
séquen-tiellement continues mais déconnectées par dépendances (seq cont disque) et(d)séquentiellement
discontinues et déconnectées par dépendances (seq disc dep disc), pour chaque langue des jeux
de données de PARSEME 1.1. Source : Moreau et al. (2018b).
tée par dépendances pour la plupart des langues (en vert). En outre, les EPs séquentiellement
discontinues sont également majoritairement connectées par dépendances (en orange) pour la
plupart des langues. Par exemple, l’EP Mettre l’accent est séquentiellement discontinue dans la
phraseL’accent est également mis sur les deux roues .., mais syntaxiquement connectée. Moreau
et al. (2018b) en déduisent que la connectivité syntaxique est une caractéristique exploitable en
théorie pour l’identification des EPs verbales, y compris discontinues.
On remarque cependant que les discontinuités sont relativement courtes pour la plupart des
langues des campagnes PARSEME, comme en témoigne la figure 2.9, qui fournit la longueur
moyenne des « trous » cumulés pour les EPs dans les données PARSEME 1.0. Les discontinuités
les plus longues sont globalement celles des CVSs, et l’allemand se distingue avec des longueurs
moyennes supérieures à 2 pour les IDs, CVSs et VIRs, et supérieures à 5 pour les CVPs.
2.5.3 Enchâssement et chevauchement
L’enchâssement et le chevauchement (cf. section 1.2.4) représentent d’autres scénarios qui
peuvent compliquer l’identification des EPs. Ces deux phénomènes posent un vrai défi pour
les méthodes d’identification d’EPs, puisque beaucoup de schémas utilisés dans les méthodes
d’étiquetage de séquences n’ont pas le pouvoir expressif pour représenter ces deux phénomènes
(voir section 2.4). Le problème ne peut donc même pas être abordé avec de telles méthodes.
Alors que l’enchâssement est pris en considération par des méthodes de prédiction structurelle
gloutonne par transitions (qui seront abordées chapitre 4), le chevauchement représente un autre
défi pour ces méthodes ou d’autres, comme l’identification via étiquetage des séquences (abordée
chapitre 3).
2.5.4 Variabilité
Les EPs grammaticales sont souvent totalement invariables et à l’inverse, les EPs verbales
contiennent dans leur grande majorité un verbe tête qui se fléchit de manière régulière,
appor-tant ainsi de la variabilité. Elles admettent également une plus grande variabilité syntaxique.
Dans le document
Analyse automatique par transitions pour l'identification des expressions polylexicales
(Page 56-59)