Normalisation et nettoyage des éléments prédicatifs

CHAPITRE 5 MÉTHODOLOGIE

5.3 Patrons

5.4.1 Normalisation et nettoyage des éléments prédicatifs

Même si nous n’utilisons pas de juges humains pour produire nos propres vecteurs de ré- férence, nous pouvons tenter d’améliorer l’expérience avec des variations dans laquelle les éléments prédicatifs sont préparés différemment. Nous essayons aussi une version de l’expé- rience dans laquelle les éléments sont normalisés et nettoyés. Les étapes de normalisation et de nettoyage préparent les vecteurs de référence ainsi que le vecteur extrait du corpus, comme il est visible à l’image 5.3. Ces étapes doivent être répétées pour les éléments du corpus de chaque nom composé inconnu, mais ne doivent être exécutées qu’une seule fois pour les vecteurs de référence. Nous avons normalisé et nettoyé les vecteurs de référence à la main, avec le jugement d’un humain, pour préserver la qualité des vecteurs de référence. En temps normal, les termes des juges proviennent de phrases N2 N1, parce que les phrases à compléter de leur formulaire sont ainsi orientées. Toutes les phrases trouées sont uniformes, peu importe la direction de la relation sémantique du nom. Il n’est donc pas surprenant de trouver plus de verbes au passif pour CAUSE2que pour CAUSE1. Nous nous sommes assuré qu’il n’y a que des verbes et des verbes avec particule dans les éléments prédicatifs de référence, puisque nous ne répliquons pas l’expérience avec prépositions ou conjonctions.

La normalisation est exécutée avant l’étape du nettoyage. La normalisation se décompose en

de notre expérience. De plus, parmi ces 213, warrior caste n’a pas pu être utilisé : il était écrit warrior castle sur le formulaire de Mechanical Turk. Nos verbes sont donc légèrement moins nombreux que ceux de Nakov. La liste complète des 212 noms composés tels qu’utilisés est disponible à l’annexe A. Avec l’approche Leave- one-out, où un nom composé à la fois est testé et retiré des vecteurs prédicatifs de référence, leur nombre diminue à 211.

Figure 5.3 Positionnement de la normalisation et du nettoyage des éléments prédicatifs

l’étape de lemmatisation et l’étape d’inversion. La lemmatisation de verbes est automatique pour les verbes de l’engin et est faite manuellement pour les verbes donnés par les juges, pour un meilleur résultat. Nakov choisit de laisser les verbes au passé quand ils sont accompagnés du be propre au temps passif, comme be made of. À l’opposé, la normalisation change les verbes en leur forme non conjuguée. La normalisation retire aussi toutes les particules, ce qui transformera be made of en be make. Comme les verbes du corpus doivent être comparés à des verbes de référence au format N2 N1, nous renversons les verbes passifs trouvés dans une phrase N1 N2 en verbes actifs de format N2 verbe N1. Inversement, nous renversons les verbes actifs des phrases N1 N2 en verbes passifs. Après l’inversion, tous les verbes de l’expérience sont interprétés comme N2 verbe N1. Nous supposons que la comparaison entre les éléments du corpus et les éléments de référence peut se faire beaucoup mieux.

En résumé, le tableau 5.4 montre différentes formes du verbe make avant et après la norma- lisation.

L’étape de nettoyage qui suit l’étape de normalisation est plus simple. Il ne s’agit que de corriger les fautes de frappe et autres erreurs remarquées dans les vecteurs de référence, comme passer de forbodes à forebode. Nous avons aussi supprimé certaines expressions qui

Tableau 5.4 Normalisation

Initial Normalisé et inversé

N1 v N2 make N2 v N1 be make N1 v N2 make of N2 v N1 be make N1 v N2 be make N2 v N1 make N1 v N2 be make of N2 v N1 make N2 v N1 make N2 v N1 make N2 v N1 make of N2 v N1 make N2 v N1 be make N2 v N1 be make N2 v N1 be make of N2 v N1 be make

n’étaient pas des termes, comme be outsie of (sic). À la fin de la normalisation et du nettoyage, le nom composé queen bee avait le plus petit vecteur prédicatif, avec 40 termes, et coriander

curry avait le plus gros, avec 101 termes. Voici un extrait de leur vecteur prédicatif respectif.

Queen bee <be(13), act(5), rule(3), be call(2), reign(2), serve(2), . . . >

Coriander curry <contain(18), be make(17), include(10), have(7), taste(5), be flavor(4), come(4), use(3), be(2), be garnish(2), be mix(2), feature(2), smell(2), . . . >

En tout, une centaine d’ajustements ont été faits. Tout comme l’étape de normalisation, l’étape de nettoyage est en option et n’est pas effectuée par l’expérience qui réplique la démarche de Nakov telle quelle. Nous utilisons ses vecteurs tels qu’il les a publiés. Il y a donc 3 façons de préparer les verbes : les utiliser sans modifications, uniquement les normaliser ou les normaliser et nettoyer les éléments par la suite.

Selon nous, il est utile de regrouper en une seule instance des éléments similaires à l’aide de la normalisation. La normalisation réunit par exemple be regarding et be regarded en un seul verbe avec une fréquence de deux, be regard. Elle opère à un niveau d’abstraction qui permet de considérer ces deux formes de verbes comme une seule entité. Quand ce verbe est trouvé dans le corpus, il aura un plus grand impact sur la comparaison. La normalisation permet également de comparer correctement les éléments dans le format du formulaire aux éléments trouvés sur internet sans devoir porter attention à l’orientation de leur phrase d’origine. La lemmatisation des verbes au passif permet d’éliminer les erreurs ou les différences de dialectes lors de la mise au passé d’un verbe, comme pour sew et ses deux formes : sewn et sewed. Enlever les particules est une importante décision, parce que beaucoup de sens est perdu à cette étape. S’il est vrai que cette étape trouve plus d’éléments prédicatifs identiques dans la comparaison entre éléments de corpus et éléments de référence, nous ne pouvons pas être

sûrs que les nouvelles comparaisons sont vraiment souhaitables. Tout comme pour le choix des patrons, il se peut que de sacrifier en partie le sens des verbes extraits de petits corpus se fasse au détriment de la validité de la conclusion finale.

L’approche de Nakov ne semble pas inverser les éléments prédicatifs trouvés. La démarche pour reproduire fidèlement l’approche utilise donc les verbes fournis par Nakov sans normalisation et sans nettoyage additionnel.

Bien que préparés, le nombre de noms composés utilisés comme référence par l’algorithme est relativement petit, ce qui augmente l’importance de bien décrire leur relation, par des éléments prédicatifs minutieusement sélectionnés. La prochaine section explique cette sélec- tion.

Dans le document Identification de la relation sémantique sous-jacente des noms composés (Page 58-61)