• Aucun résultat trouvé

CHAPITRE 5 MÉTHODOLOGIE

5.1 Description générale

5.2.1 Description des corpus utilisés

Pour trouver des phrases fournissant du contexte aux noms composés, nous n’utiliserons pas le moteur de recherche Google puisqu’il a fermé l’accès aux requêtes automatisées. Il nous est donc impossible de répliquer en 2014 l’approche de Nakov complète telle que décrite en 2009. Pour comparer nos résultats aux siens, nous devrons utiliser ses résultats intermédiaires, qu’il a rendus publics. Les éléments prédicatifs récoltés grâce aux résultats de Google seront utilisés pour déduire la relation sémantique, mais sans pouvoir tester les requêtes ni les patrons pour recueillir les éléments prédicatifs. Nous avons tout de même essayé des variations de l’expérience de Nakov en utilisant d’autres corpus : Yahoo !, les n-grammes de Google, Wikipédia et Faroo.

Yahoo ! est le moteur de recherche qui remplace le mieux celui utilisé initialement dans l’approche de Nakov. Il fonctionne de la même manière. Nous utilisons Yahoo Boss pour faire des requêtes automatisées en Json. Nous avons developpé un total de 22 445 requêtes qui ont donné 1 027 000 pages pour les 212 exemples de Levi avec leurs synonymes. Nous avons limité à 1 000 le nombre de pages retournées pour chaque nom composé. Comme Yahoo traite de la même manière les mots au singulier et au pluriel, nous utilisons la paire de noms initiale sans mettre au singulier ou pluriel N1 ou N2. Par exemple, à partir du nom composé desert rat, nous envoyons la requête http://yboss.yahooapis.com/ysearch/web?q=+desert+rat& format=UTF-8&start=0&abstract=long .

Pour l’encodage de la requête, nous avons mis des symboles + devant les noms pour n’obtenir que les résultats qui contiennent à la fois desert et rat. Yahoo ne permet pas de spécifier qu’il faut un mot entre les deux noms de la requête. La valeur start demande à Yahoo ! les 50 résultats à partir de ce chiffre. Il faut donc 20 requêtes pour obtenir les 1000 résultats au maximum. Si la page vers laquelle pointe Yahoo ! est inaccessible, nous utilisons le texte du résumé mis en cache par Yahoo !, que nous obtenons avec la variable abstract. Nous accédons aux liens individuellement et transformons les pages obtenues, de format HTML, en texte avec l’aide de Jsoup1. Avec desert rat, nous obtenons 534 résultats.

Cette approche est différente de l’approche de Nakov parce que nous allons sur les pages complètes quand elles sont disponibles, alors que Nakov se limitait au texte du résumé. C’est une manière d’augmenter le nombre de phrases de contexte trouvées.

Un deuxième corpus que nous essayons pour remplacer Google, c’est les n-grammes que Google a rendus disponibles au grand public2. Les n-grammes représentent des séquences de n mots dans un corpus de textes. Google a découpé ses pages indexées en ensemble de deux, trois, quatre ou cinq mots, respectivement les deux-grammes, trois-grammes, quatre- grammes et cinq-grammes. À chaque n-gramme est associée une valeur indiquant son nombre d’occurrences dans le corpus. Le corpus de Google utilisé ici prend environ 500 Go d’espace mémoire et date de juin 2013. Tous les n-grammes qui contiennent des nombres ont été pré- filtrés, pour des considérations d’espace disque. Le nom composé basketball season est en soit un deux-grammes (ou bigrammes). On pourrait extraire de l’information des bigrammes, mais on se concentre sur les trois, quatre et cinq-grammes qui peuvent contenir un sujet, un verbe et un complément. Ainsi, le trigramme basketball begins season est une séquence qui contient un élément prédicatif, le verbe begins. Les patrons d’extraction simple fonctionnent avec les n-grammes comme s’il s’agissait de phrases. Les n-grammes sont disponibles rapidement et en grand nombre, et il est facile de rejeter les n-grammes sans intérêt. Butnario & Veale (Butnariu and Veale, 2008) utilisent similairement les n-grammes en cherchant ceux qui commencent par un certain nom suivi d’un verbe et du second nom.

On peut aussi tirer des conclusions de la présence, de l’absence, ou de la fréquence relative d’un groupe de mots cherché.

Le troisième corpus qui pourrait remplacer le moteur de recherche web est Wikipédia. Sans s’approcher de la taille du corpus de Google, Wikipédia a l’avantage d’avoir des phrases bien structurées sur une variété de sujets. Wikipédia est aussi disponible hors-ligne3. Nous

1. http ://jsoup.org/

2. http ://storage.googleapis.com/books/ngrams/books/datasetsv2.html 3. https ://dumps.wikimedia.org/enwiki/

utilisons la version datée de mai 2014. L’ensemble des articles en anglais occupe dix gibioctets en format compressé, et 75 gibioctets, si rendu disponible sur un serveur. Pour continuer avec l’exemple de basketball season, une phrase typique de Wikipédia est Men’s and women’s

basketball fills the winter season, and spring sports include baseball, fastpitch, and track and field. tirée de la page de Seattle Lutheran High School. On extrait de cette phrase le verbe fill. Nous traitons toutes les combinaisons de pluriel/singulier dans le nom composé. Nous

nous basons sur le titre de la page Wikipédia pour éviter d’examiner une page plusieurs fois. Contrairement à Yahoo ! et l’approche de Nakov, le nombre de pages pour un nom composé n’est pas limité à 1000 parce que la qualité de Wikipédia est constante, peu importe l’ordre des pages obtenues pour une requête. Une page est jugée pertinente si les deux mots sont situés au plus à 30 mots de distance l’un de l’autre, parce qu’il est préférable d’éliminer le moins de candidats dans ce premier tri. Tout le contenu de la page sera analysé par la suite. Le quatrième et dernier corpus qui sera testé est Faroo4, un autre moteur de recherche ac- cessible par requêtes automatisées et gratuit. Son fonctionnement est sensiblement le même que pour Yahoo Boss. Une requête contenant la paire de noms est envoyée au moteur de recherche et le résultat retourné est analysé. On visite les pages web en résultat. Malheureu- sement, par erreur et contrairement à Yahoo, nous n’avons pas utilisé le résumé de Faroo si la page était inaccessible. Les pages web de Faroo sont traitées de la même manière que celle de Yahoo : le contenu au format HTML est transformé en texte. Pour basketball season, la page web http://dailycaller.com/2013/03/14/grambling-state-basketball-team- completes-winless-season/ contient la phrase Grambling State basketball team completes

winless season de laquelle il est possible d’extraire le verbe complete.