Filtrage thématique de pages Web - Adaptation thématique non supervisée d'un système de reconna

Sur la base de la stratégie de formulation de requêtes que nous venons d'exposer, le nombre de pages retournées par les moteurs de recherche atteint fréquemment plusieurs millions. De manière évidente, il n'est pas possible de consulter et de rappatrier l'ensemble de ces pages. Par ailleurs, toutes ces pages ne sont probablement pas pertinentes par rap-port au thème du segment, ne serait ce que, comme nous venons de le souligner, parce que certaines requêtes peuvent contenir des mots-clés erronés. Nous avons donc développé une stratégie de ltrage thématique des pages Web. Cette stratégie est explicitée par l'algo-rithme5.1. Après avoir lancé chaque requête construite à partir des mots-clés et recensé les

adresses des pages retournées comme résultat, l'agorithme cherche à construire un corpus d'une taille xée à N documents. Pour cela, il rapatrie à tour de rôle les diérentes pages correspondant à chaque requête et mesure la similarité thématique de chacune d'entre elles avec le segment considéré. Selon ce principe, seules les pages dépassant un certain seuil de similarité∆sont incorporées dans le corpus thématique. Cet algorithme met en avant deux facteurs essentiels : la taille N des corpora et la mise en place d'un critère de similarité thématique. Nous avons étudié chacun de ces aspects.

5.3.1 Taille des corpora

Nous avons mené diérentes expériences préliminaires pour déterminer le nombreN de pages à inclure dans les corpora thématiques. Pour cela, nous avons construit un modèle de langue adapté pour chaque segment thématique de notre ensemble de développement en interpolant linéairement notre modèle de langue généraliste avec un modèle de langue d'adaptation appris à partir de chaque corpus thématique obtenu sans ltrage thématique.

Nous mesurons alors la variation de la perplexité de ces modèles par rapport à celle du mo-dèle généraliste pour diérentes tailles de corpus thématique. Ces résultats sont présentés à la gure 5.2. Il apparaît que l'augmentation du nombre de pages par corpus thématique produit des diminutions de la perplexité des modèles adaptés par rapport à celle du modèle de langue généraliste. Ceci est toutefois à pondérer par le fait que, à partir de 100 pages, l'intérêt d'ajouter de nouvelles pages tend à s'amoindrir petit à petit. Ce constat peut vrai-semblablement s'expliquer par le fait que, au fur et à mesure que l'on avance dans les listes de résultats fournis pour chaque requête, la pertinence des pages par rapport à une requête se dégrade et leur intérêt devient donc moindre pour notre tâche d'adaptation thématique.

Par ailleurs, comme le montre la gure 5.3, il est dicile de faire un rapprochement direct entre la taille en mots des corpora thématiques et les gains relatifs en terme de perplexité.

Ainsi, dans la suite des expériences, nous avons estimé que des corpora de 200 pages étaient susants et constituaient un bon compromis entre qualité et vitesse de construction des corpora thématiques. Ce nombre de pages aboutit à considérer des corpora thématiques d'environ 800 000mots.

5.3.2 Filtrage thématique

Parmi l'ensemble des pages renvoyées par les requêtes liées à un segment, il n'est pas rare de rencontrer des pages linguistiquement trop pauvres ou thématiquement éloignées du segment. Ainsi, nous avons proposé une mesure de similarité thématique pour les ltrer.

Avant toute chose, cette étape de ltrage nécessite d'accéder au contenu principal d'une page Web. Or, celui-ci est généralement noyé dans une quantité d'informations inintéres-santes comme des menus, des mentions légales, des publicités. . . Nous avons donc développé une méthode de nettoyage d'une page HTML qui supprime les balises de mise en forme mais aussi écarte les zones de texte ne correspondant pas au contenu central de la page.

Comme le détaille l'annexe C, ce nettoyage s'appuie principalement sur un élagage de l'arbre DOM d'un document HTML à partir de critères statistiques sur des indices tels que la fréquences des signes de ponctuation, la taille des phrases, le nombre de caractères non alpha-numériques. . . Alors que peu de méthodes existaient pour le nettoyage de pages Web au moment de nos travaux, il est bon de noter que cette tâche a depuis fait l'objet d'un gain d'intérêt et que des techniques plus sophistiquées existent donc aujourd'hui (Baroni et al., 2008).

Filtrage thématique de pages Web

Fonction construire_corpus( R : requêtes, t : transcription) : corpus thématique url : tableau de listes d'URL ;

u : URL ;

page : texte d'une page ; corpus : ensemble de textes ; r : requête courante ;

//Lancement de toutes les requêtes et stockage des URL retournées Pour chaque requête r de R faire

url[rq]←lancer_requête(r) ; Fait

//Sélection de N pages pertinentes corpus ←∅;

r ←première_requête(R); Tant que |corpus| < N faire

u ←prochaine_url(url[r]) ; p ←rapatrier(u) ;

p ←nettoyer(p) ;

Si (similarité_thématique(t, p)>∆) Alors corpus ←corpus ∪ {p};

Fin Si

r←requête_suivante(R); //Lorsque la dernière requête est atteinte, //on retourne à la première requête.

Fait

Retourner corpus ; Fin

ALGORITHME5.1Pseudo-code de la construction d'un corpus thématique à partir d'un ensemble de requêtes et d'une transcription automatique.

FIGURE 5.2 Variation relative moyenne de la perplexité en fonction du nombre de pages des corpora thématiques.

0 100 200 300 400 500 600 700 800 900 Nombre de mots dans le corpus (en milliers) -40

-30 -20 -10 0

Variation relative de la perplexité (%)

FIGURE5.3 Variation relative de la per-plexité en fonction du nombre de mots de chaque corpus de 50 ou 100 pages.

FIGURE5.4 Similarité moyenne sur l'ensemble de développement entre un segment et son corpus thématique en fonction du nombre de pages et du seuil de similarité.

Une fois nettoyée, nous mesurons la similarité thématique d'une page p avec la trans-criptiontdu segment considéré en nous appuyant à nouveau sur le critère tf-idf . En repré-sentant t comme un vecteur de scores σt(`) et p comme un vecteur de scores S_p⁰(`)²⁶, la similarité entretetpest calculée comme une mesure cosinus entre leur vecteurs respectifs :

sim(t, p) = P

`∈t∩p

σt(`)×S_p⁰(`) rP

`∈t

σ_t(`)²×P

`∈p

S_p⁰(`)²

. (5.6)

Les pages dont la similarité thématique est inférieure à un seuil∆sont écartées par l'algo-rithme. La gure5.4atteste de l'utilité de ce ltrage thématique en mesurant la similarité globale d'un corpus thématique avec la transcription de son segment pour diérentes tailles en nombre de pages et diérents seuils de similarité sur l'ensemble de développement. On constate que, sans seuil de similarité (∆ = 0), l'augmentation de la taille des corpora tend à dégrader leur qualité. À l'inverse, cette qualité augmente puis se stabilise lorsqu'un seuil supérieur à 0,08 est utilisé.

En pratique, pour notre tâche d'adaptation thématique, ce seuil a été déterminé empiri-quement en mesurant les variations de la perplexité des modèles adaptés par une technique d'interpolation linéaire sur l'ensemble de développement. La gure5.5reporte ces variations pour diérents coecients d'interpolation. Il apparaît alors que, quel que soit le coecient d'interpolation utilisé pour l'adaptation du modèle généraliste, l'augmentation du seuil de similarité conduit à des perplexités plus basses. On remarque toutefois que l'utilisation d'un seuil de similarité trop élevé conduit à dégrader cette qualité. Ce constat s'explique par le fait que, passé un certain degré de similarité, l'algorithme ne parvient plus à trouver susamment de pages, ce qui résulte en des corpora thématiques plus petits conduisant donc à une moins bonne estimation d'un modèle de langue. Ainsi, dans notre processus d'adaptation, nous xons le seuil de similarité à∆ = 0,1.

26Nous n'utilisons pas le scoreσ(`) pour une page Web car aucune mesure de conance sur ses mots n'existe.

Validation et mise en application

FIGURE5.5Variations relatives moyennes de la perplexité sur l'ensemble de développement pour diérents seuils de similarité et diérents coecients d'interpolation pour des corpora de 200 pages. Un coecient d'interpolation à 1 correspond à l'utilisation du seul modèle de langue généraliste.

Dans le document Adaptation thématique non supervisée d'un système de reconnaissance automatique de la parole ~ Association Francophone de la Communication Parlée (Page 83-87)