• Aucun résultat trouvé

Différences de distribution entre données naturelles et artificielles

4.3 Apprentissage avec données non identiquement distribuées

4.3.3 Différences de distribution entre données naturelles et artificielles

Pour rappel, notre problème consiste à utiliser des données implicites artificielles, construites à partir d’exemples explicites, pour apprendre une fonction de classification adéquate sur des données implicites naturelles. Les données naturelles et artificielles ont le même espace de sortie, des étiquettes de relation, et des entrées similaires, des paires de segments textuels. Ces deux

ensembles de données sont néanmoins distribués différemment, et ce, à plusieurs titres. D’une part, les données artificielles sont par définition obtenues à partir d’exemples de relations explicites : il n’y a aucune garantie que ces données soient distribuées comme les exemples de relations implicites attestés. La différence porte tant sur la distribution des étiquettes (les relations) que sur l’association entre étiquettes et entrées (les paires des segments) à classer. En outre, la suppression du connecteur modifie les exemples, ce qui peut avoir une incidence comme noté dans la section précédente. Enfin, les données artificielles sont généralement obtenues automatiquement à partir d’heuristiques et/ou de modèles5 ce qui induit un bruit potentiel à la fois dans l’étiquetage en

relation et dans la segmentation que l’on ne retrouve pas dans les données naturelles. Nous décrivons dans la suite de cette section les différences entre les deux types de données qui induisent des biais entre les distributions marginales et conditionnelles.

4.3.3.1 Déséquilibre des classes (class imbalance ou prior probability drift)

Dans le cas de biais au niveau de l’espace de sortie, la différence porte sur la distribution marginale des classes. Les distributions marginales des classes sont déjà différentes entre données explicites et implicites naturelles, et les heuristiques utilisées pour créer les données artificielles en produisent une nouvelle. Les chiffres exacts sont donnés dans la section 4.4.1 pour les données françaises et dans la section 4.4.2 pour les données anglaises.

Pour le français, on peut noter que la classe sous-représentée dans les données naturelles, Contrast, devient sur-représentée dans les données artificielles. Pour cette classe, la forme mais, toujours en emploi discursif, a permis d’extraire 75 % des données. En revanche, la relation Continuation devient sous-représentée dans les données artificielles pour le français. Les connecteurs de cette relation, comme et, sont plus ambigus en emploi et nous avons dû définir des motifs plus stricts pour éviter de récupérer de mauvais exemples.

Pour l’anglais, nous construisons un corpus artificiel à partir des données explicites naturelles et un autre à partir de données brutes. Pour le premier, on conserve donc la distribution des données explicites qui est différente de celle des données implicites. Par exemple, au niveau 1 de relation, la classe Temporal ne représente que 5, 1% des données implicites (voir section 3.4.1, tableau 3.4) contre 18, 6% des données explicites (voir section 4.4.2.1, tableau 4.5). On a également d’importantes différences au niveau 2 de relation. Par exemple nous avons dit dans le chapitre précédent que nous ne disposions pas de suffisamment d’exemples de relation implicite pour Condition, seul 1 exemple est annoté. Dans les données explicites, cette relation correspond à 1 204 exemples. Au contraire, nous disposons de 69 annotations de la relationPragmatic Cause dans les données implicites contre seulement 8 dans les données explicites. Pour les données artificielles construites automatiquement, la distribution est relativement proche des données explicites naturelles (cf. section 4.4.2.1) puisque nous avons utilisé des modèles construits sur ces dernières plutôt que des heuristiques pour étiqueter les données. On a cependant des différences, bien que moins importantes qu’entre implicites et explicites, qui peuvent provenir d’erreurs des modèles mais aussi probablement de la différence en termes de domaine entre les corpus utilisés : les données brutes sont également constituées d’articles journalistiques mais de sources plus variées avec aussi des dates de production différentes.

Ce biais peut être facilement géré en ré-échantillonnant les données artificielles suivant la distribu- tion des données implicites naturelles.

5. Nous décrivons la construction des données artificielles dans la section 4.4.

4.3.3.2 Biais dans les observations (covariate shift ou population drift)

Le problème de biais dans les données correspond à une différence portant sur la distribution marginale des entrées, les paires de segments. Le fait d’utiliser des exemples explicites induit une différence. On peut en effet penser que sans connecteur les indices utilisés sont différents. De plus, la suppression du connecteur peut aboutir à des exemples agrammaticaux ou incohérents comme nous avons pu le voir dans la section précédente. La segmentation induit aussi des différences. Dans le cas des données artificielles obtenues automatiquement, on a d’une part potentiellement des erreurs de segmentation dans les données artificielles. D’autre part, la segmentation des données artificielles correspond à des hypothèses simplificatrices : un argument couvre au plus une phrase et on a au plus deux arguments par phrase. La segmentation des données naturelles ne suit bien sûr pas ces hypothèses : les arguments peuvent être aussi multi-phrastiques ou séparer une phrase en plus de deux segments du moins dans le corpus français ANNODIS. Rappelons que dans les données

implicites du PDTB, les relations s’établissent entre des phrases adjacentes ou des propositions séparées par deux points ou un point virgule, avec éventuellement un dépassement de la phrase ou, au contraire, la supression de certains segments (principe de minimalité). Ceci correspond à des hypothèses simplificatrices dans l’annotation des implicites, hypothèses qui correspondent seulement en partie à celles utilisées pour construire automatiquement des données artificielles, mais qui ne correspondent pas du tout à la segmentation des données explicites naturelles. Enfin, on a potentiellement un biais en termes de genre : pour le français, les exemples artificiels sont tous construits à partir de l’Est Républicain mais les données naturelles proviennent aussi de Wikipédia ; pour l’anglais, les données naturelles et artificielles peuvent provenir du même corpus ou du Bllip, un autre ensemble d’articles journalistiques.

4.3.3.3 Modification de la fonction cible (concept drift ou functional relation change) ou du processus de génération des observations

Nous l’avons dit, le troisième cas concerne la distribution conditionnelle P r(Y = y|X = x). Cette distribution est biaisée dans notre configuration puisqu’il est possible d’avoir un exemple artificiel similaire à un exemple naturel mais portant une étiquette différente. C’est le cas lorsque la suppression du connecteur entraîne une modification de la relation inférée, l’effet vient donc de la méthode mais aussi de la différence entre explicite et implicite, l’explicitation d’un exemple permettant de guider l’interprétation. Cette situation peut aussi être due à des erreurs d’étiquetage lors de l’annotation automatique des exemples artificiels : soit il n’y a en fait aucune relation entre les arguments, soit une autre relation était présente.

Le problème est cependant plus large, nous avons aussi des différences au niveau de la distribution conditionnelle P r(X = x|Y = y). Nous n’avons pas trouvé de terme pour cette situation, on peut parler de biais dans la génération des observations. On peut se rendre compte de la différence de distribution sur l’association entre étiquettes et exemples en considérant certaines caractéristiques des données. Pour le français, on peut par exemple regarder la répartition entre occurrences de relations inter- et intra-phrastiques (la relation s’établit entre deux phrases ou deux segments à l’intérieur d’une phrase), voir tableau 4.1. Entre occurrences de relations implicites naturelles et artificielles, on a une proportion d’inter-phrastiques similaire pour Contrast (57,1 % d’inter- phrastiques dans les deux types de données), proche pour résultat (45,7 % d’inter-phrastiques dans les données naturelles, 39,8 % dans les artificielles) mais très différente pour continuation (70,0 % d’inter-phrastiques dans les naturelles, 96,5 % dans les artificielles), et pour explication (21,4 % dans les naturelles, 53,0 % dans les artificielles). On observe aussi que la proportion d’occurrences de relations inter-phrastiques dans les données artificielles ne reflète pas celle des données explicites, ceci étant dû à notre heuristique.

Relations Implicites Explicites Artificiels Contrast 57,1 % (57,1 %) 40,0 % 57,1 % Result 50,9 % (45,7 %) 65,4 % 39,8 % Continuation 66,9 % (70,0 %) 52,5 % 96,5 % Explanation 21,4 % (21,4 %) 37,9 % 53,0 % Total 494 (252) 614 392 260

Table 4.1.:Corpus ANNODIS: répartition des occurrences de relations inter-phrastiques implicites (naturelles), explicites et artificielles pour tous les exemples disponibles pour les données françaises, (X %) pour les seuls exemples utilisés dans nos expériences dans le cas des implicites.