Conclusion - Nouvelles contributions du boosting en apprentissage automatique

Nous avons mis en place dans ce chapitre le cadre théorique d’une méthode de boosting résistante aux données bruitées. Cette méthode repose sur la mise en évidence de trois catégories d’exemples, relativement à leur impact sur les perfor-mances d’une méthode classique de boosting telle que AdaBoost : les outliers, qui peuvent dégrader les performances de l’hypothèse finale, les exemples situés en zone d’erreur bayésienne, qui peuvent ralentir la convergence vers l’erreur opti-male, et ceux situés dans les centres de clusters, qui n’apportent pas d’information supplémentaire dans le processus d’apprentissage.

En supposant avoir accès, via un oracle, à une information sur la confiance d’un exemple, la méthode que nous proposons consiste à réduire invariablement le poids des exemples appartenant aux deux premières catégories. Ainsi, leur impact sur les performances de l’hypothèse finale est limité, voire annihilé. Les exemples de centre de clusters se voient quand à eux pondérés de la même manière qu’avec AdaBoost, qui tend également à diminuer leurs poids. Sous condition d’une nouvelle hypothèse d’apprentissage faible, nous avons fourni plusieurs résultats théoriques prouvant que notre algorithme OraBoost est bien un algorithme de boosting.

Il s’agit à présent de mettre notre solution en pratique. C’est l’objet du cha-pitre suivant, qui propose notamment une approche généraliste de mise en oeuvre d’un oracle, et l’application de celle-ci dans le cas de données numériques d’une part, et de données symboliques d’autre part.

4 Application d’OraBoost

aux données numériques et

symboliques

Résumé :Ce chapitre présente une mise en pratique du modèle théorique présenté précédemment. Cette mise en oeuvre nécessitant l’utilisation d’un oracle de confiance, nous présentons tout d’abord une simulation de celui-ci. Ensuite, nous appliquons notre modèle au cas de données numériques, avant de l’exploiter dans le cadre de l’inférence grammaticale, domaine manipulant des séquences de caractères.

4.1 Simulation d’un oracle de confiance

Nous nous intéressons dans cette section à la mise en oeuvre d’un oracle de confiance. En pratique, nous pouvons assimiler celui-ci à un expert du domaine étudié capable de certifier ou non la légitimité de l’étiquette d’un exemple. Son

existence est tout à fait crédible dans les domaines où le niveau d’expertise est

suffisant. Ceci n’est malheureusement pas toujours le cas, et afin de pouvoir ap-pliquer notre schéma de boosting sur un large spectre de problèmes réels, nous allons devoir parfois simuler le comportement d’un oracle. Dans cette section, nous décrivons une approche empirique permettant d’effectuer cette simulation, avec comme objectif principal de s’assurer qu’une confiance positive donnée par l’oracle correspond à un exemple dont l’étiquette est très probablement correcte. Nous proposons ici une stratégie qui pourrait s’apparenter aux méthodes dites de co-training (Blum & Mitchell, 1998). Ces méthodes sont utilisées lorsque l’on dispose d’une certaine quantité d’exemples, dont seule une petite proportion est étiquetée. On suppose par ailleurs qu’il existe une partition naturelle des attri-buts des exemples en deux sous-ensembles d’attriattri-buts, ce qui revient à considérer

que l’on dispose de deux représentations différentes des données. Un algorithme d’apprentissage auxiliaire apprend un modèle à partir d’une des deux représen-tations des exemples étiquetés. Ce modèle est alors utilisé pour étiqueter les exemples qui ne le sont pas encore. Un algorithme d’apprentissage utilise ensuite le deuxième sous-ensemble d’attributs, et la totalité des exemples, désormais tous étiquetés, pour construire un modèle final. Dans notre cas, l’oracle joue le rôle de l’algorithme d’apprentissage auxiliaire. Cependant, il exploite la même repré-sentation des données que l’algorithme principal. De plus, plutôt que d’étiqueter des exemples qui ne le sont pas, il fournit une information supplémentaire sur la confiance en l’étiquette des exemples. Nous proposons ici une stratégie basée sur un graphe de voisinage, qui permet de distinguer géométriquement les exemples

douteux des exemples sˆurs.

Nous pensons que les graphes des k plus proches voisins (k ppv) (Cover & Hart, 1967) sont particulièrement adaptés pour traiter un tel problème.

Rappe-lons qu’une hypoth`ese de k ppv attribue la classe d’un exemple ei en calculant la

classe majoritaire parmi les k exemples de E qui sont les plus proches de ei. Cette

méthode, au-delà du fait que son erreur limite est théoriquement bornée par deux fois l’erreur bayésienne, est très résistante au bruit. En effet, un exemple bruité isolé au milieu d’exemples de la classe opposée a un impact très limité sur la règle de classification. La propriété duale que l’on peut déduire de la remarque précé-dente, est qu’un exemple bruité peut être plus facilement détecté en analysant son voisinage. Si ses performances en généralisation, en tant qu’hypothèse d’ap-prentissage, sont une bonne indication des capacités d’une hypothèse de k ppv, elles ne seront pas au centre de notre étude. Le but est plutôt ici d’exploiter au mieux ce graphe comme oracle pour optimiser les performances du boosting.

Définissons la fonction de marge m(e_i) d’un exemple e_i de classe y_i calculée à l’aide d’un graphe des k ppv :

m(ei) = ^N^yi− Nyi N_y_i+ N_y_i^,

où Nyi (resp. Nyi) désigne le nombre d’exemples parmi les k plus proches voisins de e_i étant de la même classe y_i (resp. étant de la classe opposée y_i). Un exemple n’ayant que des voisins de la classe opposée à la sienne (resp. de la même classe)

recevra une marge de −1 (resp. +1). Mˆeme si m(ei) semble repr´esenter d’une

certaine manière la valeur de confiance q(e_i) utilisée dans le chapitre précédent,

poser q(ei) = m(ei) ne serait pas judicieux. En effet, la r`egle de classification

d’un k ppv assure simplement la minimisation de l’erreur empirique, et ce n’est pas ce qui nous int´eresse ici. Nous cherchons `a fournir une mesure pertinente

de la confiance des exemples, en nous assurant que les valeurs positives de q(ei)

correspondent aux ei ayant une ´etiquette correcte, dans (100 − ǫ) % des cas (avec

4.2. Résultats expérimentaux sur données numériques 71

Dans le document Nouvelles contributions du boosting en apprentissage automatique (Page 79-82)