• Aucun résultat trouvé

Int´erˆet des m´ethodes ensemblistes

H, on consid`ere un ensemble d’hypoth`eses, chacune d’entre elles ayant ´et´e g´en´er´ee soit en utilisant des param`etres de contrˆole de biais et de variance diff´erents sur une mˆeme famille, soit en utilisant diff´erentes familles d’hypoth`eses. Ainsi, en combinant les hypoth`eses, les composantes d’erreurs li´ees au biais et `a la variance tendent `a ˆetre r´eduites. En effet :

– Consid´erons trois hypoth`eses h1, h2 et h3, issues d’une mˆeme famille

d’hy-poth`eses. La Figure 1.6 sch´ematise deux situations possibles. Dans le cas o`u

le biais est important (figure de gauche), la famille d’hypoth`eses utilis´ee ne permet pas de trouver une mod´elisation satisfaisante du concept. Combiner plusieurs de ces hypoth`eses permet de contourner le probl`eme en “´emulant”

une hypoth`ese hcomb potentiellement ext´erieure `a cette famille. Dans le cas

d’une variance ´elev´ee (figure de droite), la combinaison d’hypoth`eses va per-mettre de r´eduire cette statistique de dispersion. En effet, une combinaison lin´eaire d’hypoth`eses n’´etant rien d’autre qu’une moyenne pond´er´ee, il est

facile de montrer statistiquement que si σ2 est la variance d’une hypoth`ese

individuelle de H, la variance d’une combinaison de n hypoth`eses est ´egale `a σn2. h1 h1 h2 h2 h3 h3 f f hcomb hcomb

Fig. 1.6 – L’effet de l’utilisation d’un ensemble d’hypoth`eses sur le biais (`a gauche) et la variance (`a droite). La ligne continue symbolise la fronti`ere de la famille d’hypoth`eses consid´er´ee, tandis que la ligne pointill´ee d´elimite l’ensemble

des hypoth`eses potentiellement “´emulables” par une combinaison de h1, h2 et h3.

– Si on consid`ere maintenant le cas d’hypoth`eses provenant de familles dif-f´erentes, les biais sont intrins`equement ´egalement diff´erents. Il est donc as-sez imm´ediat de constater que, les erreurs ne concernant pas les mˆemes exemples d’une hypoth`ese `a l’autre, elles auront tendance `a s’annuler du fait de la combinaison. Ainsi, il est possible de s’affranchir du biais induit par chacune des familles d’hypoth`eses consid´er´ees, en n’´etant pas p´enalis´e

par l’augmentation de la variance en leur sein, pour les mˆemes raisons que celles mentionn´ees pr´ec´edemment.

Les m´ethodes visant `a produire un tel ensemble d’hypoth`eses, et `a combiner leurs pr´edictions, sont dites ensemblistes. De telles m´ethodes ont fait l’objet de nombreux travaux durant la derni`ere d´ecennie, et forment un domaine `a part enti`ere de l’apprentissage automatique.

Par nos remarques concernant l’effet de ces m´ethodes ensemblistes sur le com-promis biais/variance, on constate que les r´esultats th´eoriques classiques, issus par exemple du mod`ele pac, se retrouvent plus ou moins inappropri´es. En effet, alors que l’interpr´etation en termes de biais et de variance des deux termes de droite de l’in´egalit´e 1.7 sugg`ere un syst`eme de vase communiquant entre ces deux termes, il semble qu’il soit possible par combinaison d’hypoth`eses de r´eduire les deux, et donc d’avoir des bornes plus petites sur l’erreur r´eelle. Nous dressons dans le cha-pitre suivant un ´etat de l’art sur les m´ethodes ensemblistes, avant de d´evelopper l’ensemble des r´esultats th´eoriques associ´es `a l’une d’entre elles : le boosting.

2 Méthodes Ensemblistes

R´esum´e : Ce chapitre dresse un ´etat de l’art sur les m´ethodes ensemblistes, en distinguant deux cat´egories : les m´ethodes h´et´erog`enes et les m´ethodes homog`enes. Le boosting, qui fait partie de cette deuxi`eme classe, est pr´esent´e en d´etail : nous faisons un ´etat des lieux des principaux r´esultats th´eoriques et extensions.

2.1 Introduction

Les m´ethodes ensemblistes sont caract´eris´ees par le fait qu’elles combinent, en une hypoth`ese g´en´erale H, un ensemble d’hypoth`eses dites de base, {h1, . . . ,hn}, construites `a partir de l’´echantillon d’apprentissage E. Deux points cl´es caract´e-risent une hypoth`ese H produite par une m´ethode ensembliste, et influencent ses performances : premi`erement, la fa¸con de g´en´erer des hypoth`eses de base qui la constituent, et deuxi`emement, le type de combinaison op´er´e.

Avant de pr´esenter un ´etat de l’art sur les principales m´ethodes ensemblistes, notons que de nombreux travaux se sont int´eress´es aux propri´et´es qui permettent (sans pour autant garantir) l’obtention d’une hypoth`ese H performante. Par exemple, Ali et Pazzani (1996), Kuncheva et al. (2002), Kuncheva et Whita-ker (2003) ´etudient, d’un point de vue aussi bien th´eorique qu’exp´erimental, le lien entre la diversit´e existant au sein de l’ensemble des hypoth`eses de base, et les performances de leur combinaison, en exploitant la corr´elation entre les erreurs

commises par chaque hypoth`ese hi, i = 1 . . . n. Dans un contexte diff´erent, les

travaux pr´esent´es par Lecce et al. (2000) montrent l’int´erˆet des connaissances pr´ealables (telle que la performance individuelle de chaque hypoth`ese) dans la combinaison finale.

La pr´esentation de l’´etat de l’art, telle que nous avons d´ecid´e de l’op´erer, divise le domaine en deux cat´egories principales, selon la nature des hypoth`eses de base,

et donc des m´ethodes d’apprentissage impliqu´ees dans leur construction :

– Les m´ethodes ensemblistes h´et´erog`enes, qui manipulent un ensemble

d’hypoth`eses de base de natures diff´erentes, c’est `a dire produites par dif-f´erentes m´ethodes d’apprentissage, `a partir d’un unique ´echantillon d’ap-prentissage.

– Les m´ethodes ensemblistes homog`enes, qui combinent un ensemble

d’hypoth`eses produites par une mˆeme m´ethode d’apprentissage. La diversit´e sur les hypoth`eses de base construites s’op`ere en modifiant la distribution de probabilit´e de l’´echantillon d’apprentissage.