• Aucun résultat trouvé

M´ethodes ensemblistes h´et´erog`enes

Ces m´ethodes permettent la combinaison d’hypoth`eses produites `a partir de m´ethodes d’apprentissage diff´erentes (donc d’hypoth`eses de nature h´et´erog`ene), appliqu´ees `a un mˆeme ´echantillon d’apprentissage. Plus que sur le choix des m´e-thodes d’apprentissage utilis´ees pour g´en´erer les hypoth`eses, la majorit´e des tra-vaux du domaine porte sur la mani`ere de les combiner efficacement. Nous dressons dans ce qui suit un ´eventail des principales techniques qui ont ´et´e propos´ees.

2.2.1 Combinaison par vote

Le vote d’un ensemble d’hypoth`eses est probablement la m´ethode la plus simple pour combiner celles-ci. Reprenons la liste des types de vote ´etablie par Bahler et Navarro (2000) :

– Le vote majoritaire, au cours duquel chaque hypoth`ese vote pour l’´etiquette qu’elle pr´edit. La pr´ediction globale est alors l’´etiquette recevant le plus de suffrages.

– Le vote majoritaire pond´er´e, similaire au vote majoritaire simple, `a la diff´e-rence pr`es qu’un poids est associ´e au vote de chaque hypoth`ese. L’´etiquette pr´edite par le vote global est alors celle recevant le poids le plus ´elev´e sur l’ensemble des votes. Les poids impliqu´es refl`etent g´en´eralement un indice de confiance sur la pr´ediction de l’´etiquette faite par l’hypoth`ese.

– Le vote avec seuil, pour lequel l’´etiquette pr´edite est celle recevant le plus de votes, avec un ´ecart significatif par rapport aux suffrages recueillis par les autres ´etiquettes. Ce principe peut ˆetre ´egalement utilis´e dans un contexte pond´er´e.

– L’unanimit´e, pour laquelle une ´etiquette sera associ´ee `a un nouvel individu si toutes les hypoth`eses de l’ensemble concordent sur celle-ci. Il est donc possible qu’un tel proc´ed´e aboutisse `a une situation d’ind´eterminisation

2.2. M´ethodes ensemblistes h´et´erog`enes 25 (on parle alors d’abstention). L`a encore, il est possible d’adapter ce principe dans un contexte pond´er´e.

Notons ici que ces combinaisons par vote s’utilisent ´egalement pour combiner des hypoth`eses construites par une seule m´ethode d’apprentissage `a partir d’´echan-tillons diff´erents.

2.2.2 S´election dynamique d’hypoth`eses

La s´election dynamique d’hypoth`eses est comparable au principe de s´election

adaptative de la meilleure hypoth`ese au sein d’une famille. Mais l`a o`u certaines

m´ethodes permettent simplement de choisir l’hypoth`ese jug´ee la plus pertinente sur l’´echantillon d’apprentissage (Tsoumakas et al., 2004), les m´ethodes de s´elec-tion dynamique permettent de choisir, pour chaque nouvel individu, l’hypoth`ese jug´ee la plus apte `a pr´edire son ´etiquette.

Dans ce contexte, Merz (1996) propose par exemple un m´ecanisme d’´eva-luation, pour diff´erentes zones g´eom´etriques de l’espace de repr´esentation, de la performance de chaque hypoth`ese de base. La classification d’un nouvel individu

est alors effectu´ee par l’hypoth`ese jug´ee la plus pertinente dans la zone o`u cet

individu est situ´e. Giacinto et Roli (1997) proposent une m´ethode comparable, o`u la s´election est bas´ee sur les performances de chaque classifieur sur les N plus proches voisins de l’exemple consid´er´e dans l’´echantillon d’apprentissage.

2.2.3 Le Stacking

De mani`ere g´en´erale, le terme stacking (Wolpert, 1992) fait r´ef´erence `a toute m´ethode ensembliste consistant `a combiner un ensemble d’hypoth`eses

h´et´ero-g`enes, en utilisant leurs r´eponses pour un exemple ei. Ces r´eponses sont vues

comme les attributs d’une nouvelle repr´esentation de ei, qui est utilis´ee par une

autre m´ethode d’apprentissage A pour produire une hypoth`ese finale.

Le principe g´en´eral est le suivant : il s’agit premi`erement de projeter chaque

exemple d’apprentissage ei dans un nouvel espace `a K dimensions, `a l’aide de K

hypoth`eses de base h1, . . . ,hK, dites de niveau 0. Le k-i`eme attribut de ce nouveau vecteur de repr´esentation correspond en fait `a l’´etiquette hk(xi) attribu´ee par l’hypoth`ese hk. On obtient ainsi une nouvelle description (h1(xi), . . . ,hK(xi)) de

ei. Une hypoth`ese H, dite de niveau 1, est ensuite construite par A sur cette

nouvelle repr´esentation des exemples de E.

Attribuer une ´etiquette `a un nouvel individu consiste dans un premier temps `a le projeter dans le nouvel espace de repr´esentation en utilisant les hypoth`eses de niveau 0, puis `a pr´esenter le nouveau vecteur ainsi construit `a l’hypoth`ese de niveau 1 pour obtenir l’´etiquette.

Par exemple, Merz (1999) propose une m´ethode de stacking baptis´ee scann (pour stacking, correspondence analysis, nearest neighbors). Les donn´ees de ni-veau 1 y sont form´ees par les probabilit´es d’appartenance `a chacune des classes attribu´ees par les hypoth`eses de niveau 0. Soit N la matrice qui `a chaque exemple de l’´echantillon associe une ligne, dans laquelle sont stock´ees ces probabilit´es. Une m´ethode d’analyse factorielle des correspondances (afc) est appliqu´ee sur N, afin d’´etablir les relations existant entre les lignes et les colonnes de cette matrice. La technique consiste ensuite `a exprimer N `a l’aide d’un produit de matrices, dont l’une contient une nouvelle repr´esentation des exemples de l’´echantillon d’ap-prentissage, tandis qu’une autre contient la repr´esentation, dans le mˆeme espace,

des classes du probl`eme. Ainsi, un exemple ei se verra attribuer la classe c si la

repr´esentation xi de ei dans ce nouvel espace est proche de celle de c.

De mani`ere plus g´en´erale, on note que les travaux r´ecents sur le stacking abordent principalement la question de la construction du nouveau vecteur d’at-tributs ainsi que celle du choix de la famille d’hypoth`eses utilis´ee au niveau 1. L’´etude exp´erimentale pr´esent´ee par Ting et Witten (1999) aboutit `a plusieurs constatations :

– D’une part, et de mani`ere peu surprenante, le stacking se montre plus per-formant lorsque le nouvel espace de repr´esentation des exemples est consti-tu´e, non pas de l’´etiquette pr´edite par les hypoth`eses de base, mais des probabilit´es qu’elles associent `a chacune des classes.

– Ensuite, les meilleurs r´esultats obtenus au niveau 1 sont atteints par des m´ethodes exploitant des mod`eles de r´egression lin´eaire.

– Enfin, et ceci est le point le plus important, le stacking r´ealise des perfor-mances significativement plus ´elev´ees qu’un sch´ema de combinaison par vote classique. A ce sujet, la vaste ´etude exp´erimentale effectu´ee par Dzeroski et Zenko (2002) et exploitant un ensemble d’arbres de d´ecision, montre l’effica-cit´e du stacking non seulement face aux m´ethodes classiques de vote, mais ´egalement par rapport au principe consistant `a s´electionner la meilleure hypoth`ese de l’ensemble.

2.2.4 Les Cascade Generalization

Les m´ethodes de g´en´eralisation en cascade (ou cascade generalization) (Gama & Brazdil, 2000) sont inspir´ees du principe du stacking. En effet, il s’agit l`a aussi de consid´erer les pr´edictions des hypoth`eses comme de nouveaux attributs de des-cription des individus, et de construire une hypoth`ese `a l’aide de ces nouveaux attributs. Cependant, c’est sur plusieurs niveaux que ce principe est appliqu´e, et les attributs d’origine sont conserv´es et compl´et´es it´erativement. Le principe est le suivant : une premi`ere hypoth`ese de niveau 0 est construite sur l’ensemble

d’attri-2.3. M´ethodes ensemblistes homog`enes 27