• Aucun résultat trouvé

2.5 Détermination du nombre de composantes

2.5.2 Objectifs de la thèse

La régression PLS est devenue l’un des procédés de référence pour le traitement des jeux de données obtenus à la suite d’études génomiques. Cependant, comme nous venons de le voir, aucun critère fiable dans la détermination du nombre de composantes ne fait actuelle-ment référence. Or, il s’agit d’un point essentiel à l’établisseactuelle-ment de modèles de régression fiables ainsi qu’à la sélection de prédicteurs.

2.5. DÉTERMINATION DU NOMBRE DE COMPOSANTES 33 la construction des composantes PLS qui soit lié à certaines propriétés qui nous semblent essentielles. La première a été de ne pas se servir de la VC dû aux problèmes que celle-ci implique et que nous avons évoqué dans la partie précédente 2.5.1. De plus, nous désirions que ce critère ait un aspect universel dans le sens où la méthodologie soit applicable autant à la régression PLS usuelle qu’à ses extensions présentées dans la partie 2.4. Enfin, nous avons considéré comme étant essentiel que ce nouveau critère soit lié à une forte stabilité ainsi qu’à une forte robustesse au bruit aléatoire qui est une caractéristique omniprésente dans les bases de données que nous avons à traiter.

Pour ce faire, nous avons opté pour l’utilisation de techniques de bootstrap. En effet,

comme indiqué entre autres par Efron and Tibshirani (1993, p.255) et Kohavi (1995), le

bootstrap est une méthode globalement plus stable que la VC. Le bootstrap, comme indi-qué dans la partie précédente, a déjà été appliindi-qué afin d’estimer les erreurs de prédiction pour la détermination d’un nombre optimal de composantes. Cependant, cette utilisation du bootstap n’a pas débouché sur le développement d’un critère de référence. Nous avons donc cherché à en effectuer une autre utilisation, à savoir l’obtention d’intervalles de confiance

pour les paramètres de la régression de y sur Tk. En effet, la matrice Tk dépendant de la

réponse, elle peut être considérée comme étant aléatoire. Ainsi, il est possible de considérer

les observations yi, x(i)



1in comme étant des observations indépendantes identiquement

distribuées (i.i.d.) suivant une distribution inconnue F (p + 1)-dimensionnelle. La technique

du bootstrap par paires est particulièrement adaptée à ce type de cas de figure (Efron and

Tibshirani, 1993, p.113). Ce nouveau critère que l’on a développé, et que l’on explicitera

dans le chapitre 5, permet donc d’éviter l’utilisation de la VC tout en cherchant à approcher la distribution des paramètres de régression, évitant ainsi de se baser sur la statistique du PRESS, afin de déterminer le nombre optimal de composantes. Ce travail de recherche a fait l’objet de l’écriture d’un article constituant le chapitre 5 de cette thèse.

Un second objectif a été d’utiliser ce nouveau critère afin de développer une méthode de sélection des prédicteurs ne nécessitant plus l’utilisation de la VC et qui soit, à nouveau, liée à la notion d’universalité recherchée. L’adaptation de notre nouveau critère de sélection du nombre de composantes à la Sparse PLS a également été effectuée. Ces recherches et les résultats obtenus ont fait l’objet de l’écriture d’un second article constituant le chapitre 7 de cette thèse.

A la vue du développement de méthodes basées sur le bootstrap, il nous a paru impor-tant de consacrer le prochain chapitre à des rappels sur cette technique avant d’exposer à proprement dit les résultats de recherche liés à cette thèse dans les chapitres suivants.

Chapitre 3

Le bootstrap

Ce chapitre doit être considéré comme une introduction à la méthodologie du bootstrap. Nous ne prétendons en aucun cas y être exhaustif, notamment quant aux propriétés théoriques du bootstrap. Il nous a seulement paru important d’en rappeler les bases afin de fournir aux lecteurs les informations nécessaires à la compréhension des méthodes développées dans les prochains chapitres.

3.1 Motivations

En statistique, un objectif courant est d’évaluer la qualité d’un estimateur Θn de Θ à

partir d’un échantillon X1, . . . , Xn indépendant identiquement distribué (i.i.d.) de variable

aléatoire parente X à travers la détermination de son biais ou de sa variance. Un second objectif repose sur l’établissement d’une probabilité de couverture ou un risque de façon à obtenir un intervalle de confiance (IC) pour la statistique étudiée ou d’effectuer des tests. Pour

ce faire, il faut connaître la loi théorique de Θn que l’on note Gn. Or, Θn étant une fonction

de l’échantillon de référence i.e. Θn= f (X1, . . . , Xn), il faut en premier lieu connaître la loi

F portée par la variable aléatoire parente X.

Dans des cadres théoriques classiques et relativement triviaux, tel que dans le cadre gaus-sien, des résultats théoriques quant aux distributions portant sur des statistiques telles que la moyenne ou la variance de l’échantillon sont connus et permettent l’établissement d’IC. Cependant, en pratique, il est fréquent de ne pas connaître la loi F, empêchant ainsi

l’élabo-ration théorique de la loi Gn. Même dans le cas où F est connu, entièrement ou à paramètre

près, il n’est pas toujours possible d’obtenir Gn théoriquement au regard de la complexité de

la statistique étudiée.

Afin de palier à ces limites, des méthodes computationnelles ont été élaborées ces der-nières décennies, reposant sur la force de calcul grandissante du monde informatique. Ces méthodes consistent en la création d’échantillons supplémentaires, obtenus de façon algorith-mique, permettant ainsi l’approximation de façon empirique des lois inconnues citées ci-dessus et ouvrant ainsi la possibilité d’élaboration d’IC, d’évaluation de la qualité des estimateurs ou encore la réalisation de tests.

Précisons que ce chapitre est principalement basé sur le livre de référence réalisé parEfron

36 CHAPITRE 3. LE BOOTSTRAP

and Tibshirani (1993) et invitons ainsi les lecteurs désireux d’en savoir plus sur ces méthodes

à commencer par la lecture de cette œuvre ainsi que celle de Hall(1992).

Documents relatifs