• Aucun résultat trouvé

Régression linéaire multiple et ses hypothèses

CHAPITRE 2 REVUE DE LITTÉRATURE

2.3 Modélisation statistique en science des données

2.3.2 Modèles et hypothèses de la régression linéaire multiple en statistique

2.3.2.1 Régression linéaire multiple et ses hypothèses

La régression linéaire multiple permet de construire un modèle afin de prédire la BSA représentée par qui est la variable dépendante en fonction des valeurs d’une ou plusieurs mesures anthropométriques qui sont appelées variables indépendantes.

Les coefficients de régression = ( , , … , ) sont les inconnus du modèle qui représentent les contributions indépendantes de chaque variable (indépendante) à la prévision de ; est une erreur aléatoire (bruit) qui est supposée avoir une distribution normale et indépendante avec une moyenne nulle. Le modèle de régression est de la forme linéaire suivante:

= + + , = 1, ⋯ , (2.1)

= − ŷ (2.2)

Les résidus de l’échantillon sont une estimation des erreurs de la population, également de la forme suivante : ⋮ = 1⋮ 1 , ⋯ , ⋮ ⋱ ⋮ , ⋯ , ⋮ + ⋮ (2.3) Soit : = + (2.4)

Les paramètres inconnus sont le plus souvent estimés par des techniques d’estimation des moindres carrées ordinaires ou pondérés.

La régression linéaire, tout comme le modèle linéaire général étant des méthodes paramétriques, elles admettent une distribution normale des résidus. Certaines hypothèses

doivent donc être vérifiées afin de garantir des résultats et des conclusions non biaisés (Osborne & Waters, 2002).

Pourtant de nombreuses études vérifient les mauvaises hypothèses, ou encore utilisent des tests trop conservateurs et certaines hypothèses plutôt implicites peuvent porter à confusion (M. N. Williams, Grajales, & Kurkiewicz, 2013). Sur la base de ces deux études de Osborne et Waters, (2002) et M. N. Williams et al., (2013), une évaluation informée des hypothèses actuelles de la régression multiple est présentée ci-dessous.

Distribution normale des erreurs : Un diagramme Quantile-Quantile (ou encore Q-Q plot) permet d’observer si la déviation suit une distribution normale. D’un autre côté, l’hypothèse d’une distribution normale des erreurs est moins problématique lorsque la taille d’échantillon est suffisamment grande pour référer au théorème central limite. Les coefficients de régression estimés seront toujours non biaisés et consistants. Ce théorème stipule que la distribution échantillonnale des coefficients approche une distribution normale à mesure que la taille d’échantillon augmente, et ce, même si les erreurs ne sont pas normalement distribuées.

Linéarité des paramètres : Si la relation entre les variables indépendantes et la variable dépendante n’est pas linéaire dans les paramètres, alors les coefficients calculés aboutiront à des conclusions erronées sur la force et la nature de la relation entre les variables du modèle. Visualiser le graphe des résidus par rapport aux valeurs prédites de la variable indépendante

permet d’observer une structure des résidus non désirée, indiquant des résultats biaisés.

L’équation du modèle de régression comprend une portion non seulement déterministe, mais également stochastique, donc aléatoire et imprévisible. Pour que les résidus concordent avec l’erreur stochastique, ils devraient être centrés sur zéro le long de la gamme des valeurs ajustées et présenter une structure symétrique. Une structure non aléatoire et non symétrique (Figure 2.4, b) indique que la partie déterministe du modèle non linéaire (variables indépendantes) n’explique pas toutes les possibilités qui peuvent être soit une importante variable

indépendante manquante, un coefficient de régression manquant ou encore une interaction manquante entre les coefficients existants.

Moyenne conditionnelle nulle des erreurs : Les erreurs sont assumées avoir une moyenne nulle pour chaque valeur donnée ou combinaison de valeurs des variables indépendantes. La violation de cette hypothèse peut rendre les coefficients de régression biaisés. Les raisons plausibles de cette violation incluent la modélisation d’une relation linéaire au lieu d’une relation non linéaire, et des variables indépendantes qui sont corrélées avec la variable dépendante.

Indépendances des erreurs2. (Ne concerne que les données de séries temporelles). Si les erreurs

ne sont pas indépendantes, l’estimation des erreurs standard et tests de significativité associés seront biaisés. Néanmoins, les coefficients de régression resteront non biaisés, mais sous- optimaux.

Figure 2.4 a) Structure attendue des résidus. b) Structure non désirée des résidus (biais)

Homoscédasticité : Les erreurs sont assumées avoir une variance inconnue, mais finie qui soit constante. L’estimation des moindres carrées ordinaires nécessaires à la résolution des

2 Le présent projet n’est pas concerné par cette hypothèse étant donné la nature transversale des données (unités

paramètres sera non biaisée et consistante tant que les erreurs sont indépendantes, mais ne seront pas optimaux.

De plus, toutes inférences ne seront plus fiables puisque les intervalles de confiances, test t et de Fisher (pour évaluer la significativité) ne seront plus justifiés. Là encore l’homoscédasticité peut être visualisée par le graphe des résidus. Plusieurs alternatives existent pour surmonter l’homoscédasticité telles que des transformations stabilisant la variance, les méthodes Bootstrap, une estimation via les moindres carrés pondérés ou encore la spécification d’un modèle linéaire généralisé.

Multicolinéarité : La présence de multicolinéarité entre plusieurs variables peut être un souci dépendamment de ce qui est souhaité : si l’objectif concerne la prédiction, alors la multicolinéarité n’est pas un obstacle puisque la prédiction de la variable dépendante ne sera pas grandement affectée. Au contraire, si l’objectif est de faire des inférences sur les paramètres d’une population, la multicolinéarité sera plus problématique. Le coefficient d’inflation de la variance (VIF) est une mesure populaire de la multicolinéarité. Bien que la multicolinéarité ne soit pas une hypothèse actuelle de la régression multiple, il est important de la prendre en considération.

Les performances d’un modèle statistique dépendent de la méthode utilisée pour estimer les paramètres d’une régression. La plus populaire étant l’estimation par les moindres carrées ordinaires. Cette méthode consiste à minimiser la somme des carrés des écarts des valeurs observées à la droite = ∙ + . Ce qui revient donc à estimer les valeurs de et qui minimisent la somme des carrés des résidus :

= = ( − ( ∙ + )) (2.5)

Dans certains cas, l'hypothèse de variance constante dans les valeurs résiduelles pour les moindres carrés est contredite (hétéroscédasticité). On applique dans ce cas une pondération

adaptée, pour calculer ce que l'on appelle les estimations par les moindres carrés pondérés. Cette procédure minimise la somme des carrés des valeurs résiduelles pondérés, de manière à générer des valeurs résiduelles présentant une variance constante.