HAL Id: hal-01074920
https://hal.archives-ouvertes.fr/hal-01074920
Submitted on 15 Oct 2014
HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.
Quantile de régression : application à l’analyse de l’écotoxicité de molécules chimiques
Jonathan Villain, Ronan Bureau, Gilles Durrieu
To cite this version:
Jonathan Villain, Ronan Bureau, Gilles Durrieu. Quantile de régression : application à l’analyse de l’écotoxicité de molécules chimiques. 46èmes Journées de Statistique, Jun 2014, Rennes, France.
�hal-01074920�
Quantile de r´ egression : application ` a l’analyse de l’´ ecotoxicit´ e de mol´ ecules chimiques
Jonathan VILLAIN 1,2 & Ronan BUREAU 2 & Gilles DURRIEU 1
1 Laboratoire de Math´ ematiques de Bretagne Atlantique, Universit´ e de Bretagne Sud et UMR CNRS 6205, Campus de Tohannic, 56017 Vannes
2 Centre d’ ´ Etudes et de Recherche sur le M´ edicament de Normandie, UNICAEN, Caen ronan.bureau@unicaen.fr, {gilles.durrieu,jonathan.villain}@univ-ubs.fr
R´ esum´ e. L’estimation des propri´ et´ es ´ ecotoxicologiques de produits chimiques est une pr´ eoccupation environnementale majeure. Les mod` eles QSAR (Quantitative Structure- Activity Relationship) sont des mod` eles statistiques de r´ egression lin´ eaire et de classifica- tion souvent utilis´ es pour pr´ edire l’´ ecotoxicit´ e de mol´ ecules chimiques. Nous consid´ erons dans ce papier des r´ egressions quantiles qui sont plus robustes ` a la pr´ esence de valeurs aber- rantes tout en offrant l’avantage de s’int´ eresser ` a l’ensemble de la distribution condition- nelle de la variable d’int´ erˆ et et pas seulement ` a sa moyenne comme en r´ egression lin´ eaire.
Nous proposons ici, dans ce souci de pr´ ediction, des mod` eles quantiles en r´ egression et Support Vector Machines (SVM) dans le domaine de la chemoinformatique.
Mots-cl´ es. ´ ecotoxicologie, SVM, r´ egression, classification, noyau, quantile, robustesse.
Abstract. The estimation of ecotoxicological properties of chemicals is a major en- vironmental concern. The QSAR models (Quantitative Structure-Activity Relationship) are linear regression and classification models often used to predict the ecotoxicity of che- mical molecules. We consider in this paper quantile regression estimators which are more robust to outliers providing a more detailed focus on the entire conditional distribution of the dependent variable and not only on its mean as in linear regression. We propose here, in this concern of prediction, quantile models in regression and Support Vector Machines (SVM) in the field of chemoinformatics.
Keywords. ecotoxicology, SVM, regression, classification, kernel, quantile, robustness.
1 Introduction
On parle aujourd’hui de plus en plus des probl` emes li´ es ` a la sant´ e et ` a l’environ- nement. L’estimation des propri´ et´ es toxicologiques et ´ ecotoxicologiques des produits chi- miques est devenue une pr´ eoccupation environnementale majeure. Cette pr´ eoccupation a
´ et´ e ` a la base de la mise en place au niveau europ´ een du programme REACH. Au sein de la
r` eglementation REACH, les industriels de la chimie doivent fournir des informations sur
un certain nombre de crit` eres concernant les propri´ et´ es physico-chimiques et (´ eco) toxico- logiques. L’objectif g´ en´ eral est d’estimer le risque chimique pour chaque compos´ e chimique et d’´ ecarter ceux class´ es canc´ erig` enes, polluants ou persistants et bio-accumulatifs, avec dans ce cas une obligation de substitution. Trois types de m´ ethodes sont autoris´ es pour la d´ etermination de ces risques : les m´ ethodes in vivo qui sont des m´ ethodes pr´ ecises mais qui posent un probl` eme ´ ethique et un coˆ ut important, les m´ ethodes in vitro qui sont des m´ ethodes associ´ ees ` a des tests au niveau cellulaire, m´ ethodes int´ eressantes mais non d´ evelopp´ ees pour l’ensemble des crit` eres et enfin les m´ ethodes in silico qui sont des m´ ethodes bas´ ees sur une estimation ` a partir de bases de donn´ ees. Dans ce travail, nous proposons de d´ evelopper des mod` eles statistiques pour les m´ ethodes in silico afin de d´ ecrire les mol´ ecules chimiques et relier cette description aux propri´ et´ es biologiques.
2 Mod` eles et estimateurs
Dans beaucoup d’applications (astronomie, biologie, chimie, m´ edecine, physique, etc), les donn´ ees sont contamin´ ees par des valeurs aberrantes qui proviennent d’erreurs dues
`
a l’environnement exp´ erimental ou de tout autre cause, tout aussi triviale qu’une erreur d’enregistrement ou de lecture. Nous consid´ erons dans ce papier des approches quantiles en r´ egression et SVM.
2.1 Quantiles de r´ egression
L’estimation au sens des moindres carr´ es (estimation L 2 ) est souvent utilis´ ee du fait des facilit´ es de calcul et de ses bonnes propri´ et´ es pour le mod` ele lin´ eaire gaussien ; toute- fois, ces estimateurs sont tr` es sensibles ` a la pr´ esence de valeurs aberrantes. En revanche, la robustesse de la m´ ediane (arch´ etype d’estimation L 1 ) est connue de longue date. En 1964, Huber [?] a publi´ e un article de r´ ef´ erence sur l’estimation robuste du param` etre de loca- tion. Ces derni` eres ann´ ees, un effort th´ eorique consid´ erable a ´ et´ e d´ eploy´ e pour construire des m´ ethodes statistiques robustes. Mentionnons simplement ici que le travail de Huber a ´ et´ e ´ etendu aux mod´ eles lin´ eaires par [1], [2], [9], [8], [10] et [11]. Nous consid´ erons ici le mod` ele de r´ egression lin´ eaire suivant :
Y = Xβ + ε (1)
o` u Y = (Y 1 , . . . , Y n ) 0 est le vecteur des observations, X est une matrice connue de dimen- sion n× p ayant pour lignes x 0 i ∈ R p , i = 1, . . . , n, ε = (ε 1 , . . . , ε n ) 0 est un vecteur d’erreurs ind´ ependantes de fonction de r´ epartition F inconnue et de m´ ediane nulle (F −1 (1/2) = 0) et β = (β 1 , . . . , β p ) 0 d´ esigne le vecteur inconnu des param` etres de r´ egression ` a estimer.
En 1978 Koenker et Basset ont propos´ e le concept de “quantile de r´ egression”. On
appelle θ-quantile de r´ egression toute solution du probl` eme de minimisation
β(θ) = arg min b
β
∈ R
pn
X
i=1
ρ θ (Y i − x 0 i β) (2)
o` u ρ θ (x) = x (θ − I (x < 0)) et I (P ) prend la valeur 1 ou 0 selon que la condition P est v´ erifi´ ee ou non. Un cas particulier de cette classe d’estimateurs (obtenu pour θ = 1/2) est l’estimateur L 1 ou la r´ egression m´ ediane qui s’obtient par r´ esolution du probl` eme de minimisation (2). La normalit´ e asymptotique de l’estimateur β(θ) a ´ b et´ e donn´ ee par [13]
sous l’hypoth` ese d’erreurs i.i.d. et pour des erreurs ind´ ependantes, mais pas n´ ecessairement identiquement distribut´ ees [7] dans le mod` ele (1). La variance asymptotique de β(θ) s’´ b ecrit dans sa forme g´ en´ erale
Σ θ = (θ (1 − θ)) (X 0 F X ) −1 (X 0 X) (X 0 F X ) −1 (3) o` u F = diag{f 1 (Q(θ)), . . . , f n (Q(θ))} avec Q(θ) correspondant ` a la fonction quantile.
Dans le cas d’une erreur i.i.d. dans le mod` ele (1), l’´ equation (3) est r´ eduit ` a
Σ θ = (θ (1 − θ)/f 2 (Q(θ))) (X 0 X) −1 , (4) o` u 1/f (Q(θ)) est la densit´ e du quantile. Les variances asymptotiques (4) et (3) d´ ependant de la densit´ e de probabilit´ e des erreurs (inconnue), nous avons besoin de “bons” estima- teurs de la variance asymptotique. Il est possible de proc´ eder par une estimation directe en utilisant un estimateur non param´ etrique ` a noyau de la densit´ e du quantile ([4, 5]).
Quand les observations sont ind´ ependantes mais non identiquement distribu´ ees, comme souvent dans le domaine de la chemoinformatique, il est possible d’´ etendre la th´ eorie i.i.d. pour obtenir une version de l’estimateur sandwich de Huber-Eicker-White de la ma- trice de variance-covariance de β(θ). D’autres estimateurs ont aussi ´ b et´ e propos´ es pour ce probl` eme, incluant le test des rangs comme d´ ecrit dans [6, 14, 15] et des m´ ethodes de bootstrap ([16], [3], [12]).
2.2 Quantiles de r´ egression SVM
Les Support Vector Machines (SVM) ont ´ et´ e d´ evelopp´ es dans les ann´ ees 1990 ` a partir
de travaux sur l’apprentissage statistique initi´ es par Valdimir Vapnik [18]. Le principe de
base des SVM consiste ` a d´ efinir un hyperplan, dit de marge optimale, pour la s´ eparation
de classes comme solution d’un probl` eme d’optimisation sous contraintes dont la fonction
objectif ne s’exprime qu’` a l’aide de produits scalaires entre vecteurs et dans lequel le
nombre de contraintes “actives” ou vecteurs supports contrˆ ole la complexit´ e du mod` ele. Le
passage ` a la recherche de surfaces s´ eparatrices non lin´ eaires est obtenu par l’introduction
d’une fonction noyau dans le produit scalaire induisant implicitement une transformation
non lin´ eaire des donn´ ees vers un espace de plus grande dimension. Soit X les variables
explicatives ou pr´ edictives ` a valeurs dans un ensemble F et Y la variable ` a pr´ edire.
On note par {(x 1 , y 1 ), . . . , (x n , y n )}, un ´ echantillon statistique de taille n et de loi F inconnue. Les SVM peuvent ´ egalement ˆ etre mis en œuvre en r´ egression. Dans le cas non lin´ eaire, le principe consiste ` a rechercher une estimation de ˆ f (x) d’un mod` ele f (x) pour Y . Les observations faites dans l’ensemble F (en g´ en´ eral R p ) sont consid´ er´ ees comme ´ etant transform´ ees par une application non lin´ eaire x → φ(x) qui va de x = (x 1 , . . . , x n ) ∈ F dans un espace muni d’un produit scalaire de plus grande dimension. Nous pr´ esentons maintenant la r´ egression non lin´ eaire quantile SVM not´ ee QSMR.
La fonction quantile y i conditionnellement ` a x i peut s’´ ecrire pour i = 1, . . . , n : Q(θ/x i ) = w 0 θ φ(x i ) pour θ ∈ (0, 1), (5) o` u w θ d´ esigne le θ-quantile de r´ egression. QSVMR peut se d´ efinir comme dans (2) en minimisant pour θ ∈ (0, 1)
1
2 || w θ || 2 +C
n
X
i=1
ρ θ (y i − w 0 θ φ(x i )) , (6) o` u C d´ esigne le degr´ e de p´ enalisation.
Une solution de (6) pour θ ∈ (0, 1) s’obtient en optimisant sa version duale quadratique (voir [17]). Le θ-quantile de r´ egression pour x ? s’´ ecrit alors :
Q(θ/x ? ) =
n
X
i=1
λ − i − λ + i
K(x i , x ? ) et w θ =
n
X
i=1
λ − i − λ + i
φ(x i ), (7) o` u λ − i , λ + i sont les multiplicateurs de Lagrange et K(x i , x j ) d´ esigne une fonction noyau.
Nous consid´ erons ici la fonction noyau de type radial gaussian (RBF) donn´ ee par : k (x i , x j ) = exp
− || x i − x j || 2 2 σ 2
, (8)
o` u le param` etre σ d´ esigne la taille de la fenˆ etre. Le param` etre σ peut ˆ etre d´ etermin´ e par validation crois´ ee.
3 Application en ch´ emoinformatique
Le rapport de toxicit´ e (Toxic Ratio), not´ e TR, a ´ et´ e d´ evelopp´ e par Neuwoehner et al. [19] pour d´ eterminer le mode d’action d’une mol´ ecule. Il se d´ etermine ` a partir d’un mod` ele de r´ egression bas´ e sur la relation entre log(1/CE 50 ) (CE 50 est la Concentration Effective m´ ediane) et le coefficient de s´ eparation octanol-eau not´ ee log(P ) d´ efinie par :
log 1
CE 50
= a log(P ) + b, (9)
o` u a et b d´ esignent les param` etres de r´ egression inconnues ` a estimer. Le Toxic Ratio (TR) est alors obtenu par le rapport entre les valeurs accessibles dans les bases de donn´ ees utilis´ ees en chemoinformatique et les valeurs pr´ edites par le mod` ele de r´ egression. En pra- tique, les biochimistes consid` erent que pour un TR sup´ erieur ` a 10, la mol´ ecule poss` ede un mode d’action sp´ ecifique sinon la mol´ ecule est consid´ er´ ee comme ayant un mode d’action non-sp´ ecifique (toxicit´ e basale). Nous proposons de calculer le rapport de toxicit´ e ` a partir d’un mod` ele de r´ egression quantile. Nous s´ electionnons diff´ erents quantiles de r´ egression pour le calcul du TR mais nous donnons ici les r´ esultats pour θ = 0.5.
Nous consid´ erons 401 produits chimiques pour lesquels nous avons les valeurs de CE 50
(concentration aboutissant ` a une inhibition de 50 % de la croissance d’une algue (P. sub- capitata)) ainsi que des informations sur la structure des produits chimiques (descripteurs topologiques). On veut ` a partir de ces descripteurs d´ eterminer un mod` ele afin de pouvoir pr´ edire la valeur de CE 50 . Nous commen¸cons par d´ eterminer le mode d’action des pro- duits chimiques afin de pr´ edire et ´ ecarter les produits ayant un mode d’action sp´ ecifique.
En consid´ erant une r´ egression m´ ediane pour estimer les TR, un total de 336 produits chi- miques est consid´ er´ e comme n’ayant pas de modes d’action sp´ ecifique. On utilise ensuite une classification SVM afin d’obtenir une pr´ ediction des modes d’action des mol´ ecules sur l’ensemble des descripteurs qui donne respectivement une erreur de classification en apprentissage de 1.75% et en validation crois´ ee (2/3, 1/3) de 14.95%. En consid´ erant les 368 produits chimiques pr´ edits comme n’ayant pas de modes d’action sp´ ecifique en vali- dation crois´ ee, nous effectuons une r´ egression m´ ediane SVM. Afin de choisir le nombre de variables ` a consid´ erer, nous pr´ esentons dans la Figure 1 les crit` eres SCE R et R 2 obtenus en validation crois´ ee. Une r´ egression par segments sur les valeurs de SCE R nous conduit
`
a consid´ erer 73 variables. Le mod` ele quantile SVM avec 73 variables donne un R 2 = 0.68 et une SCE R = 141.26 en validation crois´ ee (2/3,1/3).
(a)
nombre de variable
R²
0 50 100 150
0.00.20.40.60.81.0
(b)
nombre de variable SCER
0 50 100 150
0100200300400