• Aucun résultat trouvé

Quantile de régression : application à l'analyse de l'écotoxicité de molécules chimiques

N/A
N/A
Protected

Academic year: 2021

Partager "Quantile de régression : application à l'analyse de l'écotoxicité de molécules chimiques"

Copied!
7
0
0

Texte intégral

(1)

HAL Id: hal-01074920

https://hal.archives-ouvertes.fr/hal-01074920

Submitted on 15 Oct 2014

HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

Quantile de régression : application à l’analyse de l’écotoxicité de molécules chimiques

Jonathan Villain, Ronan Bureau, Gilles Durrieu

To cite this version:

Jonathan Villain, Ronan Bureau, Gilles Durrieu. Quantile de régression : application à l’analyse de l’écotoxicité de molécules chimiques. 46èmes Journées de Statistique, Jun 2014, Rennes, France.

�hal-01074920�

(2)

Quantile de r´ egression : application ` a l’analyse de l’´ ecotoxicit´ e de mol´ ecules chimiques

Jonathan VILLAIN 1,2 & Ronan BUREAU 2 & Gilles DURRIEU 1

1 Laboratoire de Math´ ematiques de Bretagne Atlantique, Universit´ e de Bretagne Sud et UMR CNRS 6205, Campus de Tohannic, 56017 Vannes

2 Centre d’ ´ Etudes et de Recherche sur le M´ edicament de Normandie, UNICAEN, Caen ronan.bureau@unicaen.fr, {gilles.durrieu,jonathan.villain}@univ-ubs.fr

R´ esum´ e. L’estimation des propri´ et´ es ´ ecotoxicologiques de produits chimiques est une pr´ eoccupation environnementale majeure. Les mod` eles QSAR (Quantitative Structure- Activity Relationship) sont des mod` eles statistiques de r´ egression lin´ eaire et de classifica- tion souvent utilis´ es pour pr´ edire l’´ ecotoxicit´ e de mol´ ecules chimiques. Nous consid´ erons dans ce papier des r´ egressions quantiles qui sont plus robustes ` a la pr´ esence de valeurs aber- rantes tout en offrant l’avantage de s’int´ eresser ` a l’ensemble de la distribution condition- nelle de la variable d’int´ erˆ et et pas seulement ` a sa moyenne comme en r´ egression lin´ eaire.

Nous proposons ici, dans ce souci de pr´ ediction, des mod` eles quantiles en r´ egression et Support Vector Machines (SVM) dans le domaine de la chemoinformatique.

Mots-cl´ es. ´ ecotoxicologie, SVM, r´ egression, classification, noyau, quantile, robustesse.

Abstract. The estimation of ecotoxicological properties of chemicals is a major en- vironmental concern. The QSAR models (Quantitative Structure-Activity Relationship) are linear regression and classification models often used to predict the ecotoxicity of che- mical molecules. We consider in this paper quantile regression estimators which are more robust to outliers providing a more detailed focus on the entire conditional distribution of the dependent variable and not only on its mean as in linear regression. We propose here, in this concern of prediction, quantile models in regression and Support Vector Machines (SVM) in the field of chemoinformatics.

Keywords. ecotoxicology, SVM, regression, classification, kernel, quantile, robustness.

1 Introduction

On parle aujourd’hui de plus en plus des probl` emes li´ es ` a la sant´ e et ` a l’environ- nement. L’estimation des propri´ et´ es toxicologiques et ´ ecotoxicologiques des produits chi- miques est devenue une pr´ eoccupation environnementale majeure. Cette pr´ eoccupation a

´ et´ e ` a la base de la mise en place au niveau europ´ een du programme REACH. Au sein de la

r` eglementation REACH, les industriels de la chimie doivent fournir des informations sur

(3)

un certain nombre de crit` eres concernant les propri´ et´ es physico-chimiques et (´ eco) toxico- logiques. L’objectif g´ en´ eral est d’estimer le risque chimique pour chaque compos´ e chimique et d’´ ecarter ceux class´ es canc´ erig` enes, polluants ou persistants et bio-accumulatifs, avec dans ce cas une obligation de substitution. Trois types de m´ ethodes sont autoris´ es pour la d´ etermination de ces risques : les m´ ethodes in vivo qui sont des m´ ethodes pr´ ecises mais qui posent un probl` eme ´ ethique et un coˆ ut important, les m´ ethodes in vitro qui sont des m´ ethodes associ´ ees ` a des tests au niveau cellulaire, m´ ethodes int´ eressantes mais non d´ evelopp´ ees pour l’ensemble des crit` eres et enfin les m´ ethodes in silico qui sont des m´ ethodes bas´ ees sur une estimation ` a partir de bases de donn´ ees. Dans ce travail, nous proposons de d´ evelopper des mod` eles statistiques pour les m´ ethodes in silico afin de d´ ecrire les mol´ ecules chimiques et relier cette description aux propri´ et´ es biologiques.

2 Mod` eles et estimateurs

Dans beaucoup d’applications (astronomie, biologie, chimie, m´ edecine, physique, etc), les donn´ ees sont contamin´ ees par des valeurs aberrantes qui proviennent d’erreurs dues

`

a l’environnement exp´ erimental ou de tout autre cause, tout aussi triviale qu’une erreur d’enregistrement ou de lecture. Nous consid´ erons dans ce papier des approches quantiles en r´ egression et SVM.

2.1 Quantiles de r´ egression

L’estimation au sens des moindres carr´ es (estimation L 2 ) est souvent utilis´ ee du fait des facilit´ es de calcul et de ses bonnes propri´ et´ es pour le mod` ele lin´ eaire gaussien ; toute- fois, ces estimateurs sont tr` es sensibles ` a la pr´ esence de valeurs aberrantes. En revanche, la robustesse de la m´ ediane (arch´ etype d’estimation L 1 ) est connue de longue date. En 1964, Huber [?] a publi´ e un article de r´ ef´ erence sur l’estimation robuste du param` etre de loca- tion. Ces derni` eres ann´ ees, un effort th´ eorique consid´ erable a ´ et´ e d´ eploy´ e pour construire des m´ ethodes statistiques robustes. Mentionnons simplement ici que le travail de Huber a ´ et´ e ´ etendu aux mod´ eles lin´ eaires par [1], [2], [9], [8], [10] et [11]. Nous consid´ erons ici le mod` ele de r´ egression lin´ eaire suivant :

Y = Xβ + ε (1)

o` u Y = (Y 1 , . . . , Y n ) 0 est le vecteur des observations, X est une matrice connue de dimen- sion n× p ayant pour lignes x 0 i ∈ R p , i = 1, . . . , n, ε = (ε 1 , . . . , ε n ) 0 est un vecteur d’erreurs ind´ ependantes de fonction de r´ epartition F inconnue et de m´ ediane nulle (F −1 (1/2) = 0) et β = (β 1 , . . . , β p ) 0 d´ esigne le vecteur inconnu des param` etres de r´ egression ` a estimer.

En 1978 Koenker et Basset ont propos´ e le concept de “quantile de r´ egression”. On

(4)

appelle θ-quantile de r´ egression toute solution du probl` eme de minimisation

β(θ) = arg min b

β

∈ R

p

n

X

i=1

ρ θ (Y i − x 0 i β) (2)

o` u ρ θ (x) = x (θ − I (x < 0)) et I (P ) prend la valeur 1 ou 0 selon que la condition P est v´ erifi´ ee ou non. Un cas particulier de cette classe d’estimateurs (obtenu pour θ = 1/2) est l’estimateur L 1 ou la r´ egression m´ ediane qui s’obtient par r´ esolution du probl` eme de minimisation (2). La normalit´ e asymptotique de l’estimateur β(θ) a ´ b et´ e donn´ ee par [13]

sous l’hypoth` ese d’erreurs i.i.d. et pour des erreurs ind´ ependantes, mais pas n´ ecessairement identiquement distribut´ ees [7] dans le mod` ele (1). La variance asymptotique de β(θ) s’´ b ecrit dans sa forme g´ en´ erale

Σ θ = (θ (1 − θ)) (X 0 F X ) −1 (X 0 X) (X 0 F X ) −1 (3) o` u F = diag{f 1 (Q(θ)), . . . , f n (Q(θ))} avec Q(θ) correspondant ` a la fonction quantile.

Dans le cas d’une erreur i.i.d. dans le mod` ele (1), l’´ equation (3) est r´ eduit ` a

Σ θ = (θ (1 − θ)/f 2 (Q(θ))) (X 0 X) −1 , (4) o` u 1/f (Q(θ)) est la densit´ e du quantile. Les variances asymptotiques (4) et (3) d´ ependant de la densit´ e de probabilit´ e des erreurs (inconnue), nous avons besoin de “bons” estima- teurs de la variance asymptotique. Il est possible de proc´ eder par une estimation directe en utilisant un estimateur non param´ etrique ` a noyau de la densit´ e du quantile ([4, 5]).

Quand les observations sont ind´ ependantes mais non identiquement distribu´ ees, comme souvent dans le domaine de la chemoinformatique, il est possible d’´ etendre la th´ eorie i.i.d. pour obtenir une version de l’estimateur sandwich de Huber-Eicker-White de la ma- trice de variance-covariance de β(θ). D’autres estimateurs ont aussi ´ b et´ e propos´ es pour ce probl` eme, incluant le test des rangs comme d´ ecrit dans [6, 14, 15] et des m´ ethodes de bootstrap ([16], [3], [12]).

2.2 Quantiles de r´ egression SVM

Les Support Vector Machines (SVM) ont ´ et´ e d´ evelopp´ es dans les ann´ ees 1990 ` a partir

de travaux sur l’apprentissage statistique initi´ es par Valdimir Vapnik [18]. Le principe de

base des SVM consiste ` a d´ efinir un hyperplan, dit de marge optimale, pour la s´ eparation

de classes comme solution d’un probl` eme d’optimisation sous contraintes dont la fonction

objectif ne s’exprime qu’` a l’aide de produits scalaires entre vecteurs et dans lequel le

nombre de contraintes “actives” ou vecteurs supports contrˆ ole la complexit´ e du mod` ele. Le

passage ` a la recherche de surfaces s´ eparatrices non lin´ eaires est obtenu par l’introduction

d’une fonction noyau dans le produit scalaire induisant implicitement une transformation

non lin´ eaire des donn´ ees vers un espace de plus grande dimension. Soit X les variables

(5)

explicatives ou pr´ edictives ` a valeurs dans un ensemble F et Y la variable ` a pr´ edire.

On note par {(x 1 , y 1 ), . . . , (x n , y n )}, un ´ echantillon statistique de taille n et de loi F inconnue. Les SVM peuvent ´ egalement ˆ etre mis en œuvre en r´ egression. Dans le cas non lin´ eaire, le principe consiste ` a rechercher une estimation de ˆ f (x) d’un mod` ele f (x) pour Y . Les observations faites dans l’ensemble F (en g´ en´ eral R p ) sont consid´ er´ ees comme ´ etant transform´ ees par une application non lin´ eaire x → φ(x) qui va de x = (x 1 , . . . , x n ) ∈ F dans un espace muni d’un produit scalaire de plus grande dimension. Nous pr´ esentons maintenant la r´ egression non lin´ eaire quantile SVM not´ ee QSMR.

La fonction quantile y i conditionnellement ` a x i peut s’´ ecrire pour i = 1, . . . , n : Q(θ/x i ) = w 0 θ φ(x i ) pour θ ∈ (0, 1), (5) o` u w θ d´ esigne le θ-quantile de r´ egression. QSVMR peut se d´ efinir comme dans (2) en minimisant pour θ ∈ (0, 1)

1

2 || w θ || 2 +C

n

X

i=1

ρ θ (y i − w 0 θ φ(x i )) , (6) o` u C d´ esigne le degr´ e de p´ enalisation.

Une solution de (6) pour θ ∈ (0, 1) s’obtient en optimisant sa version duale quadratique (voir [17]). Le θ-quantile de r´ egression pour x ? s’´ ecrit alors :

Q(θ/x ? ) =

n

X

i=1

λ i − λ + i

K(x i , x ? ) et w θ =

n

X

i=1

λ i − λ + i

φ(x i ), (7) o` u λ i , λ + i sont les multiplicateurs de Lagrange et K(x i , x j ) d´ esigne une fonction noyau.

Nous consid´ erons ici la fonction noyau de type radial gaussian (RBF) donn´ ee par : k (x i , x j ) = exp

− || x i − x j || 2 2 σ 2

, (8)

o` u le param` etre σ d´ esigne la taille de la fenˆ etre. Le param` etre σ peut ˆ etre d´ etermin´ e par validation crois´ ee.

3 Application en ch´ emoinformatique

Le rapport de toxicit´ e (Toxic Ratio), not´ e TR, a ´ et´ e d´ evelopp´ e par Neuwoehner et al. [19] pour d´ eterminer le mode d’action d’une mol´ ecule. Il se d´ etermine ` a partir d’un mod` ele de r´ egression bas´ e sur la relation entre log(1/CE 50 ) (CE 50 est la Concentration Effective m´ ediane) et le coefficient de s´ eparation octanol-eau not´ ee log(P ) d´ efinie par :

log 1

CE 50

= a log(P ) + b, (9)

(6)

o` u a et b d´ esignent les param` etres de r´ egression inconnues ` a estimer. Le Toxic Ratio (TR) est alors obtenu par le rapport entre les valeurs accessibles dans les bases de donn´ ees utilis´ ees en chemoinformatique et les valeurs pr´ edites par le mod` ele de r´ egression. En pra- tique, les biochimistes consid` erent que pour un TR sup´ erieur ` a 10, la mol´ ecule poss` ede un mode d’action sp´ ecifique sinon la mol´ ecule est consid´ er´ ee comme ayant un mode d’action non-sp´ ecifique (toxicit´ e basale). Nous proposons de calculer le rapport de toxicit´ e ` a partir d’un mod` ele de r´ egression quantile. Nous s´ electionnons diff´ erents quantiles de r´ egression pour le calcul du TR mais nous donnons ici les r´ esultats pour θ = 0.5.

Nous consid´ erons 401 produits chimiques pour lesquels nous avons les valeurs de CE 50

(concentration aboutissant ` a une inhibition de 50 % de la croissance d’une algue (P. sub- capitata)) ainsi que des informations sur la structure des produits chimiques (descripteurs topologiques). On veut ` a partir de ces descripteurs d´ eterminer un mod` ele afin de pouvoir pr´ edire la valeur de CE 50 . Nous commen¸cons par d´ eterminer le mode d’action des pro- duits chimiques afin de pr´ edire et ´ ecarter les produits ayant un mode d’action sp´ ecifique.

En consid´ erant une r´ egression m´ ediane pour estimer les TR, un total de 336 produits chi- miques est consid´ er´ e comme n’ayant pas de modes d’action sp´ ecifique. On utilise ensuite une classification SVM afin d’obtenir une pr´ ediction des modes d’action des mol´ ecules sur l’ensemble des descripteurs qui donne respectivement une erreur de classification en apprentissage de 1.75% et en validation crois´ ee (2/3, 1/3) de 14.95%. En consid´ erant les 368 produits chimiques pr´ edits comme n’ayant pas de modes d’action sp´ ecifique en vali- dation crois´ ee, nous effectuons une r´ egression m´ ediane SVM. Afin de choisir le nombre de variables ` a consid´ erer, nous pr´ esentons dans la Figure 1 les crit` eres SCE R et R 2 obtenus en validation crois´ ee. Une r´ egression par segments sur les valeurs de SCE R nous conduit

`

a consid´ erer 73 variables. Le mod` ele quantile SVM avec 73 variables donne un R 2 = 0.68 et une SCE R = 141.26 en validation crois´ ee (2/3,1/3).

(a)

nombre de variable

0 50 100 150

0.00.20.40.60.81.0

(b)

nombre de variable SCER

0 50 100 150

0100200300400

Figure 1 – Repr´ esentations en (a) du R 2 et en (b) du SCE R en fonction du nombre

de variable dans le mod` ele. Les bandes de confiance ` a 95% sont repr´ esent´ ees en traits

pointill´ es.

(7)

R´ ef´ erences

[1] Andrews, D. F. (1974), A robust method for multiple linear regression, Technometrics, 16, 523–531.

[2] Bickel, P. J. (1975), One-step Huber estimates in the linear model, J. Amer. Statist. Assoc., 70, 428–434.

[3] Bilias, Y., Chen, S. and Ying, Z. (2000), Simple resampling methods for censored regression quantiles, Journal of Econometrics, 99, 373–386.

[4] Dodge, Y. and Jureˇ ckov´ a, J. (1995), Estimation of quantile density function based on regression quantiles, Statistics and Probability Letters, 23, 73–78.

[5] Durrieu, G. and Briollais, L. (2009), Sequential design for microarray experiments, Journal of the American Statistical Association, 104, 650–660.

[6] Gutenbrunner, C. J., Jureˇ ckov´ a, J., Koenker, R. and Portnoy, S. (1993), Tests of linear hypotheses based on regression rank scores, Journal of non parametric statistics, 2, 307–

333.

[7] He, X. and Shao, Q. (1996), A general Bahadur representation of M-estimators and its application to linear regression with non stochastic designs, Ann. Statist., 24, 2608–2630.

[8] Huber, P. J. (1973), Robust regression : Asymptotics, conjectures and Monte Carlo, Ann.

Statist., 1, 799–821.

[9] Huber, P. J. and Ronchetto, E. M. (2009), Robust Statistics, J. Wiley, New York.

[10] Hampel, F. R., Ronchetti, E. M., Rousseeuw, J. and Stahel, W. A. (1986), Robust Statistics, J. Wiley, New York.

[11] Jureˇ ckov´ a, J. and Sen, P. K. (1996), Robust statistical procedures : Asymptotics and inter- relations, J. Wiley, New York.

[12] Kocherginsky, M., He, X. and Mu, Y. (2005), Practical Confidence Intervals for Regression Quantiles, Journal of Computational and Graphical Statistics, 14, 41–55.

[13] Koenker, R. W. and Bassett, G. (1978), Regression Quantiles, Econometrica, 46, 33–50.

[14] Koenker, R. (1994), Confidence Intervals for regression quantiles, Springer-Verlag, New- York, 349–359

[15] Koenker, R. (1996), Rank Tests for Linear Models, Springer-Verlag, New-York.

[16] Parzen, M. I., Wei, L. and Ying, Z. (1994), A resampling method based on pivotal estimating functions, Biometrika, 81, 341–350.

[17] Sohn, I., Kim, S., Hwang, C. and Lee, J. W. (2008), New normalization methods using support vector machine quantile regression approach in microarray analysis, Computational Statistics and Data Analysis, 52, 4104–4115.

[18] Vapnik, V.N. (1998), Statistical Learning Theory, New-York.

[19] Neuwoehner, J., Fenner, K., Escher, B. I. (2009), Physiologiccal Modes of Action of Fluoxe- tine and its human Metabolites in Algae, Environmental Science & Technology, 43, 6830–

6837

Références

Documents relatifs

[r]

Pour metttre des liaisons partant des atomes du cycle et allant vers des groupements ext´ erieurs, on utilise R (radical) pour une liaison simple et ER (extra radical) pour une

En r ´ealit ´e le m ´ecanisme est plus complexe, c’est une r ´eaction d’autocatalyse dans laquelle interviennent plusieurs r ´eactions avec des vitesses de diff ´erents ordres

 Exemples : Les gaz dioxygène, dihydrogène, dioxyde de carbone et méthane et l’eau liquide sont constitués de molécules.. Que représentent

 Exemples : Les gaz dioxygène, dihydrogène, dioxyde de carbone et méthane et l’eau liquide sont constitués de molécules.?. Molécules en

Analyse de la variance ` a deux facteurs... Le probl` eme qui se pose fr´ equemment en agronomie est l’utilisation de certains engrais suivant la nature du terrain. si les diff´

(2003) apply the same model to unemployment rate estimation for the Canadian Labour Force Survey using shorter time series data and do not consider seasonal adjustments.. In this

hi´ erarchique R´ eponse Normale Introduit les Mod` eles de Markov Latents en SAE Enquˆ ete LFS: donn´ ees trimestrielles 2004-2014.. Meilleure Pr´ ediction Empirique SAE avec donn´