• Aucun résultat trouvé

Modélisation de la rétention de 27 Pyrazines éluées sur deux colonnes de polarités très différentes

N/A
N/A
Protected

Academic year: 2021

Partager "Modélisation de la rétention de 27 Pyrazines éluées sur deux colonnes de polarités très différentes"

Copied!
70
0
0

Texte intégral

(1)

BADJI MOKHTAR-ANNABA UNIVERSITY UNIVERSITE BADJI MOKHTAR-ANNABA

Faculté des Sciences

Département de Chimie

Mémoire en vue de l’obtention du diplôme de magistère

Option : CHIMIE ANALYTIQUE

Thème :

Présenté par :

M

elle

MEBARKI Fatiha.

Jury :

Présidente : Mme. N. Fertikh MC UBMA

Examinateurs : M. D. Messadi Prof UBMA

M. A. Toubal MC UBMA Invitée : Mme. L. Lourici DS C.U. El Taref

Rapporteur : Mme. H. Larkem MC UBMA

ﺔﺑﺎﻨﻋ رﺎﺘﺨﻣ ﻲﺟﺎﺑ ﺔﻌﻣﺎﺟ

Modélisation de la rétention de 27 Pyrazines éluées

sur deux colonnes de polarités très différentes

(2)

DEDICACE

Je dédie ce travail à mes parents pour

leur affection et compréhension,

À mes frères, mes sœurs, et à tous mes

amis.

(3)

REMERCIEMENTS

Ce mémoire n

'

aurait pas vu le jour sans la confiance, la patience et la générosité du responsable de la P.G. Monsieur le Professeur D. MESSADI que je remercie vivement. Je voudrais aussi le remercier pour le temps et la patience qu’il ma accordés tout au long de ces années et pour avoir accepté d’examiner ce travail.

Je tiens également à remercier :

Madame. H .Larkem, pour la direction de ce travail ;

Madame. N.Fertikh, pour avoir accepté la présidence de ce jury ; Monsieur. A Toubal, pour avoir accepté de participer à ce jury ; Madame. L. Lourici, pour avoir accepté l’invitation.

Enfin, je ne saurais ignorer mes camarades de laboratoire et également tous ceux qui par leur présence ou par leur aide m’ont permis de mener à bien ce travail, spécialement Mohamed Lotfi, Imen et Khadidja.

(4)

ﺺﺨﻠﻣ

:

ﺱﺎﺒﺘﺣﻻﺍ ﺔﺳﺍﺭﺪﺑ ﻖﻠﻌﺘﺗ ﻲﺘﻟﺍ ﺔﻴﻤﻠﻌﻟﺍ ﺙﻮﺤﺒﻟﺍ ﻲﻓ ﺕﺎﻧﺎﻴﺒﻟﺍ ﺔﺳﺍﺭﺩ ﻥﺇ

)

ءﺎﻘﺒﺘﺳﻻﺍ

(

ـﻟ

27

ﻦﻳﺯﺍﺮﻴﺑ

(pyrazines)

ـﺑ ﺔﻟﻮﺼﻔﻣ

(CGTP)

ﺔﻘﻳﺮﻄﺑ ﺎﻬﺘﺠﻟﺎﻌﻣ ﻢﺗ ﻲﺘﻟﺍ ﻭ ﻦﻴﻔﻠﺘﺨﻣ ﺏﺎﻄﻘﺘﺳﺍ ﻱﺩﻮﻤﻋ ﻰﻠﻋ

QSAR

ﻥﺫﺇ .

,

ﺩﻮﻤﻋ ﻰﻠﻋ

OV-101

ﻊﻣ ﺱﺎﺒﺘﺣﻻﺍ ﺮﺷﺆِﻣ ﻂﺑﺮﻳ

4

ﺔﻟﻻﺩ ﺕﺍﺫ ﺕﺎﺴﺒﺘﺣﺇ

,

ﻥﺎﻛ ﺪﻗ ﻭ

ﺱﺎﺒﺘﺣﻻﺍ ﺮﺷﺆِﻣ ﻞﻤﺸﻳ ﻱﺬﻟﺍﻭ ﻞﻀﻓﻷﺍ ﺝﺫﻮﻤﻨﻟﺍ

ﻉﻮﻧ ﻦﻣ ﺔﻴﺒﻄﻗ ﻞﻗﻷﺍ ﻞﺼﻓ ﺩﻮﻤﻋ ﻰﻠﻋ ﻪﻴﻠﻋ ﻞﺼﺤﺘﻤﻟﺍ

Carbovax-20M

,

ﻰﻟﺇ ﺔﻓﺎﺿﻹﺎﺑ

2

.

ﺔﻴﻨﺒﻟﺍ ﺕﺍﺮﺷﺆِﻣ ﻦﻣ

ﻦﻣ ﻂﺳﻮﺘﻤﻟﺍ ﺄﻄﺨﻟﺍ ﺭﺪﺟ ﻭ ﺩﺪﻌﺘﻤﻟﺍ ﺪﻳﺪﺤﺗ ﻞﻣﺎﻌﻣ ﺏﺎﺴﺤﺑ ﺎﻨﻤﻗ ﺎﻣﺪﻨﻋ ﺔﻤﻴﻗ ﻞﻳﺪﻌﺘﻟﺍ ﺔﻴﻋﻮﻧ ﻥﺇ

ﺔﻄﺳﺍﻮﺑ ﻊﻄﻘﺘﻤﻟﺍ ﺕﺎﺒﺛﻹﺍ ﻝﺎﻤﻌﺘﺳﺎﺑ ﻒﺸﻜﺘﺴﻤﻟﺍ ﺝﺫﻮﻤﻨﻟﺍ ﺭﺍﺮﻘﺘﺳﺍ ﻥﺇ .ﺆﺒﻨﺘﻠﻟ ﺔﻴﻧﺎﺜﻟﺍ ﺔﺟﺭﺪﻟﺍ

"leave-one-out"

ﺆِﺒﻨﺘﻟﺍ ءﺎﻄﺧﺃ ﺕﺎﻌﺑﺮﻣ ﻉﻮﻤﺠﻣ ﻥﺇ .

,

ﺆﺒﻨﺘﻟﺍ ﻞﻣﺎﻌﻣ ﻒﻳﺮﻌﺗ ﻰﻟﺇ ﺕﺩﺃ

(Q²)

ـﻟ ﻢﻴﻘﻟﺍ .

ﻦﻣ ﺍﺪﺟ ﺔﺒﻳﺮﻗ ﻭﺃ ﺔﻌﻔﺗﺮﻣ ﺓﺮﻣ ﻞﻛ ﻲﻓ ﻥﻮﻜﺗ ﺚﻴﺤﺑ

0.95

,

ﺓﻮﻗ ﻲﻠﻋ ﻢﻜﺤﻟﺎﺑ ﻦﻟ ﺢﻤﺴﺗ ﺚﻴﺤﺑ

ﺭﺎﺒﺘﺧﺍ ﺔﻄﺳﺍﻮﺑ ﺕﺎﺒﺛﻹﺍ ﺮﻴﺧﻷﺍ ﻲﻓ ﻭ .ﻦﻴﺟﺫﻮﻤﻨﻟﺍ

Randomisation

ﺩﻮﺟﻭ ﻲﻠﻋ ﺪﻴﻛﺄﺘﻟﺎﺑ ﺢﻤﺴﺗ ﻲﺘﻟﺍ

.

ﺎﻬﻴﻠﻋ ﻞﺼﺤﺘﻣ ﺔﻟﺎﻌﻓ ﺔﻗﻼﻋ

ﺔﻟﺍﺪﻟﺍ ﺕﺎﻤﻴﻠﻜﻟﺍ

:

ﻥﻳﺯﺍﺭﻳﺑ

ﺔﻘﻳﺭﻁ -ﺱﺎﺑﺗﺣﻻﺍ ﺭﺷﺅِﻣ -

QSRR

.

ﻲﻠﺧﺍﺩﻟﺍ ﺕﺎﺑﺛﻹﺍ -

(5)

RESUME

Des données de la littérature concernant la rétention de 27 pyrazine séparées par CGTP sur 2 colonnes de polarités différentes ont été traitées par la méthodologie QSAR. Ainsi, sur la colonne OV-101 l’indice de rétention (variable dépendante ) a été corrélé avec 4 régresseurs significatifs, alors que sur la colonne Carbovax-20M le meilleur modèle intègre l’indice de rétention obtenu sur la colonne la moins polaire en plus de 2 indices structuraux.

La qualité de l’ajustement a été évaluée en calculant le coefficient de détermination multiple (R²) et la racine de l’erreur quadratique moyenne de prédiction. La stabilité du modèle a été explorée en utilisant la validation croisée par "leave-one-out". La somme des carrés des erreurs de prédiction (PRESS) conduit à la définition du coefficient de prédiction Q². Les valeurs de R² et Q² étant à chaque fois élevées (supérieures à 0.95) et très proches, permettent de juger de la robustesse des 2 modèles. Enfin, la validation par le test de randomisation permet d’affirmer que des relation structure/rétention effectives ont été obtenues.

Mots clés

Pyrazines - Indices de rétention – Modélisation - Méthodologie QSRR - Validation interne.

(6)

ABSTRACT:

QSRR methodology was performed on literature data concerned with the retention of 27 pyrazines separated by temperature–programmed gas chromatography on 02 columns of different polarity .Hence .on the OV-101 column the retention index (dependent variable) was correlated with four significant regressors, while on the Carbowax-20M column the best model integrates the retention index gotten on the less polar column in addition of 02 structural descriptors.

The goodness-of-fit was assessed by means of the multiple determination coefficient (R2) and the standard deviation

σ

N. The stability of the models was explored

through cross validation by "leave-one-out"., the predictive residual sum of squares (PRESS) leads to define the coefficient of prediction Q2.Values of R2 and Q2 being at every time raised ( superior to 0.95)and very near ,permit to judge the robustness of the 02 models .Finally the randomization test ensures that real structure /retention relationships were found out.

Key words:

Pyrazines-Retention indices – Modelisation – QSRR methodology - Internal validation

(7)

ﺱﺎﺒﺘﺣﻻﺍ ﺔﺳﺍﺭﺪﺑ ﻖﻠﻌﺘﺗ ﻲﺘﻟﺍ ﺔﻴﻤﻠﻌﻟﺍ ﺙﻮﺤﺒﻟﺍ ﻲﻓ ﺕﺎﻧﺎﻴﺒﻟﺍ ﺔﺳﺍﺭﺩ ﻥﺇ ) ءﺎﻘﺒﺘﺳﻻﺍ ( ـﻟ 27 ﻦﻳﺯﺍﺮﻴﺑ (pyrazines) ـﺑ ﺔﻟﻮﺼﻔﻣ (CGTP) ﺔﻘﻳﺮﻄﺑ ﺎﻬﺘﺠﻟﺎﻌﻣ ﻢﺗ ﻲﺘﻟﺍ ﻭ ﻦﻴﻔﻠﺘﺨﻣ ﺏﺎﻄﻘﺘﺳﺍ ﻱﺩﻮﻤﻋ ﻰﻠﻋ QSAR ﻥﺫﺇ . , ﺩﻮﻤﻋ ﻰﻠﻋ OV-101 ﻊﻣ ﺱﺎﺒﺘﺣﻻﺍ ﺮﺷﺆِﻣ ﻂﺑﺮﻳ 4 ﺔﻟﻻﺩ ﺕﺍﺫ ﺕﺎﺴﺒﺘﺣﺇ , ﺱﺎﺒﺘﺣﻻﺍ ﺮﺷﺆِﻣ ﻞﻤﺸﻳ ﻱﺬﻟﺍﻭ ﻞﻀﻓﻷﺍ ﺝﺫﻮﻤﻨﻟﺍ ﻥﺎﻛ ﺪﻗ ﻭ ﻉﻮﻧ ﻦﻣ ﺔﻴﺒﻄﻗ ﻞﻗﻷﺍ ﻞﺼﻓ ﺩﻮﻤﻋ ﻰﻠﻋ ﻪﻴﻠﻋ ﻞﺼﺤﺘﻤﻟﺍ Carbovax-20M , ﻰﻟﺇ ﺔﻓﺎﺿﻹﺎﺑ 2 .ﺔﻴﻨﺒﻟﺍ ﺕﺍﺮﺷﺆِﻣ ﻦﻣ ﺭﺍﺮﻘﺘﺳﺍ ﻥﺇ .ﺆﺒﻨﺘﻠﻟ ﺔﻴﻧﺎﺜﻟﺍ ﺔﺟﺭﺪﻟﺍ ﻦﻣ ﻂﺳﻮﺘﻤﻟﺍ ﺄﻄﺨﻟﺍ ﺭﺪﺟ ﻭ ﺩﺪﻌﺘﻤﻟﺍ ﺪﻳﺪﺤﺗ ﻞﻣﺎﻌﻣ ﺏﺎﺴﺤﺑ ﺎﻨﻤﻗ ﺎﻣﺪﻨﻋ ﺔﻤﻴﻗ ﻞﻳﺪﻌﺘﻟﺍ ﺔﻴﻋﻮﻧ ﻥﺇ ﺔﻄﺳﺍﻮﺑ ﻊﻄﻘﺘﻤﻟﺍ ﺕﺎﺒﺛﻹﺍ ﻝﺎﻤﻌﺘﺳﺎﺑ ﻒﺸﻜﺘﺴﻤﻟﺍ ﺝﺫﻮﻤﻨﻟﺍ "leave-one-out" ﺆِﺒﻨﺘﻟﺍ ءﺎﻄﺧﺃ ﺕﺎﻌﺑﺮﻣ ﻉﻮﻤﺠﻣ ﻥﺇ . , ﻒﻳﺮﻌﺗ ﻰﻟﺇ ﺕﺩﺃ ﺆﺒﻨﺘﻟﺍ ﻞﻣﺎﻌﻣ (Q²) ـﻟ ﻢﻴﻘﻟﺍ . R² ﻭ Q² ﻦﻣ ﺍﺪﺟ ﺔﺒﻳﺮﻗ ﻭﺃ ﺔﻌﻔﺗﺮﻣ ﺓﺮﻣ ﻞﻛ ﻲﻓ ﻥﻮﻜﺗ ﺚﻴﺤﺑ 0.95 , ﺓﻮﻗ ﻲﻠﻋ ﻢﻜﺤﻟﺎﺑ ﻦﻟ ﺢﻤﺴﺗ ﺚﻴﺤﺑ ﺭﺎﺒﺘﺧﺍ ﺔﻄﺳﺍﻮﺑ ﺕﺎﺒﺛﻹﺍ ﺮﻴﺧﻷﺍ ﻲﻓ ﻭ .ﻦﻴﺟﺫﻮﻤﻨﻟﺍ Randomisation .ﺎﻬﻴﻠﻋ ﻞﺼﺤﺘﻣ ﺔﻟﺎﻌﻓ ﺔﻗﻼﻋ ﺩﻮﺟﻭ ﻲﻠﻋ ﺪﻴﻛﺄﺘﻟﺎﺑ ﺢﻤﺴﺗ ﻲﺘﻟﺍ ﺔﻟﺍﺪﻟﺍ ﺕﺎﻤﻴﻠﻜﻟﺍ : ﺔﻘﻳﺮﻁ -ﺱﺎﺒﺘﺣﻻﺍ ﺮﺷﺆِﻣ - ﻦﻳﺯﺍﺮﻴﺑ QSRR .ﻲﻠﺧﺍﺪﻟﺍ ﺕﺎﺒﺛﻹﺍ -

RESUME

Des données de la littérature concernant la rétention de 27 pyrazine séparées par CGTP sur 2 colonnes de polarités différentes ont été traitées par la méthodologie QSAR. Ainsi, sur la colonne OV-101 l’indice de rétention (variable dépendante ) a été corrélé avec 4 régresseurs significatifs, alors que sur la colonne Carbovax-20M le meilleur modèle intègre l’indice de rétention obtenu sur la colonne la moins polaire en plus de 2 indices structuraux.

La qualité de l’ajustement a été évaluée en calculant le coefficient de détermination multiple (R²) et la racine de l’erreur quadratique moyenne de prédiction. La stabilité du modèle a été explorée en utilisant la validation croisée par "leave-one-out". La somme des carrés des erreurs de prédiction (PRESS) conduit à la définition du coefficient de prédiction Q². Les valeurs de R² et Q² étant à chaque fois élevées (supérieures à 0.95) et très proches, permettent de juger de la robustesse des 2 modèles. Enfin, la validation par le test de randomisation permet d’affirmer que des relation structure/rétention effectives ont été obtenues.

Mots clés :Pyrazines - Indices de rétention – Modélisation - Méthodologie QSRR - Validation

interne.

ABSTRACT:

QSRR methodology was performed on literature data concerned with the retention of 27 pyrazines separated by temperature–programmed gas chromatography on 02 columns of different polarity .Hence .on the OV-101 column the retention index (dependent variable) was correlated with four significant regressors, while on the Carbowax-20M column the best model integrates the retention index gotten on the less polar column in addition of 02 structural descriptors.

The goodness-of-fit was assessed by means of the multiple determination coefficient (R2) and the standard deviation

σ

N

. The stability of the models was explored through cross validation

by "leave-one-out"., the predictive residual sum of squares (PRESS) leads to define the coefficient of prediction Q2.Values of R2 and Q2 being at every time raised ( superior to 0.95)and very near ,permit to judge the robustness of the 02 models .Finally the randomization test ensures that real structure /retention relationships were found out.

(8)

CHAPITRE -I-

I-1/ Etude bibliographique………

3

I-2 Paramètres d’évaluation de la qualité de l'ajustement …...

5

I-2-1/ Coefficient de détermination multiple R

2

……...

5

I-2-2- Racine de l'erreur quadratique moyenne de

prédiction

σ

N

……….…….

5

I-3/ Robustesse du modèle ………..

5

I-3-1 /Validation croisée par omission d'une

observation ……….

5

I-3-2 /Le cœfficient de prédiction q

2

………....

6

I-4/ Influence sur les résultats de la régression : détection des

observations aberrantes………...

7

I-5/Chimie des arômes des pyrazines ………..

7

I-5-1/La pyrazine………

8

I-5-2/ Quelques propriétés physiques de la

pyrazine ; numérotation des atomes………...

8

I-5-3/Mécanismes de formation de la pyrazine………..

9

II/Chromatographie en phase gazeuse………

10

II-1/Appareillage ……….

10

II-2/ Section de séparation des éléments ……….

11

II-2-1/ Colonnes garnies ………

11

II-2-2/ Colonnes capillaries………

12

II-3/ Phase stationnaire liquide……….

12

II-3-1/ Polyéthers de glycols………..

13

II-3-2/ Silicones………..

13

(9)

III – Formules pour le calcul de quelques descripteurs moléculaires

15

III-1 / Réfractivité ………

15

III -2 /Distance entre premiers voisins DV1T ……….

15

III- 3 /Somme des charges négatives (SQ-) ……….

15

III- 4 / Aire de la surface partielle positive PPSA1…………..

15

CHAPITRE -II-

I/ ETUDE DES RESIDUS………..

17

I-1/Définition………

17

I -2/ Représentations graphiques ……….

18

I -2 - 1 / Diagrammes de dispersion des résidus en

fonction de

yˆi

……….

18

I – 2 - 2 / Diagrammes de

probabilité ………..

18

I – 3 /Test paramétrique : la statistique de DURBIN et

WATSON ……….….

19

II- Evaluation de l’adéquation des modèles ...

19

II - 1 / Coefficient de corrélation multiple ………..

19

II - 2 / Résidus caractéristiques et adéquation des modèles …

21

II – 2 - 1 / Bras de levier h

ii

………..…..

21

II- 2 - 2 / Résidu studentisé. ……….

21

II – 2 - 3 / Distance de COOK………

23

II – 2 - 4 / Autre mesure de l’influence : DFFITS……..

23

II– 2- 5 / Influence d’un individu sur la variance des

coefficients de régression………

24

(10)

I - Evaluation préliminaire des données ……….………...

32

II - Calcul des modèles….………..

36

II – 1 – Cas de la colonne non polaire (OV-101)……….

36

II–2-Cas de la colonne polaire (CARBOWAX- 20M). …….

43

(11)

LISTE DES FIGURES

FIGURE

TITRE

PAGE

1

Structure de la pyrazine et numérotation des sommets

8

2

Structures de résonance de la pyrazine

9

3

Formation suggérée de l’alkylpyrazine par réaction de

Maillard

9

4

Schéma de principe d'un chromatographe en phase gazeuse

11

5

Illustration des colonnes à garnissage

11

6

Illustration des colonnes capillaires.

12

7

la structure des pyrazines étudiées

29

8

Vérification de la normalité de la distribution des indices de

rétention

33

9

Diagramme de Williams .Cas de la colonne OV101

40

10

graphe des valeurs prédites I (i) en fonction des valeurs

observées sur la colonne OV-101.

41

11

Diagramme de Williams .Cas de la colonne Carbowax- 20 M.

42

12

Test de randomisation associé au modèle QSRR. Les cercles

représentent les indices de rétention ordonnés de façon

aléatoire, et l’étoile correspond au modèle réel.

45

13

graphe des valeur prédites I (i) en fonction des valeurs

observées sur la colonne Carbowax -20M.

46

14

Test de randomisation associé au modèle QSRR. Les cercles

représentent les indices de rétention ordonnés de façon

aléatoire, et l’étoile correspond au modèle réel.

(12)

LSTE DES TABLEAUX

TABLEAU

TITRE

PAGE

1

Caractéristiques essentielles des colonnes utilisées en

chromatographie gazeuse.

12

2

Valeurs des rétention obtenus sur les colonnes

Carbowax-20M (IR1)et OV101(IR2)et descripteurs

moléculaires sélectionnés

27

3

Description des données des 27 composés (n: nombre

des données; Moyennes des indices topologiques (

X

)

et des indices de rétention (

Y

); écart-type (S);

valeurs X, Y maximales et minimales.

34

4

Matrice de corrélation des indices de rétention

mesurés et des13 indices topologiques calculés pour

les 27 pyrazines.

35

5

Le Modèles obtenus pour la colonne (OV101).

36

6

Paramètres statistiques liés au modèle choisi sur

l’ensemble des données pour la colonne non polaire.

37

7

Test de signification des coefficients de régression du

modèle à l’aide de l’analyse de la variance pour la

colonne non polaire.

37

8

Résidus et grandeurs dépendantes prédites pour les

27 pyrazines sur la colonne non polaire.

39

9

Résidus et grandeurs dépendantes prédites pour les

(13)

Carbowax-20M : Colonne polaire.

COVRATIO : Influence d’un individu sur la variance des coefficients de

régressions.

CM : Carré moyen.

D

i

: Distance de COOK.

ddl : Degré de liberté .

DV

1T

: Distance entre premiers voisins.

e

i

: Résidu ordinaire.

F : Variable de SNEDECOR.

H

: Matrice de projection.

h

ii

:Elément diagonal de la matrice sur projection (ou indice chapeau) .

IR

1

: Indice de rétention sur la colonne polaire (Carbowax-20M).

IR

2

: Indice de rétention de la colonne non polaire (OV-101).

OV-101. Colonne non polaire.

PRESS : Somme des carrés des erreurs de prédiction.

Q²: ou R²

vc

: Coefficient de prédiction.

r : Coefficient de corrélation linéaire .

R

2

: Coefficient de détermination.

R

2

a : Coefficient de détermination ajusté.

Rc : Coefficient de corrélation critique.

ri : Résidu studentisé interne.

REF : Réfractivité.

S : Ecart-type.

SCE : Somme des carrés des écarts

SR : Somme des carrés due à la régression.

S

yy

: Somme des carrés totale ou ST.

(14)

' X

: Transposée de la matrice des observations.

X

: Moyennes des indices topologiques.

Y

: Moyennes des indices de rétention.

y : Variable expliquée ou variable dépendante.

i

: Valeurs estimées par le modèle.

i

μ

: Quantiles normaux ou scores normaux.

2

σ

: Variance.

N

(15)

INTRODUCTION

GENERALE:

(16)

-INTRODUCTION GENERAL

Les pyrazines sont des hétérocycles azotés très largement représentées dans l’arôme des aliments. Leur analyse se fait principalement par chromatographie gazeuse en utilisant la technique des phases multiples.

Le couplage chromatographie gazeuse /spectrométrie de masse, s’il facilite souvent les questions d’identification peut être inefficace dans l’analyse des isomères ou des composés mineurs d’un mélange complexe .Les relations structure / rétention peuvent, dans ces conditions, aider à l’identification. Il s’agit de relier les réponses obtenues pour un ensemble d’évaluation à des propriétés physico-chimiques expérimentales ou théoriques, et/ou des descripteurs moléculaires de différents types fournis par divers logiciels spécialisés.

On peut, a priori, supposer des corrélations linéaires, ou des corrélations plus compliquées. Dans le premier cas on fera appel à des techniques comme la régression linéaire multiple (MLR) ou la projection sur les structures latentes par les moindres carrés partiels (PLS), et le second aux réseaux de neurones artificiels (RNA).

A notre connaissance un seul article, qui remonte à 20ans, a été consacré aux relations quantitatives structure/rétention (QSRR: pour Quantitative Structure Retention Relationships) de pyrazines séparées par chromatographie gazeuse à température programmée, sur 2 colonnes de polarités très différentes. Les résidus obtenus pour les indices de rétention, particulièrement avec la colonne Carbowax 20M dépassent souvent 36 unités d’indice. Dans ces conditions, et contrairement à ce qu’affirment les auteurs de l’article (voir : Analyse bibliographique) les modèles ne peuvent être considérés comme quantitatifs.

Nous nous intéressons dans ce travail au calcul de modèles de régression pour les indices de rétention (prélevés dans la littérature) pour un ensemble limité de 27 pyrazines résolues en programmation de températures sur les colonnes OV-101 et Carbowax-20M, en privilégiant la régression linéaire multiple et la validation interne.

(17)

-INTRODUCTION GENERALE:

Les pyrazines sont des hétérocycles azotés très largement représentées dans l’arôme des aliments. Leur analyse se fait principalement par chromatographie gazeuse en utilisant la technique des phases multiples.

Le couplage chromatographie gazeuse /spectrométrie de masse, s’il facilite souvent les questions d’identification peut être inefficace dans l’analyse des isomères ou des composés mineurs d’un mélange complexe .Les relations structure / rétention peuvent, dans ces conditions, aider à l’identification. Il s’agit de relier les réponses obtenues pour un ensemble d’évaluation à des propriétés physico-chimiques expérimentales ou théoriques, et/ou des descripteurs moléculaires de différents types fournis par divers logiciels spécialisés.

On peut, a priori, supposer des corrélations linéaires, ou des corrélations plus compliquées. Dans le premier cas on fera appel à des techniques comme la régression linéaire multiple (MLR) ou la projection sur les structures latentes par les moindres carrés partiels (PLS), et le second aux réseaux de neurones artificiels (RNA).

A notre connaissance un seul article, qui remonte à 20ans, a été consacré aux relations quantitatives structure/rétention (QSRR: pour Quantitative Structure Retention Relationships) de pyrazines séparées par chromatographie gazeuse à température programmée, sur 2 colonnes de polarités très différentes. Les résidus obtenus pour les indices de rétention, particulièrement avec la colonne Carbowax 20M dépassent souvent 36 unités d’indice. Dans ces conditions, et contrairement à ce qu’affirment les auteurs de l’article (voir : Analyse bibliographique) les modèles ne peuvent être considérés comme quantitatifs.

Nous nous intéressons dans ce travail au calcul de modèles de régression pour les indices de rétention (prélevés dans la littérature) pour un ensemble limité de 27 pyrazines résolues en programmation de températures sur les colonnes OV-101 et Carbowax-20M, en privilégiant la régression linéaire multiple et la validation interne.

Notre mémoire comporte trois parties en plus de l'introduction et de la conclusion générales.

Nous nous réuni dans la première partie une étude bibliographique concernant les travaux déjà réalisés sur la modélisation de la rétention des pyrazines, ainsi que les paramètres d'évaluation de la qualité de l'ajustement, et le mode de calcul des descripteurs sélectionnés, le tout complété par un aperçu sur la méthode chromatographique mise en ouvre.

Nous avons développé dans la deuxième partie les techniques statistiques (étude des résidus, diagnostics d'influence) appliquées dans l'analyse de nos résultats.

(18)

CHAPITRE -I-

GENERALITES

(19)

Les pyrazines, ou 1, 4-diazines sont des hétérocycles azotés très largement distribuées dans la nature, aussi bien que dans le règne animal et végétal.

Elles sont très présentes dans l'arôme des aliments, aussi sont elles très étudiées dans le domaine alimentaire.

On les classe en trois groupes, selon qu'elles sont formées par traitement à la chaleur, produites par des microorganismes ou présentes à l'état naturel dans les végétaux [1].

I-1/Etude bibliographique :

Les alkoxy et les alkylthiopyrazines sont connues pour leurs odeurs caractéristiques

[2-4].Ces composés ont été identifiés dans les fruits secs et les légumes secs grillés ,ainsi que dans différentes variétés de légumes cuisinés[5].Les 3-alkyl-2-méthoxypyrazines caractérisent même le bouquet du vin [6].

L'identification de ces composés se fait en général en comparant leurs pics chromatographiques avec ceux obtenus pour les standards des composés suspectés. La disponibilité de tels standards pouvant faire défaut, la recherche d'autres voies d'identification est souhaitable.

La disponibilité générale des micro- computers et de logiciels de modélisation moléculaire adaptés, font que les méthodes d’identification assistées par ordinateur sont d'un apport conséquent.

Les méthodes de prédiction des caractéristiques de rétention de composés inconnus, à partir des caractéristiques structurales et des propriétés chromatographiques d'autres composés représentatifs disponibles, ont été développées durant ces trois dernières décennies [7-11].

Mihara et Enomato [12] ont décrit une relation structure/ propriété pour un ensemble de pyrazines substituées pour lesquels les incréments d'indices relatifs à différents substituants sur le cycle ont été déterminés pour une petite série de substituants, à partir de la pyrazine parente (non substituée) .Les valeurs des indices de rétention de nouveaux composés sont ensuite calculées en additionnant les incréments d' indices correspondant aux substituants présents.La méthode fut ensuite étendue pour intégrer d'autres substituants , et ajouter un terme qui tienne compte de la position sur le cycle d'un substituant par rapport aux autres [13].Dans une approche analogue, Masuda et Mihara décrivent l'utilisation d'indices de connectivité modifiés pour calculer à l'avance les indices de rétention d'une série de pyrazines substituées[14] .Les méthodes conduisent à de bons résultats, pour autant que les incréments

(20)

d'indices déterminés expérimentalement soient disponibles pour les composés inconnus impliqués. Le défaut principal de telles approches réside dans le fait de ne pouvoir calculer à l'avance les indices de rétention des composés contenant des substituants autres que ceux disponibles dans le tableau des incréments d'indices .En outre, il est impossible, à partir de l'examen des variables explicatives des modèles (variables apparaissant dans les équations), de se faire une idée quant aux processus physiques à la base des séparations chromatographiques.

Stanton et Jurs [15] ont utilisé des méthodes assistées par ordinateur pour développer des équations de modèles reliant les caractéristiques structurales de 107 pyrazines substituées, à leurs indices de rétention obtenus sur deux colonnes de polarités très différentes (OV-101 et Carbowax -20M). Les équations ont été calculées à l'aide de la régression multilinéaire, le choix des variables explicatives (topologiques, géométriques, électroniques et propriétés physiques) étant réalisé par élimination progressive [16] parmi les 85 descripteurs moléculaires individuels obtenus pour chaque molécule entière.

Les observations obtenues sur chaque colonne ont été traitées séparément, en puisant dans les mêmes ensembles de descripteurs .Certains descripteurs individuels ont cependant un poids important pour prédire les indices de rétention.

Le modèle obtenu pour la colonne Carbowax -20M contient davantage de descripteurs de type électronique /géométrique que le modèle obtenu pour la colonne OV-101 ; ces descripteurs apportent peu d'informations sur les différentes interactions polaires à la base des séparations sur la colonne Carbowax -20M.

Les modèles calculés avec 6 variables explicatives fournissent des erreurs standards assez élevées (s=23 sur OV-17et s=36.33 sur Carbowax 20M), qui ne présagent pas de bonnes capacités prédictives pour ces modèles .D'ailleurs les valeurs prédites ne sont pas rapportées, ce qui ne permet pas de vérifier l'ordre l'élution expérimental, qui établirait à coup sûr la puissance des modèles calculés.

Dans notre laboratoire K.Othmane-Rachedi s'est intéressée aux données publiées par Mihara et Enomato[12],qui consistent en 27 pyrazines diversement substituées, séparées en chromatographie gazeuse à température programmée en utilisant la technique des phases multiples.

Les résultats rapportés [17], en utilisant un descripteur pour 7 composés, n'améliorent pas substantiellement ceux publiés par Stanton et Jurs [15].

(21)

Nous avons repris , dans le présent travail, les résultats obtenus dans notre laboratoire pour nous intéresser particulièrement à la qualité de l'ajustement et à la robustesse des modèles établis, avec pour objectif de cibler la cause à l'origine des mauvaises performances des modèles, pour éventuellement les corriger.

I-2- Paramètres d’évaluation de la qualité de l'ajustement :

Une fois la régression construite, il est nécessaire d'évaluer quantitativement l'exactitude

de la propriété estimée .On utilise traditionnellement deux paramètres statistiques : le coefficient de détermination multiple R2, et la racine de l'erreur quadratique moyenne de prédiction

σ

N.

I-2-1- Coefficient de détermination multiple R2 :

Défini (cf : Partie –« Etude des résidus –validation des modèles ») par :

R2 =

1-∑

= = =

n i n i i i n i i i i

y

n

y

y

y

1 1 2 2 2

)

(

1

)

ˆ

(

=1-SCT

SCE

(1)

où SCE est la somme des carrés des résidus

(

e

i

=

y

i

y

ˆ

i

)

et SCT la somme des carrés totale (

=

(

y

i

y

i

)

2;

y

étant la moyenne des observations).

:

σ

N I-2-2- Racine de l'erreur quadratique moyenne de prédiction Définie par :

(

)

=

=

n i i i N

y

y

n

1 2

ˆ

1

σ

(2)

Ce coefficient fournit une mesure non normalisée de la dispersion des données estimées. I-3- Robustesse du modèle :

En même temps que la quantification de l’ajustement, il est très important d'obtenir une mesure de la capacité prédictive du modèle et de sa stabilité.

I-3-1 -Validation croisée par omission d'une observation (Loo:leave-one-out).

La voie la plus courante pour explorer la stabilité d'un modèle de prédiction se fait par l'intermédiaire de l'analyse de l'influence individuelle de chacun des objets qui configurent le

(22)

>

modèle final. Pour ce faire, on calcule l'équation de régression à partir du jeu de données dont on enlève l'observation i, puis on estime la propriété pour cette observation. On répète le procédé pour tous les objets de l’ensemble, ce qui conduit à une estimation pour chacun d'eux. Cette procédure s'appelle la « validation croisée par omission d'une observation » (cross -validation by leave –one –out) [18].

I-3-2 -Le cœfficient de prédiction Q2 :

Un paramètre de mesure de la dispersion de ces estimations est calculé à partir des

valeurs obtenues par validation croisée pour chaque objet .Ce paramètre est la « somme des carrés des erreurs de prédiction » désignée par l'acronyme PRESS (pour : Prédictive Residual Sum of Squares ) .

(

)

2 1 ) (

ˆ

=

=

n i i i

y

y

PRESS

(3)

Le « chapeau » de la variable y, comme c'est la notation courante en statistique, indique que c'est une valeur estimée de la propriété étudiée, et les parenthèses de l’indice inférieur indiquent que l'estimation a été faite par « validation croisée par omission d'une observation». La statistique PRESS est utilisée pour définir le coefficient de prédiction Q2 :

SCT PRESS SCT

Q2 = − (4)

Il est à noter que, contrairement à R2, le coefficient de prédiction peut prendre des valeurs négatives [19]. Une valeur de Q2>0,7 est considérée comme satisfaisante [20].

Contrairement au coefficient de détermination R2 , qui augmente avec le nombre de paramètres de la régression et qui est non négatif par définition , le facteur Q2 montre une courbe avec maximum obtenu pour un certain nombre de paramètres , puis décroît par la suite de façon monotone. On peut facilement expliquer ce fait : l'augmentation du nombre de paramètre du modèle améliore toujours l' ajustement des données , mais n'améliore pas nécessairement les capacités prédictive du modèle .On atteint une situation extrême quand le modèle présente autant de paramètre que d’objets; dans ce cas l’ajustement est parfait (c'est un système déterminé compatible), mais le modèle ne possède aucune capacité de prédiction. En fait ,les descripteurs du modèle peuvent être des nombres aléatoires , qui pourraient par la suite s'ajuster parfaitement aux données .Ce fait confère une grande importance au coefficient Q2 .

(23)

I-4/Influence sur les résultats de la régression : détection des observations aberrantes.

Certaines situations peuvent influer sur les résultats du modèle ; on peut les contourner par une analyse préalable des données.

La détection des observations aberrantes est basée sur la non satisfaction à trois au moins (pour n’en privilégier aucun) des six tests statistiques couramment utilisés pour la détection de telles observations en analyse de régression [21,22] :

1/ Les résidus ei, différences entre les valeurs observées

( )

y

i et estimées par le modèle

( )

i ; 2/ Les résidus standardisés di, obtenus en divisant les ei par l'écart type estimé(s).

3/ le résidu studentisé interne ri, est le résidu d'une prédiction divisé par son écart type propre

=

ii i i

h

s

e

r

1

;

4/ Les leviers, hii, permettent de juger de l'influence d'une observation i dans la détermination de l'équation de régression ;

5/ La statistique représentée par le symbole DFFITS ou DFITS permet de mesurer l'influence d'une observation i sur la valeur ajustée ou prédite ;

6/ La distance de Cook, Di, permet d'étudier l'influence d'une observation i sur les coefficients de régression estimés par les moindres carrés.

Ces paramètres statistiques qui sont définis en détail dans la partie « Etude des résidus – validation des modèles », sont fournis par le logiciel de traitement statistique des données MINITAB (commande «régression»).

I-5/Chimie des arômes des pyrazines : Le mot arôme désigne également l'ensemble des

composés organiques volatils responsables de la perception d’arôme.

On a pu, depuis 1967, grâce au couplage de la chromatographie en phase gazeuse à haute résolution, avec la spectrométrie de masse, identifier plusieurs milliers de molécules (environ 5000) dans les aliments (viandes, thé, café, cacao, boissons alcoolisées ou non, etc...).

Presque toutes les catégories de composés chimiques, dont le poids moléculaire est inférieur à 400, sont présentes dans les arômes (excepté les dérivés nitrés et halogénés).

(24)

Mais la catégorie la plus importante est constituée par des hétérocycles (pyrazines, furannes etc.…), soit environ deux mille produits .Une dernière catégorie comprend des mono et sesquiterpènes, principaux constituants des épices et des extraits végétaux aromatiques. Les hétérocycles volatils jouent un rôle prépondérant puisqu

'

ils constituent plus d’un quart des substances identifiées. Leur formation s’explique par deux grandes voies : les réactions enzymatiques et les réactions de brunissement non enzymatique ou réaction de Maillard [23].

I-5-1-La pyrazine (figure 1) : est une molécule cyclique de formule générale C4H4N2 qui contient deux atomes d’azote dans les positions 1 et 4. Les synonymes utilisés sont : 1,4 - diazine, paradiazine, piazine, p – dizaine.

La pyrazine est une molécule stable, combustible, incompatible avec les acides et les oxydants; elle se présente sous forme de cristaux ou de poudre blanche.

I-5-2- Quelques propriétés physiques de la pyrazine ; numérotation des atomes : Elles sont présentées ci-après dans les figures 1 et 2.

Figure 1 : Structure de la pyrazine et numérotation des sommets.

N N C4H4N2 1 2 3 4 5 6 80.09 C 59,99 °/° H 5,03 °/° N 34,98 °/° Pf= 54-56°C Peb= 115-116°C d= 1.031g/cm3

(25)

N N N N C+ N N N C N

Figure2 : Structures de résonance de la pyrazine

I-5-3-Mécanismes de formation de la pyrazine : il existe beaucoup de mécanismes pour la

formation de la pyrazine .Ils ont été étudiés au cours des 40 dernières années [6].

Sucre + Acides amines

N N N N R1 R2 R1 R2 R1 R1 R2 R2 R1 CHNH2 C=O R2 R1 C=O R2 CHNH2 Dégradation de strecker Condensation Oxydation . Figure 3 : Formation suggérée de l’alkyl pyrazine par réaction de Maillard

(26)

II /Chromatographie en phase gazeuse

La chromatographie en phase gazeuse (CPG), comme toutes les techniques de chromatographie, permet de séparer les molécules d'un mélange éventuellement très complexe, de natures et de volatilités très diverses. Elle s'applique principalement aux composés gazeux ou susceptibles d'être vaporisés par chauffage sans décomposition.

Le mélange à analyser est vaporisé à l'entrée d'une colonne, qui renferme une substance active solide ou liquide appelée phase stationnaire, puis il est transporté à travers celle-ci à l'aide d'un gaz porteur. Les différentes molécules du mélange vont se séparer et sortir de la colonne les uns après les autres après un certain laps de temps qui est fonction de l'affinité de la phase stationnaire pour ces molécules [24].

II-1-Appareillage

Les appareils de chromatographie gazeuse sont appelés chromatographes. Ils sont principalement composés [24] :

• d'un four (type chaleur tournante) qui permet une programmation de température ajustable de 20°C (-100°C pour certains systèmes) à 450°C et qui est également équipé d'un système de refroidissement rapide;

• d'un système d'injection, qui va permettre d'introduire et de rendre volatil l'échantillon à analyser. L'injection peut se faire d'une manière manuelle ou automatique à l'aide d'un échantillonneur;

• d'une colonne (capillaire ou à garnissage), sur laquelle les différentes molécules de l'échantillon injecté vont se séparer suivant leurs affinités avec la phase stationnaire; • d'un système de détection, qui va permettre de mesurer le signal émis par les

différentes molécules et de pouvoir les identifier. Pour l'enregistrement du signal émis par le détecteur, des logiciels sur PC remplacent avantageusement les enregistreurs analogiques sur papier;

• d'un système de détendeur-régulateur pour les gaz utilisés (hélium, hydrogène, azote et air comprimé).

Sur les chromatographes modernes on trouve des systèmes électroniques pour la régulation des gaz qui sont également purifiés par des cartouches filtrantes.

(27)

Pour faciliter l’indentification, les chromatographes sont souvent couplés à d'autres instruments analytiques, notamment les spectromètres de masse et infra-rouge.

La figure 4 reproduit le schéma de principe d'un chromatographe en phase gazeuse.

Figure 4 -Schéma de principe d'un chromatographe en phase gazeuse

II-2-Section de séparation des éléments :

La colonne utilisée est soit une colonne garnie, soit une colonne capillaire (Figures 5 ,6).

II-2-1-Colonnes garnies :

Les colonnes garnies sont des tubes en verre, en métal (acier inoxydable, cuivre, aluminium) ou en téflon qui ont généralement 2 à 3 m de long, et 2 à 4 mm de diamètre intérieur. On y tasse un matériau de garnissage, ou support solide, finement et uniformément divisé, préalablement recouvert d’une couche mince (0,05 à 1 µm) de la phase stationnaire liquide.

Figure 5 : Illustration des colonnes à garnissage.

x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x DI = 2mm x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x

(28)

-- -- -- -- -- -- -- -- -- -- ---- -- -- -- ---- DI = 0,2 mm Film liquide II-2-2-Colonnes capillaires :

Les colonnes capillaires se différencient entre elles par les caractéristiques de la phase stationnaire qui recouvre leur paroi interne, soit sous forme d’un film de 0.5 à 1 µm d’épaisseur (colonne WCOT), soit sous forme de fines particules poreuses adhérentes à la paroi, imprégnées ou non de phase stationnaire (colonne SCOT ou PLOT) [24,25].

Figure 6 : Illustration des colonnes capillaires.

Les caractéristiques essentielles de ces deux catégories de colonnes sont résumées dans le tableau (1) :

Tableau 1 – Caractéristiques essentielles des colonnes utilisées en

Chromatographie gazeuse.

Colonne

Paramètre Garnie Capillaire

longueur (m) 1-6 10 - 100

Diamètre intérieur (mm) 2-4 0,20 - 0,35

Nombre total de plateaux (Neff) 5000 (2m) 150.000 (50m)

Capacité 10 µg / pic 50 µg / pic

Epaisseur du film liquide (µm) 1-10 0,05 - 0,5 Débit du gaz vecteur (ml / min) 10-60 0,5 - 10 Perte de charge de la colonne (psi) 10-40 3-40

II-3-Phase stationnaire liquide :

La chromatographie de type gaz-liquide, largement utilisée de nos jours par rapport à celle de type gaz-solide, se fonde sur le partage du soluté entre une phase mobile gazeuse

(29)

et une phase stationnaire liquide immobilisée sur un support inerte[26].

La phase liquide immobilisée dans une colonne de chromatographie gaz – liquide doit présenter les propriétés suivantes :

* Faible tension de vapeur (idéalement, le point d’ébullition du liquide doit être au moins 100°C au-dessus de la température maximale d’utilisation de la colonne).

* Stabilité thermique. * Inertie chimique.

* Propriétés de solvant telles que les valeurs des coefficients de distribution (K) et des facteurs de sélectivité α se situent dans le domaine optimal pour les solutés à séparer.

II-3-1-Polyéthers de glycols :

Les Carbowax sont des dérivés de glycols (polyéthers de glycols) de formule : OH-CH2-CH2-(O-CH2-CH2-O) n-CH2-CH2-OH

Le degré de polarité lié au nombre d’hydroxyles est indiqué par un chiffre qui représente la masse moléculaire. Les masses de Carbowax qui peuvent aller de 300 à 20.000 sont dénommées par ces valeurs extrêmes Carbowax 300 et Carbowax 20M. Le Carbowax 20M (20.000) de masse moléculaire la plus élevée, est donc le moins polaire de la série. Ces phases stationnaires possédant de nombreux oxygènes sont classées parmi les phases stationnaires les plus polaires, et elles sont utilisées pour séparer les molécules de fortes polarités comme celles possédant des fonctions alcool, aldéhyde, ou cétone [24].

II-3-2-Silicones :

La phase stationnaire liquide OV-101 appartient à la famille des silicones qui répondent à la formule générale :

C H3 C H3 C H3 O (R ) O Si CH3 CH3 CH3 (R ') Si n n

R et R` sont des groupements silylés pouvant posséder des groupements polaires ou polarisables, et par la même déterminer les propriétés de ces phases.

(30)

Dans la phase liquide OV-101:

R = R` =

La température maximale d’utilisation de la colonne OV-101 est comprise entre 300 et 350 °C. Les colonnes SE 30, OV1, OV101, diméthylsiloxanes sont très peu polaires, elles se différencient par leur nombre de groupements diméthylsilyle. La colonne OV-101 en possédant moins, a une viscosité plus faible et une température maximum d’utilisation plus basse. Elles sont utilisées pour séparer les dérivés méthyles ou silylés [24].

II-4-Section de détection des éléments séparés

A la sortie de cette colonne, un détecteur très sensible est placé, par exemple :

• Un TCD : détecteur électrique, basé sur le principe du pont de Wheatstone : le passage des composants va faire varier la tension, cette variation est due à la différence de conductibilité de chaque composant ;

• Un FID : détecteur à ionisation de flamme : une tension de l'ordre de la centaine de volts est maintenue entre la buse de la flamme et une électrode entourant cette dernière. Lorsque les molécules traversent la flamme, elles sont ionisées ce qui provoque entre les électrodes un courant électrique qui est ensuite amplifié.

• Un ECD : détecteur à absorption électronique : des électrons sont émis, en général par une source radioactive (rayonnement bêta), et traversent le gaz ; lorsqu'un électron rencontre une molécule de gaz, il peut être capturé, ce qui fait varier l'intensité du courant d'électrons, cette intensité étant mesurée en continu.

• Un MS : spectromètre de masse, utilisant principalement l'impact électronique ou l'ionisation chimique comme modes d'ionisation.

II-5-Section d’enregistrement

Le signal produit par le détecteur est amplifié et transmis de manière continue à l’enregistreur où il s’inscrit sur une bande de papier.

C H3 C H3 O Si

(31)

III/Formules pour le calcul de quelques descripteurs moléculaires [17 ; 27] :

III-1 -Réfractivité :

Nom donné à deux expressions contenant l’indice de réfraction n et la densité d. REF = (n – 1)

/

d (5)

Elle est approximativement indépendante de la température et possède une valeur caractéristique pour la substance considérée :

REF = [(n2 – 1) / (n2 +2)] * 1 / d (6) Réfractivité moléculaire : produit des deux expressions précédentes (5) et (6) par le poids moléculaire.

Cette expression est additive et peut servir à contrôler une structure; on dit aussi réfraction moléculaire.

III -2 -Distance entre premiers voisins DV1T :

Est la valeur propre de la matrice de distance multipliée par sa transposée, dont la matrice de distance est une matrice carrée d’ordre de nombre des sommets où chaque élément de cette matrice est la longueur de la liaison entre les deux atomes concernés.

III- 3 -Somme des charges négatives (SQ-) :

Est la somme des charges négatives.

SQ =

Q (7)

III- 4 - Aire de la surface partielle positive PPSA1 :

Est définie comme la somme des aires des surfaces atomiques chargées positivement, SA, dans la molécule :

(32)

CHAPITRE -II-

ETUDE DES RESIDUS –

VALIDATION DES MODELES

(33)

I/ ETUDE DES RESIDUS [22,28-30] :

I-1/Définition :

L’ajustement d’une régression dans le cas d’un modèle à effets fixes, par la méthode des moindres carrés, conduit à supposer que chaque valeur observée de la variable expliquée (y) peut être "correctement" reconstituée à partir des variables explicatives (x1, x2, ….. , xn).

Pour construire le modèle et admettre que les coefficients de la régression sont sans biais et convergents, on montre qu’il faut poser comme hypothèses :

a/ les résidus (e) ont une espérance mathématique nulle :

    = ~ ~) 0 e E( ;

b/ le modèle choisi est correct (aucune variable explicative n’a été omise) ; c/ les résidus sont indépendants entre eux ;leurs covariances sont nulles

[

E(ei,ej) = 0 si i ≠ j

]

,

d/ les résidus ont tous même variance σ (propriété d’homoscédasticité). 2

Par ailleurs, l’emploi de tests statistiques pour analyser la variation expliquée par la régression conduit à admettre :

e/ les résidus suivent une distribution Normale (de Laplace – Gauss).

Rappelons qu’en régression simple comme en régression multiple, on appelle résidu (ei) les écarts entre les valeurs observées de la variable dépendante (yi) et les valeurs estimées par le modèle (yˆ ). i

ei = yi - yˆ i (9)

L’analyse des résidus présente un intérêt à plusieurs égards. Elle permet en effet de vérifier, a posteriori, la validité du modèle utilisé, en ce qui concerne, d’une part la forme de celui-ci (linéarité ou non linéarité de la relation, par exemple) et d’autre part, certaines hypothèses plus spécifiques, telle que l’égalité des variances résiduelles, la normalité des résidus ou l’absence d’auto corrélation.

Nous examinerons les procédures utilisées dans ce travail pour vérifier ces hypothèses, et repérer les observations éventuellement aberrantes ou les observations qui jouent un rôle important dans la détermination de la régression.

(34)

I-2 /

Représentations graphiques :

La représentation graphique d'un modèle est une partie importante du problème de régression multiple .Nous présentons dans cette partie plusieurs diagrammes de l'adéquation d'un modèle.

I -2 - 1 / Diagrammes de dispersion des résidus en fonction de i

:

La représentation graphique des résidus en fonction de la variable dépendante estimée fournit une série d’informations concernant l’adéquation du modèle.

On peut également prendre en considération les résidus normés, obtenus en divisant chaque résidu par l’écart type résiduel. Ces résidus (standardisés) normés doivent se distribuer selon la loi normale réduite. En particulier, environ deux valeurs sur trois doivent être comprises entre –1 et +1, et seulement cinq valeurs sur cent environ peuvent se situer en dehors de l’intervalle (-2 ; +2).

On notera à ce propos que la procédure décrite ci-dessus n’est pas tout à fait rigoureuse. On peut en effet démontrer que les résidus observés n’ont pas tous, en réalité, la même variance, même si la variance théorique est constante.

I – 2 - 2 / Diagrammes de probabilité :

Rappelons d’abord qu’on appelle quantile d’ordre α (0 ≤ α ≤ 1) d’une variable aléatoire x de fonction de répartition F toute valeur xα telle que :

F(xα)=α

(

⇔P(x ≤ xα) = α

)

(10) Notons que si F est continue et strictement croissante, le quantile xα, pour α donné, existe et est unique; sinon, il ne peut pas exister ou il peut y avoir plusieurs solutions possibles.

Les diagrammes de probabilité sont des diagrammes de fonctions de répartition, ou de fréquences cumulées, dans lesquels les ordonnées sont déterminées de telle sorte que les fonctions de répartition F(x) apparaissent sous la forme de droite.

Si, au contraire, on souhaite utiliser en ordonnées une échelle de quantiles de la variable normale réduite, les quantiles doivent être calculés, à partir des fréquences relatives, par la fonction inverse de la fonction de répartition Φ(n) de la distribution normale réduite :

( )

[

N x

]

ou Φ

(

i-12

)

n Φ μ ' -1 i 1 -i     ′ = (11)

Les valeurs μ ainsi définies sont généralement appelées quantiles normaux ou scores i normaux.

(35)

La représentation graphique d’un ensemble de fréquences cumulées sous une telle forme permet de juger, de façon visuelle, de la normalité ou de la non normalité des données considérées. La linéarité ou la quasi-linéarité du diagramme ainsi obtenu est en effet un indice de normalité.

I – 3 /Test paramétrique : la statistique de DURBIN et WATSON :

La vérification de l’indépendance des résidus peut se faire par le test de DURBIN et WATSON. La méthode consiste à calculer la quantité suivante :

(

)

= = − = n 1 i 2 i n 2 i 2 1 -i i e e e d (12)

Les ei étant les résidus de la régression et n le nombre d’observations.

Cette caractéristique est comprise entre 0 et 4. Une valeur très inférieure à 2 indique l’existence d’une corrélation positive entre les résidus successifs et une valeur très supérieure à 2 correspond à une corrélation négative entre ces résidus. Par contre, une valeur voisine de 2 ne permet pas de rejeter l’hypothèse d’indépendance des résidus

II- Evaluation de l’adéquation des modèles :

L’évaluation de l’adéquation d'un modèle est une partie importante du problème de régression multiple .Nous présentons dans cette partie plusieurs méthodes d'évaluation de l'adéquation d'un modèle.

II

- 1 / Coefficient de corrélation multiple :

Rappelons que la somme des carrés totale, ST ou Syy, peut être décomposée en une somme de carrés due à la régression, SR, et une somme de carrés des écarts SCE :

(

)

(

)

(

)

2 i i 2 i i i 2 i i y y yˆ yˆ y y

− = − + − (13) (Syy ou ST) (SCE) (SR)

R est le coefficient de corrélation entre la série observée y1, y2, …, yn et la série estiméeyˆ1 ,yˆ2 ,.... ,yˆn.

Comme tout coefficient de corrélation linéaire, son carré s’interprète en terme de variance expliquée :

(36)

(

)

(

)

(

)

variancedesy régression la par expliquée variance y yˆ yˆ y -y y R 2 i i 2 i i i 2 i i 2 = − − − =

(14)

Pour cette raison, le carré R2 du coefficient de corrélation, multiplié par 100, est appelé "coefficient de détermination" : il exprime le pourcentage de la variation expliquée par la régression.

Le coefficient de détermination R2 est utilisé pour tester la qualité de l’ajustement de y par yˆ . Si R2 = 1, yi = yˆ ∀ i, l’ajustement est parfait. i

La somme des carrés des écarts possède (n – p) degrés de liberté, puisque p = (k + 1) paramètres sont estimés dans le modèle de régression.

Le carré moyen des écarts :

p -n SCE CME = (15)

est un estimateur, non biaisé, de σ : 2

CME σˆ2 =

Si une variable est ajoutée dans une équation de régression, R2 augmentera (ou du moins ne diminuera pas) même si cette variable est sans apport réel, d’où l’utilisation du R2 ajusté :

(

)

( )

(

2

)

2 a 1-R k -n 1 -n -1 1 -n SCT k -n SCE -1 R = = (16)

Si les deux statistiques sont très différentes il y a de fortes chances pour que le modèle soit sur spécifié, c’est-à-dire qu’il comporte des termes qui ne contribuent pas de façon significative à l’ajustement.

Les coefficients de détermination peuvent servir également à tester l’effet de l’introduction de nouvelles variables dans des modèles établis. Si nous indiquons en indice le

(37)

nombre de variables ayant servi à estimer ce coefficient, on peut tester l’apport de (p – q) régresseurs après introduction des q premiers à l’aide de la statistique :

(

(

)

)

(

)

(

n -k -1

)

R -1 q -p R -R F 2 2 q 2 1) -k -n ; q -(p 0 = (17)

II - 2 / Résidus caractéristiques et adéquation des modèles :

Dans ce qui suit, nous nous référons à la matrice

X des observations relatives aux variables explicatives. S’il y a n observations,

X est de rang (n x p), où p est le nombre de coefficients. La première colonne de

X a tous ses éléments égaux à 1, et les colonnes restantes de

X se rapportent aux prédicteurs, ainsi p = (k + 1). Nous utiliserons les notations

∼i

x = (x1i, x2i, …, xki) pour les prédicteurs, yi pour la réponse, et yˆ pour la valeur ajustée à la i

ieme observation. La notation

b désignera le vecteur p x 1 des coefficients estimés.

II – 2 - 1 / Bras de levier hii :

La matrice de projection de rang (n x n) est : ' X X ' X X H 1 ∼ − ∼ ∼ ∼ ∼      ∗ = (18) où ∼

X

est la matrice des observations relatives aux variables explicatives et '

X

.sa transposée. Le bras de levier de la ieme observation est le ieme élément hii de la diagonale de la matrice

H

. Il est à noter que hii ne dépend que des prédicteurs; il n’implique pas la réponse y. Une valeur importante de hii signifie que les prédicteurs (x1i, x2i, …, xki) associés à la ieme observation sont inhabituels, du fait qu’ils sont éloignés du vecteur moyen

(

x1 ,x2 ,... ,xk

)

au sens de la distance de MAHALANOBIS. Une observation avec un tel bras de levier aura une grande influence dans la détermination des coefficients de la régression.

De nombreux auteurs considèrent que hii est assez important pour faire l’objet d’un contrôle, s’il est supérieur à 2p n où3p n.

II- 2 - 2 / Résidu studentisé :

Le résidu standardisé est calculé sur l’ensemble des données, alors que le résidu studentisé est calculé en éliminant au préalable la ieme observation.

(38)

∼ − ∼ ∼ ∼      ∗ =CMEx X' X' x' ) yˆ var( i 1 i i ) yˆ ( -CME ) (e type -écart i = i

Le résidu standardisé de la ieme observation sera alors :

) (e type -écart e r i i i = (19)

Si nous posons S= CME , nous pouvons également écrire :

ii i) S 1-h (e type -écart = (20)

Les résidus standardisés ont une variance unité. Les résidus standardisés supérieurs à 2 sont, habituellement, considérés comme élevés.

Pour calculer le résidu studentisé de la ieme observation, on commence d’abord par éliminer cette ieme observation de l’ensemble des données. La matrice

X qui en découle sera symbolisée par

∼(i)

X . On calcule alors la régression à partir de cet ensemble réduit de données. Elle fournit les grandeurs :

(i) = valeur ajustée pour xi e (i) = yi - yˆ(i)

CME (i) = CME pour l’ensemble réduit de données.

Ecart-type (e (i)) = CME(i) + var(yˆ(i))

∼ − ∼ ∼ ∼      =CME x X' X' x' ) yˆ ( var i 1 (i) (i) i (i) (i)

Alors le résidu studentisé pour xi est :

) (e type -écart e t (i) (i) i= (21)

Comme le résidu studentisé pour la ieme observation estime toutes les quantités sur l’ensemble des données après élimination de cette ieme observation, celle-ci ne peut exercer d’influence sur les estimations. Ainsi, des valeurs inhabituelles de y apparaîtront clairement.

(39)

ii i (i) h -1 e e = (22)

On constate que les résidus de prédiction peuvent être obtenus directement à partir des résultats de la régression calculée sur n observations, sans qu’il soit nécessaire de calculer n fois, l’équation de régression sur (n – 1) observations.

Ces résidus de prédiction permettent notamment de définir la somme des carrés des erreurs de prédiction, désignée par le symbole PRESS (pour : Predicted Residual Sum of Squares) :

= = n 1 i 2 (i) e PRESS (23) II – 2 - 3 / Distance de COOK :

Rappelons que le bras de levier, hii, nous indique, si une observation i a des prédicteurs inhabituels, alors que les résidus standardisés nous apprennent si une observation a une réponse inhabituelle. La distance de COOK combine ces deux renseignements dans une mesure globale.

La distance de COOK, D, pour la ieme observation est :

(

i

)

2 ii ii i résidu standartisé d h -1 h p 1 D = (24)

Cette relation montre que la distance Di est une fonction croissante du carré du résidu

studentise, di, et de hii. Pour une valeur fixée de p et, pour une régression avec terme

indépendant, Di sera d’autant plus grand que ei est grand, en valeur absolue, et que le vecteur xi

est éloigné du vecteur x

∼ .

Sous certaines hypothèses , les Di peuvent être comparés à la valeur F1-α relative à la variable F de SNEDECOR à p et (n – p) degrés de liberté, bien qu’il ne s’agisse pas d’un test statistique rigoureux [12]. Sur cette base, WEISBERG considère qu’une attention particulière doit être accordée aux observations pour lesquelles Di est supérieur à l’unité.

En fait, il est suggéré de contrôler les observations pour lesquelles :

p) -n ; p ; .50 ( F D COOK > .≅ 1

II – 2 - 4 / Autre mesure de l’influence : DFFITS :

Une autre mesure de l’influence, représentée généralement par le symbole DFFITS ou DFITS a été proposée par BELSLEY et al [21]. Les DFFITS combinent le bras levier, hii, et le

(40)

résidu studentisé en une mesure globale, qui renseigne jusqu’où une observation est inhabituelle. L’expression de DFFITS pour la ieme observation est :

(

1-h

)

(résidu studentisé) h

DFFITSi = ii ii (25)

DFFITS peut également être présenté sous la forme :

(

)

) yˆ ( type -écart yˆ -yˆ DFITS i (i) i i = (26)

L’écart- type de (yˆi) étant égal à Si hii , et si se calcule comme pour le résidu studentisé.

Sous cette forme, DFFITS peut être considéré comme la différence entre les valeurs ajustées, calculées avec et sans la ieme observation, et standardisée pour l’écart- type de (yˆi).

Les observations pour lesquelles :

n p 2 DFFITSi > (27)

devraient être considérées comme influentes.

II–2-5/Influence d’un individu sur la variance des coefficients de régression : COVRATIO :

Pour faire ressortir le rôle de la ieme observation sur la précision de l’estimation, nous devons définir :

( )

, i 1,2,...,n CME X ' X S X ' X COVRATIO 1 -2 (i) -1 (i) (i) i =       = ∼ ∼ ∼ ∼ (28)

En résumé si COVRATIOi > 1, la ieme observation améliore la précision de l’estimation, alors que si COVRATIOi < 1, l’inclusion de la ieme observation dégrade la précision. Pratiquement le calcul se fait à partir de la relation :

( )

(

)

     = ii p p 2 (i) i h -1 1 CME S COVRATIO (29)

(41)

avec : 1 -p -n ) h (1 e -CME p) -(n S ii 2 i 2 (i) − = (30)

Notons que

[

1(1-hii)

]

est le rapport de X' X

-1 (i) (i)       ∼ ∼ à

( )

-1 X ' X ∼

∼ , de telle sorte qu’un point à

bras de levier important se traduira par une grande valeur de COVRATIOi. Ce qui est logique, puisque un point .

à bras de levier important améliorera la précision, à moins que ce point ne soit aberrant dans l’espace des y. Si la ieme observation est aberrante, S2(i) CME aura une valeur très inférieure à l’unité.

Les valeurs limites de COVRATIO ne sont pas faciles à obtenir. La ieme observation

améliore la précision de 1'estimation, que si COVRATIOi > 1 + 3 p n ou la présence de la 1eme

observation diminue la précision si COVRATIOi < 1 – 3p n, alors on doit considérer le point i

comme influent. La plus petite limite ne sera appropriée que lorsque n > 3 p. Ces valeurs limites sont plus appropriées pour des échantillons importants.

(42)

CHAPITRE III

MODELES STATISTIQUES

CALCULES

(43)

MODELES STATISTIQUES CALCULES

I/Partie expérimentale [8,13-16] :

Nous avons réalisé la plupart des calculs à l’aide des logiciels de modélisation moléculaires Hyperchem Pro. [32] et Dragon [33].

Des pyrazines du commerce ont été utilisées .Les séparation ont été réalisées sur des colonnes capillaires ouvertes en silice (longueur : 50m ; diamètre intérieur : 0,22 mm), dont les parois internes ont été imprégnées soit de Carbowax -20M (CW-20M) soit de silicone OV101 .Elles ont été montées sur un chromatographe Hewlett –Packard modèle 5710, équipé d’un détecteur à ionisation de flamme (DIF). Le débit de l’azote vecteur a été fixé à 0, 67ml /min, et pour éviter la saturation (des colonnes) une division à l’entrée des colonnes (rapport 1 :100) a été adoptée.

Au cours des analyses les températures des colonnes ont été élevées de 80 à 200°C à raison de 2°C/min ,alors que celles du détecteur et de l’injecteur ont été fixées à 250°C[12]. Nous avons réuni dans le tableau (2), les valeurs des descripteurs moléculaires pour les 27 Pyrazines étudiées.

Tableau 2 : Valeurs des rétention obtenus sur les colonnes Carbowax-20M (IR1)et OV101 (IR2) et descripteurs moléculaires sélectionnés.

N° du

Composé Nom du composé IR1 IR2 SQ- DV1T REF PPSA1

1 2-Acétyl-3,6-diméthylpyrazine 1615 1144 -1,365 1,7808 41,543 202,39 2 2-Acétyl-3-éthylpyrazine 1617 1138 -1,403 1,802 41,136 192,42 3 2-Méthoxy-3-méthylpyrazine 1339 954 -0,974 1,5023 33,358 184,88 4 2-Ethylpyrazine 1300 894 -0,953 1,5445 31,074 167,21 5 2-Ethyl -5-méthylpyrazine 1357 980 -1,067 1,6231 36,005 203,39 6 2-Ethyl -6-méthylpyrazine 1353 977 -1,067 1,6384 36,005 203,52 7 2-Ethoxy -3-méthylpyrazine 1385 1029 -1,158 1,5213 38,106 225,84 8 2-Ethyl-3-méthylthiopyrazine 1695 1237 -1,413 1,561 44,325 213,9 9 2-Ethyl-3-méthoxypyrazine 1400 1037 -1,164 1,6358 37,882 191,28

Figure

FIGURE TITRE PAGE
TABLEAU TITRE PAGE
Figure 1 : Structure de la pyrazine et numérotation des sommets.
Figure 4 -Schéma de principe d'un chromatographe en phase gazeuse
+7

Références

Documents relatifs

[r]

[r]

(2014) ont cultivé les deux souches dans un chémostat contenant un milieu de culture favorable pour le développement de ces dernières.. Les auteurs n’ont détecté aucune

- 1 : défauts réversibles : l’arbre peut naturellement cicatriser ou le défaut peut facilement être éliminé par intervention humaine (enlèvement du bois mort).. - 2 :

Avec les n j cases marqu´ ees en colonne j, on peut former n j (n j − 1)/2 paires de cases ou de lignes ; aucune de ces paires de lignes ne doit se reproduire dans une autre

Je commence par d´ enombrer, dans les deux diagrammes suivants, les parcours partant de C 1 et les parcours arri- vant en C 3 , chaque pas faisant progresser d’une colonne... Ce

Pour les dérivations de branchement à puissance surveillée, le CCPI doit être à proximité immédiate du distributeur à courant assigné 400 A ou à l’origine de la

Ici la formule entrée en B3 dépend