• Aucun résultat trouvé

Article pp.151-172 du Vol.26 n°2 (2006)

N/A
N/A
Protected

Academic year: 2022

Partager "Article pp.151-172 du Vol.26 n°2 (2006)"

Copied!
22
0
0

Texte intégral

(1)

© Lavoisier – La photocopie non autorisée est un délit

ARTICLE ORIGINAL ORIGINAL PAPER

Validation du profil sensoriel conventionnel : un état des lieux

I. La validation intralaboratoire*

F. Sauvageot

SUMMARY

Conventional sensory profile validation: A survey. I – Intralaboratory validation Sensory profiling is an important activity for many sensory laboratories. Validation of profiles is based on two approaches: the intralaboratory validation and the interlabo- ratories validation. In the group validation, the group’s repeatibility and discriminant power are measured. In the interlaboratories validation, the agreement between groups is also measured. Surprisingly, the literature is poor on intra panel studies, but well documented on inter panel studies. However, both approaches present the two same critical points: the choice of products to consider and the indices to com- pute. From two examples, for intralaboratory and interlaboratories validation, we review the encountered problems and the given answers. As these answers are multiple, some choices are absolutely necessary to facilitate the work of the practi- tioners of sensory world. In this matter, the first comparisons performed by Profi- Sens (www.profisens.com) are very interesting. In France, the AFNOR commission

“Sensory Analysis” has created a working group whose aim is to propose a suitable norm for the companies which collect and provide sensory data.

Keywords

sensory profile, sensory laboratory, intralaboratory validation.

RÉSUMÉ

La réalisation de profils sensoriels constitue une partie importante de l’activité de beaucoup de laboratoires d’évaluation sensorielle. La crédibilité de cette activité est fondée sur deux approches : la validation intralaboratoire et la validation interlaboratoires. La validation intralaboratoire consiste à étudier la répétabilité du groupe et son pouvoir discriminant ; la validation interlaboratoires consiste à étudier l’accord entre groupes, généralement de laboratoires différents. Alors que la littérature est pauvre dans le domaine de la validation intralaboratoire, la comparaison interlaboratoires a été l’objet de nombreux travaux de recherche publiés. Mais les deux approches ont en commun de partager deux points criti- ques analogues : le choix des produits étudiés et le choix des indices calculés.

Ingénierie Moléculaire et Sensorielle de l’Aliment et des Produits de Santé – Ensbana – Université de Bour- gogne – 1, Esplanade Erasme – 21000 Dijon – France.

*La partie I de cet article est consacrée à la validation interne, la partie II qui paraîtra dans le prochain numéro de la revue traitera de la validation externe. Chaque partie a sa propre numérotation des paragraphes, tableaux et figures, de même que sa propre bibliographie.

(2)

© Lavoisier – La photocopie non autorisée est un délit

Le présent document est ordonné autour de la présentation de deux articles ; l’un concerne la validation intralaboratoire (partie I), l’autre la validation interlabo- ratoires (partie II). La discussion de ces articles permet de passer en revue les problèmes rencontrés et les solutions apportées.

Comme ces solutions sont diverses et nombreuses, il sera de toute évidence néces- saire de procéder à des choix si l’on veut que les laboratoires s’engagent de manière opérationnelle dans la voie de la validation. À cet égard, les premières comparaisons interlaboratoires effectuées dans le cadre de ProfiSens (www.profisens.com) appa- raissent particulièrement intéressantes. Dans ce domaine, les normes ISO ou AFNOR font encore défaut ; toutefois la Commission Analyse Sensorielle de l’AFNOR vient de créer un groupe de travail en vue de préparer une norme opéra- tionnelle permettant, pour les sociétés qui produisent et « vendent » des données sensorielles, de mesurer les performances de leur(s) groupe(s).

Mots clés

profil sensoriel, évaluation sensorielle, validation intralaboratoire.

1 – INTRODUCTION

Une partie de l’activité de la plupart des services d’évaluation sensorielle, qu’ils appartiennent à une entreprise agro-alimentaire ou qu’ils relèvent d’une société de service travaillant à façon, consiste à établir le profil sensoriel dit conventionnel de produits. On entend, sous cette expression, la quantification de l’intensité d’un cer- tain nombre de caractéristiques sensorielles jugées pertinentes pour décrire un uni- vers produit par les membres du groupe sensoriel. Le terme profil vient de ce que, très souvent, les résultats sont donnés, non seulement sous forme d’un tableau, mais également sous forme d’un dessin cherchant à rendre compte visuellement (et de manière synthétique) de l’intensité différentielle des différents descripteurs.

L’adjectif conventionnel s’oppose à l’adjectif libre : dans le profil conventionnel, tous les sujets du groupe utilisent la même liste de descripteurs alors que, dans le profil libre, chaque sujet utilise sa propre liste de descripteurs. Comme la technique du profil libre est beaucoup plus récente, l’adjectif conventionnel a été choisi pour caractériser la technique de profil la plus ancienne et la plus fréquemment utilisée.

Le lecteur intéressé pourra trouver dans un numéro de Psychologie Française de 2004 un article de GIBOREAU et DACREMONT consacré aux interrogations que la prati- que de la technique du profil sensoriel pose encore aujourd’hui ainsi qu’un article de SAUVAGEOT consacré à une présentation historique de cette technique. Les pages qui suivent sont, en quelque sorte, un complément à ce second article.

De l’aveu même de FEINBERG (1996), dans un ouvrage intitulé cependant La vali- dation des méthodes d’analyse (p. 28), le terme de validation est relativement flou.

Dans les pages qui suivent, valider la technique du profil sensoriel, c’est montrer qu’il existe une démarche visant à assurer que le produit offert (en l’occurrence le profil) a été obtenu dans des conditions impliquant des comparaisons. Celles-ci peuvent être effectuées à l’intérieur d’un même laboratoire ou entre laboratoires dif- férents. Parfois, la première voie est qualifiée de validation interne et la deuxième de validation externe. Ces deux expressions ne sont pas à confondre avec celles de validité externe et de validité interne. La validité externe est liée à la manière dont les sujets interrogés « représentent » la population cible, c’est-à-dire à la manière dont les sujets ont été inclus dans l’expérience ; elle conditionne l’extrapolation des résul-

(3)

© Lavoisier – La photocopie non autorisée est un délit

tats à l’ensemble du domaine qui a été l’objet de l’investigation ou, éventuellement, à un domaine plus vaste (ÉVRARD et al., 1997, p. 640). La validité interne est liée à la manière dont les sujets sont, dans une expérience, affectés aux différents niveaux des facteurs étudiés ; elle assure que les variations de la variable de réponse (ou variable dépendante ou variable à expliquer) sont causées uniquement par les varia- tions de la variable indépendante (ou explicative) (ÉVRARD et al., 1997, p. 640).

2 – UN EXEMPLE D’ÉTUDE DE VALIDATION INTERNE :

L’ÉTUDE SUR LE POISSON-CHAT DE JOHNSEN ET KELLY (1990)

À la différence des comparaisons interlaboratoires, les études intralaboratoire ont rarement été l’objet de publications. L’étude de JOHNSEN et KELLY fait exception.

Sa présentation permettra une approche concrète des problèmes que soulève ce type de comparaison. Elle a concerné 16 sujets qui ont suivi un entraînement de 75 heures sur une période de 5 mois. À l’issue de cette période, les sujets dispo- saient d’une liste de 18 descripteurs : 11 relevaient de la sensibilité olfactive, 4 de la sensibilité gustative et 3 de la sensibilité trigéminale.

2.1 Les produits

Les performances du groupe ont été étudiées sur quatre groupes de poissons : 1) des poissons élevés dans une exploitation de petite taille ;

2) des poissons élevés dans une exploitation de grande taille ; 3) des poissons sauvages pêchés dans un lac et

4) des poissons expérimentaux élevés en étang.

Comme les sujets avaient, à différentes reprises, noté que les parties antérieure et postérieure d’un poisson présentaient des différences de flaveur, les auteurs ont préparé des portions individuelles en combinant les différents filets d’un même pois- son et en les broyant sans toutefois amener un éclatement trop fort des cellules. Des échantillons de dix grammes ont alors été placés dans des barquettes qui, après éli- mination de l’air, ont été scellées, puis congelées à – 20 °C.

Avant évaluation, les échantillons ont été placés dans de l’eau bouillante et cuits pendant cinq minutes après que l’eau eut recommencé à bouillir. Les échantillons ont été présentés aux sujets sous lumière rouge. Les sujets ont ouvert les barquettes avec une paire de ciseaux ; ils ont flairé chaque échantillon et en ont mis en bouche la moitié afin de noter les descripteurs. Ensuite, ils ont mis en bouche l’autre moitié afin d’effectuer une nouvelle évaluation, les conduisant à corroborer ou à ajuster leurs scores précédents.

2.2 Les séances de travail et les résultats

Les scores ont été donnés sur une échelle d’intensité de 16 cm de longueur por- tant les indications 1, 2, 3… 10. Sept intensités (1, 2, 3, 4, 5, 7 et 10 ont été asso- ciées à des références externes). Par exemple, l’intensité 3 du descripteur beurre a été donnée par une margarine commercialisée par Land O’Lakes. Ces références ont servi pour tous les descripteurs, c’est-à-dire que la référence 3 du descripteur beurre a servi également pour les descripteurs noisette, gras, maïs, etc.

(4)

© Lavoisier – La photocopie non autorisée est un délit

Chaque séance de validation, d’une durée de deux heures (et à raison de deux séances par semaine) a comporté trois temps : d’abord une prise de contact avec les sept références externes d’intensité, ensuite une évaluation d’un poisson stan- dard commercial (avec discussion des résultats), enfin une évaluation de six échan- tillons de poisson.

Chaque type de poisson a été évalué six fois. Les auteurs présentent leurs résul- tats sous la forme du tableau 1. L’interprétation a été effectuée au moyen d’une ANOVA comportant le facteur groupe de poisson et le facteur répétition. Pour les six descripteurs du tableau 1, le facteur groupe de poisson est significatif (à P = 0,01) alors que les deux facteurs répétition et répétition*poisson ne sont pas significatifs (à P = 0,05).

Les auteurs examinent ensuite si les différences entre groupes de poisson sont logiques, c’est-à-dire en accord avec les conditions d’alimentation et d’environ- nement des poissons. La réponse est, par exemple, positive pour les descripteurs odeur de noix et odeur de poulet et négative pour le descripteur herbacé.

Tableau 1

Résultats de l’étude intralaboratoire de JOHNSEN et KELLY (1990).

Table 1

Sum of squares and means from ANalysis Of VAriance on farm-raised catfish.

The experiment consisted in 4 groups of fish with six replicated evaluations.

Le tableau donne, pour six descripteurs et pour les trois facteurs : Répétition, Groupe de poissons et Répétition* Groupe de poissons, la Somme des Carrés des Écarts et la Probabilité attachée à celle-ci quand elle est significative à 5 % (un asté- risque) ou à 1 % (deux astérisques), ce qui est toujours observé dans cette étude pour le facteur Groupe de poissons. Le nombre de degrés de liberté de chaque fac- teur est donné entre parenthèses sous l’intitulé de chaque facteur. La dernière colonne donne la moyenne générale de chaque descripteur (sur une échelle 1-10) tous poissons confondus.

3 – LES ENSEIGNEMENTS TIRÉS DE L’EXEMPLE DE JOHNSEN ET KELLY

3.1 Les échantillons évalués doivent être homogènes et stables La première condition pour valider une méthode est de disposer d’échantillons homogènes (dans leur état) et stables (dans le temps). D’où le souci des auteurs précédents 1) de vérifier, avant les séances de travail, que le mode de préparation

Source de Variations Répétition (5)

Groupe de poissons (3)

Répétition* Groupe de p.

(15)

Moyenne générale

Noisette 1,19 49,62** 14,54 1,81

Qui rappelle la volaille 4,17 85,86** 16,44 2,50

Gras 8,13 18,96** 7,71 1,57

Maïs 1,69 18,30** 9,54 0,89

Herbacé 8,04 10,28** 9,83 1,25

Sucré 1,40 28,77** 7,35 0,89

Salé 0,99 6,60** 1,68 1,41

(5)

© Lavoisier – La photocopie non autorisée est un délit

adopté permettait de réduire la variance entre répétitions de broyats, comparée à celle sur des filets et 2) de congeler leurs échantillons. La contrepartie de cette prati- que est une modification (probable) de la flaveur et (certaine), de la texture (d’où l’absence de descripteurs de texture).

Cette exigence d’homogénéité et de stabilité est souvent difficile à satisfaire avec des produits alimentaires qui, à la fois, présentent une hétérogénéité et évo- luent au cours du temps. Ainsi, dans une étude récente consacrée à l’effet de l’entraînement sur la répétabilité de la méthode temps – intensité, PEYVIEUX et DIJKS- TERHUIS (2001) ont travaillé avec deux lots de tranches fines de viande de porc appe- lées casseler ribs et ils ont observé une meilleure répétabilité des sujets sur l’un des deux lots. Ils ont avancé deux explications, soit des différences dans le type de pro- duit, soit une non-constance du lot pour lequel la répétabilité observée avait été la plus faible. Même avec des produits liquides, il n’est pas toujours facile de respecter cette exigence comme l’ont observé McEVAN et al. (2002) sur des soupes à la tomate. Parfois, l’hétérogénéité du produit est une donnée en quelque sorte consti- tutive du produit, comme dans le cas de la pomme de terre ; THYBO et MARTENS

(2000) ont proposé, pour ce cas, une approche fondée sur une Analyse Discrimi- nante avec régression PLS.

3.2 La validation doit comporter deux volets : un volet répétabilité et un volet sensibilité

En effet, un groupe pourrait être répétable pour le seul motif qu’il ne perçoit pas de différences entre les produits. Dans le domaine des mesures instrumentales, on utilise plutôt le concept de sensibilité pour caractériser les différences entre échan- tillons alors que, dans le domaine de l’évaluation sensorielle, on utilise plutôt celui de discrimination. Cette différence provient des approches utilisées : la détermina- tion de la sensibilité demande, généralement, la construction d’une droite et un calcul de pente, alors que celle de discrimination renvoie à une technique d’infé- rence statistique (très généralement, l’analyse de la variance ou ANOVA).

3.3 L’analyse des résultats est effectuée descripteur par descripteur Une telle analyse permet, en effet, une discussion immédiate (et accessible à tous) des résultats. Elle doit toujours être privilégiée dans une comparaison intrala- boratoire. On pourra regretter, toutefois, que JOHNSEN et KELLY n’indiquent pas pourquoi leur tableau de résultats porte seulement sur six descripteurs alors que le profil annoncé comportait 18 descripteurs. Probablement ont-ils mentionné seule- ment les descripteurs significatifs pour le facteur groupe de poissons.

3.4 L’interaction produit*répétition est prise en compte

Une comparaison fondée sur le seul examen du facteur répétition serait discuta- ble puisqu’elle porterait sur les sommes calculées, à chaque répétition, sur l’ensem- ble des produits. Or une même somme peut correspondre à des scores élémentaires très différents. Par exemple les scores A = 4, B = 6, C = 8 conduiront à la même somme que les scores A = 8, B = 6, C = 4 alors que le classement des produits A et C est opposé dans ces deux séries. C’est pourquoi le modèle d’ANOVA approprié n’est pas : réponse = f (produit + répétition), mais : réponse = f (produit + répétition + produit*répétition).

(6)

© Lavoisier – La photocopie non autorisée est un délit

4 – LES QUESTIONS QUI NE SONT PAS DISCUTÉES DANS L’ÉTUDE DE JOHNSEN ET KELLY (1990)

Valider par la voie interne c’est, selon FEINBERG (1996, p. 100), déboucher sur des mesures de limite de détection, sur une optimisation des conditions opératoires, et si possible, une réduction de l’erreur expérimentale. C’est pourquoi d’autres questions que celles auxquelles JOHNSEN et KELLY ont (apparemment) prêté atten- tion doivent être soulevées.

4.1 La pertinence des échantillons étudiés

JOHNSEN et KELLY ont cherché à maîtriser la stabilité de leurs échantillons ; en revanche, la pertinence des produits analysés est peu (sinon pas) discutée. Or cette discussion est indispensable dans une étude de validation, qu’elle soit « interne » ou

« externe ». Mais comment un praticien pourrait-il être assuré, a priori, que les pro- duits présentés sont pertinents, c’est-à-dire différents sur le plan sensoriel ? Bien plus, comment pourrait-il être assuré que les produits ne se répartissent pas en deux groupes opposés, une figure rendant la validation trop facile comme l’ont rencontrée, par exemple, PAGÈS et HUSSON (2001) dans une étude sur six chocolats noirs : l’un des chocolats était très différent des autres du fait de sa composition (il comportait du lait), de sorte que les auteurs ont été obligés d’effectuer une double analyse : sur l’ensemble des 6 chocolats et sur le groupe des 5 chocolats après exclusion du cho- colat comportant du lait. Parfois, les produits peuvent sembler, aux yeux du non-spé- cialiste de l’univers sensoriel étudié, appartenir à des mondes différents alors que les résultats ne confirment pas cette opinion. Ainsi les études de HUNTER et McEVAN

(1998) et de McEVAN et al. (2002) n’ont pas conduit à des différences considérables entre, respectivement, 12 fromages à pâte dure comportant, notamment, deux Ched- dars, un Emmental, un Comté, un Edam et un Gouda et entre huit vins rouges : trois vins français : Côte de Ventoux, Corbière et Côtes du Rhône, trois vins espagnols : Parador, Solana et Rogia et deux vins italiens : Bardolino et Veneto. Parfois (et heu- reusement), les résultats montrent des différences indiscutables entre produits, confirmant donc l’attente des auteurs, comme, par exemple, dans les études de BURKE et al. (1997), de Mc DONNEL et al. (2001) et de DAIROU et SIFFERMANN (2002).

Une analyse de la littérature montre que, outre la démarche (discutable) de GONZALEZ et al. (2001) consistant à évaluer un seul produit répété plusieurs fois, trois autres démarches sont possibles. Dans la première, les produits, peu nombreux, sont considérés comme pertinents parce que les professionnels de l’univers produit les jugent tels (CLAPPERTON et PIGGOTT, 1979, RUTLEDGE, 1992, CARDINAL et al., 1994, MIOCHE et MARTIN, 1998, STOER et al., 2002). Par exemple, CLAPPERTON et PIGGOTT

(1979) ont comparé les résultats de quatre groupes de sujets au moyen de quatre bières blondes d’appellations différentes et fabriquées par des sociétés différentes.

Dans la deuxième démarche, le nombre de produits est élevé et les auteurs estiment (implicitement généralement) que, du fait de ce nombre, ils couvrent les différentes régions de l’univers produit (APARICIO et al., 1991, WOLTERS et ALLCHURCH, 1994, APARICIO et MORALÈS, 1995, MARTIN et al., 2000, KING et al., 2001, NARAIN et al., 2003, DELARUE et SIFFERMANN, 2004). Par exemple, KING et al. (2001) ont évalué 25 vins du même cépage (Merlot) en vue d’étudier différentes méthodes d’évalua- tion des performances d’un groupe. Dans la troisième démarche, les produits

« proviennent » d’un plan d’expérience où la variation des paramètres (de formula- tion et/ou de fabrication) est suspectée influencer les caractéristiques sensorielles

(7)

© Lavoisier – La photocopie non autorisée est un délit

(HOUGH et al., 1992 sur 16 produits laitiers donnés par un plan d’expérience 25 ; FUSELIERet al., 1993 sur 16 chocolats au lait donnés par un plan 4*2*2 ; de WIJK et al., 2003 sur 8 crèmes anglaises à la vanille donnés par un plan fractionnaire 25-1).

D’autres plans, plus sommaires, ont été utilisés par SINESIO et al., 1990 sur des sau- cisses, CLAASSEN et LAWLESS (1992) sur des laits, HEYMANN (1994) sur de la vanille ou GUERRERO et al., (1997) sur des amandes grillées.

Ces différentes démarches présentent une limite évidente : elles peuvent conduire à des échecs si les différences réelles entre échantillons ne correspondent pas aux différences attendues. Ainsi MORALÈS (2000) n’a pas pu comparer deux groupes de sujets lors d’une étude portant sur l’effet du bois de chêne utilisé pour fabriquer les fûts dans lesquels le vin avait été « élevé » : l’effet des facteurs étudiés était trop dis- cret pour engendrer des différences entre les lots de vin étudiés. C’est pourquoi il serait intéressant d’explorer d’autres voies. La première pourrait être d’effectuer, préa- lablement à toute épreuve de comparaison de profils, une épreuve non verbale comme l’épreuve triangulaire ; mais cette épreuve est coûteuse en temps et en produits dès que le nombre de produits à étudier pour déterminer ceux qu’il convient d’incorporer dépasse 6 : pour cette valeur, le nombre d’épreuves est déjà égal à (6*5/2 =) 15. La seconde voie, l’épreuve de distance dans laquelle les sujets doivent évaluer toutes les paires de produits qu’il est possible de former, présente la même limite sauf qu’elle demande seulement de préparer des diades et non pas des triades. La troisième voie pourrait être l’épreuve de tri dont l’efficacité serait, selon les résultats d’une étude sur des gelées de raisin (TANG et HEYMANN, 2002), identique à celle de l’épreuve de distance. Dans une épreuve de tri, les produits sont présentés une seule fois et la tâche des sujets est de les répartir dans des groupes différents dont le nombre est généralement laissé à la discrétion de chaque sujet, les instruc- tions stipulant seulement que les différences entre deux produits affectés à un même groupe doivent être perçues comme plus faibles que les différences entre deux pro- duits affectés à des groupes différents. Cinq études (WILLIAMS et ARNOLD, 1985 sur six cafés, CHAUHAN et HARPER, 1986 sur sept boissons, MATUSZEWSKA et al., 1991 sur dix produits type margarine, BARCENAS et al., 2002 sur huit fromages de chèvres et FAYE

et al., 2004 sur 26 pièces en plastique variant, visuellement, en couleur et en texture) ont montré que cette épreuve conduisait à des cartes sensorielles positionnant les produits de manière très proche de celle du profil conventionnel.

4.2 La distinction entre répétabilité et reproductibilité

Selon l’ISO (1994), la répétabilité (repeatability) est l’étroitesse de l’accord entre des mesures effectuées sur des prises multiples d’un échantillon homogène1 lorsque les essais sont faits par un même opérateur sur un même instrument avec une méthode unique et dans un délai court (au regard de la durée d’une mesure) alors que la reproductibilité (reproducibility) est l’étroitesse de l’accord entre des mesures effectuées sur des prises multiples d’un échantillon homogène lorsque les essais sont faits par plusieurs opérateurs, sur plusieurs instruments, avec des méthodes dif- férentes, à des moments différents [et] il suffit qu’une seule condition change pour que l’on passe d’une mesure de répétabilité à une mesure de reproductibilité. Dans le domaine sensoriel, il semblerait qu’on parle (plutôt) de répétabilité pour des éva- luations effectuées au cours de la même séance et (plutôt) de reproductibilité pour

1. En fait : la première partie de cette phrase : l’étroitesse de l’accord entre des mesures effectuées sur des prises multiples d’un échantillon homogène est la définition de la fidélité ; mais l’introduction de ce concept de fidélité est inutile dans le cadre de cet article.

(8)

© Lavoisier – La photocopie non autorisée est un délit

des évaluations effectuées au cours de séances éloignées de plusieurs mois.

L’étude de JOHNSEN et KELLY comportait quatre groupes de poissons ; comme les sujets ont évalué six échantillons par séance (voir § 2.1.2) et que le nombre de répé- titions par groupe de poissons était égal à six, il est probable que la validation a demandé quatre séances. Dans ces conditions, certaines répétitions ont été effec- tuées au cours de la même séance et d’autres au cours de séances différentes, de sorte que le facteur répétition recouvre, probablement, les deux concepts de répéta- bilité intra séance et inter séance.

4.3 Le modèle d’ANOVA à utiliser

Le modèle utilisé par JOHNSEN et KELLY était certainement moins simple que le modèle du § 3.4 avec seulement les facteurs produit, répétition et produit*répétition.

Il est probable qu’il ressemblait à celui de GUINARD et al. (1999) et intégrait le facteur sujet :

réponse = f (produit + répétition + sujet + sujet*répétition + produit*répétition + sujet*produit).

Dans ce modèle, cinq termes caractérisent la répétabilité :

1) le terme sujet (est-ce que tous les sujets donnent le même score moyen quand celui-ci est calculé tous produits et répétitions confondus ?) ;

2) le terme répétition (déjà présenté § 3.4) ;

3) le terme interaction sujet*répétition (est-ce que toutes les sommes des notes données à l’ensemble des produits par chaque sujet sont voisines pour cha- cune des répétitions ?) ;

4) le terme interaction produit*répétition (est-ce que la somme des notes attri- buées par tous les sujets à chacun des produits varie selon la répétition ?) et 5) le terme interaction sujet*produit (est-ce que les scores de chaque produit,

toutes répétitions confondues, varient avec les sujets ?).

L’utilisation du modèle précédent suppose que le praticien a décidé du statut qu’il attribue au facteur sujet (ISO 13 299, 2003) : le considère-t-il comme un facteur fixe ou comme un facteur aléatoire ? S’il le considère comme un facteur fixe, il éprouvera les facteurs sujet et répétition par rapport aux variations résiduelles alors que, s’il le considère comme un facteur aléatoire, il éprouvera le facteur répétition par rapport à l’interaction sujet*répétition et le facteur sujet au moyen d’un indice que les statisticiens appellent un quasi F. En revanche, quel que soit le statut du fac- teur sujet, les trois interactions produit*répétition, sujet*produit et sujet*répétition se testent de la même manière, à savoir par rapport aux variations résiduelles.

La discussion concernant le choix du statut du facteur sujet déborde le cadre de cet article (LUNDAHL et McDANIEL, 1988, NÆS et LANGSRUD, 1998). D’une manière extrêmement générale, il semble que, en 2005, la plupart des auteurs considèrent que le facteur sujet doit être considéré comme un facteur aléatoire sauf, précisé- ment, dans le domaine des comparaisons intra laboratoire. Considérer le sujet comme un facteur fixe signifie que, lorsque je travaille avec un groupe donné de s sujets à qui je demande d’évaluer r fois les mêmes produits, les questions de répéta- bilité et d’efficacité concernent mon seul groupe de s sujets. Considérer le sujet comme un facteur aléatoire signifie que mes sujets peuvent être considérés comme extraits d’une population fictive beaucoup plus large et que c’est cette population qui m’intéresse ; or cette seconde perspective peut sembler moins réaliste que la première.

(9)

© Lavoisier – La photocopie non autorisée est un délit

L’inconvénient du modèle de GUINARD et al. (1999) est le nombre élevé de ter- mes. Si l’on désire en retenir seulement deux, on privilégiera les termes produit (comment les produits sont-ils discriminés pour le descripteur considéré ?) et pro- duit*répétition (comment les produits sont-ils ordonnés entre eux quand le facteur répétition est pris en compte ?).

4.4 L’intervalle de confiance de chaque moyenne

Les métrologues travaillant en physique ou en chimie calculent une erreur théori- que. Dans le domaine de l’évaluation sensorielle, le fait que plusieurs sujets donnent une réponse permet de calculer un intervalle de confiance qui constitue un analogue expérimental de l’erreur théorique, à ceci près que seules les sources de variation liées au couple sujet-produit sont prises en compte et que d’autres sont ignorées (par exemple, les différences entre deux « préparations » du même produit quand les sujets évaluent un produit préparé une seule fois).

Dans le cas où la mesure est une moyenne, l’intervalle de confiance est calculé à partir de :

m ± t(1-α) * σr* /

n avec σr : écart type exprimant le défaut de répétabilité

m : moyenne obtenue pour le descripteur x et le produit y

(1-α) : niveau de confiance choisi (généralement entre 0,90 et 0,99) t(1-α) : valeur du t de Student donnée par la table de Student pour le niveau de confiance choisi et le nombre de degrés de liberté avec lequel l’écart type de défaut de répétabilité est estimé.

La valeur de l’intervalle de confiance dépend donc de trois paramètres :

– du risque d’erreur que choisit le praticien : plus ce risque est élevé, plus l’inter- valle de confiance est faible ;

– du nombre d’observations n sur lequel la moyenne est calculée : plus le nom- bre d’observations est grand, plus l’intervalle est faible ;

– du défaut de « répétabilité » σr des sujets constituant le groupe : plus la répé- tabilité est bonne, plus l’intervalle est faible.

Quand l’essai porte sur un seul produit, le défaut de répétabilité est donné par l’écart type des observations obtenues pour ce produit. Quand l’essai porte sur dif- férents produits et que les résultats sont interprétés au moyen d’une ANOVA à un facteur, le défaut de répétabilité est donné par la racine carrée du Carré Moyen des Écarts (CME) de la ligne « Variations Résiduelles » puisque l’une des conditions de validité de l’ANOVA est l’homoscédasticité des notes (la dispersion des notes dans chacune des populations d’où proviennent les échantillons est homogène).

Mais quand l’essai porte sur différents produits et que d’autres facteurs que le facteur produit peuvent expliquer les différences entre les moyennes des réponses, cette pratique est correcte seulement si le CME du facteur produit est testé contre les Variations Résiduelles. Si le CME est testé contre l’interaction Produit*Sujet, il faut utiliser l’interaction comme valeur de σr (avec un nombre de degrés de liberté égal à celui utilisé pour calculer l’interaction produit*sujet) ; sinon le calcul de l’inter- valle de confiance ne sera pas en accord avec celui adopté pour déterminer s’il existe des différences significatives entre les moyennes. Peut-être conviendrait-il d’ailleurs de calculer, plutôt que l’intervalle de confiance d’une moyenne, l’intervalle de confiance de la différence entre deux moyennes qui, comme le souligne DAGNÉ-

(10)

© Lavoisier – La photocopie non autorisée est un délit LIE, 1998, p. 359), doit toujours être calculé au moyen du terme qui a servi à éprou- ver le facteur produit, à savoir, dans ce cas, l’interaction sujet*produit, soit :

m1- m2 ± t(1-α) * [CME interaction / (n1 + n2)1/2

avec n1 etn2 : nombre d’observations à partir duquel les moyennes m1et m2 sont calculées (généralement n1 = n2).

4.5 Le concept de « bon groupe »

4.5.1 Un « bon groupe » est-il un groupe formé de « bons sujets » ?

La réponse semble triviale : un groupe formé de sujets validés est un groupe validé ; un groupe formé de sujets non validés n’est pas un groupe validé. Mais cette réponse est peut-être trop rapide : elle fait l’économie d’une réflexion sur ce qu’attend celui qui « achète » un travail de groupe. Pour un acheteur (un client), « un bon groupe » est un groupe capable, pour la série des produits qui l’intéresse, à la fois de traduire les différences sensorielles existant entre produits sous la forme de descripteurs quantifiés et de répéter, aux erreurs expérimentales près, cette traduc- tion quand les mêmes produits lui sont à nouveau présentés. Ce point de vue a été, notamment, défendu par McEVAN (2000, 2001) dans l’introduction de deux docu- ments consacrés à la détermination d’un score de performance pour un groupe : Il est très clair que, dans les projets de recherche comme dans les projets commer- ciaux, c’est le résultat du groupe qui est utilisé pour prendre les décisions concer- nant les échantillons qui ont été évalués. L’objectif d’un test de compétence est donc de mesurer la performance d’un groupe, non pas de mesurer celle des sujets participant à ce groupe.

4.5.2 Faut-il tenir compte des différences entre sujets ?

La citation précédente se poursuit ainsi : Si des sujets individuels ont de piètres performances, alors leurs données abaisseront la performance globale et le groupe ne montrera pas de bonnes performances. L’opinion de McEVAN ne signifie donc pas que les différences entre sujets ne sont pas intéressantes à connaître, mais seu- lement (et avant tout) que l’analyse ne doit pas se borner à cet examen puisque les décisions seront prises au niveau du groupe. Bien plus, elle souligne que les diffé- rences entre les réponses des sujets constituent une donnée normale, qui légitime l’outil groupe : si tous les sujets donnaient la même note, l’outil groupe serait inutile.

La figure 1, empruntée à BROCKHOFF (2003), rappelle que les différences entre les notes attribuées à trois produits A, B et C par deux sujets 1 et 2 peuvent provenir de différences dans :

– la zone de l’échelle utilisée pour noter les produits (level) ;

– l’étendue des différences indiquées entre les trois produits (scaling) ; – la position respective des trois produits (disagreement) ;

– la note attribuée à un même produit (en l’occurrence A) quand celui-ci est noté plusieurs fois (variability).

Des moyens existent pour limiter l’influence de ces sources de biais. Par exem- ple, le centrage de la moyenne générale des valeurs de chaque sujet sur la moyenne générale du groupe permet, non seulement de supprimer la source de variation que BROCKOFF appelle level, mais aussi, souvent, de diminuer le F attaché à l’interaction produit*sujet. Par exemple encore, une ANOVA à 2 facteurs (les facteurs produit et

(11)

© Lavoisier – La photocopie non autorisée est un délit

sujet) permet à la fois d’éliminer des Variations Résiduelles les différences entre les sommes des notes des sujets et d’éprouver le facteur produit par rapport aux inter- actions produit*sujet en cherchant à répondre à la question : les différences moyen- nes entre produits sont-elles plus élevées que les désaccords entre sujets ? Toutefois, ces moyens ne sont pas totalement satisfaisants. Par exemple, l’interac- tion sujet*produit est souvent considérée comme une « bonne » estimation du terme disagreement. Mais pour BROCKOFF, cette estimation est discutable : en effet, l’inter- action sujet*produit est parasitée par les effets de la source scaling. Malheureuse- ment, l’estimation indépendante des deux sources de variation disagreement et scaling est malaisée. DIJKSTERHUIs (1995) a proposé un autre indice pour évaluer l’homogénéité des réponses des sujets : l’indice de consonance. Cet indice est obtenu au moyen d’une Analyse en Composantes Principales (ou ACP) calculée sur une matrice comportant les produits en lignes et les sujets en colonnes ; il est égal au rapport entre l’inertie expliquée par la première composante d’une ACP et l’inertie inexpliquée par cette composante. Il repose sur l’idée que, plus l’accord entre les sujets est élevé, plus l’inertie expliquée par la première composante principale est élevée ; si donc les sujets sont en désaccord, les autres composantes porteront encore une valeur non négligeable de l’inertie, ce qui diminuera la valeur de l’indice de consonance.

Toutefois cet indice est parfois trompeur : en effet, sa valeur peut être élevée quand il existe, dans le groupe, deux sous-groupes de sujets qui sont en opposition.

Il convient donc de vérifier l’absence de ce phénomène, par exemple au moyen du cercle de corrélation d’une ACP (§ 4.6.4), lorsque l’indice de consonance est élevé.

1. Level

Assessor 1 A B C

A

A A A A A A

B C A CB

A B C

A B C A B C

Assessor 2

2. Scaling

3. Disagreement

4. Variability

Figure 1

Les sources de différences entre deux sujets 1 et 2 selon BROCKHOFF, 2003.

The four basic assessor differences for a single attribute.

By disagreement we mean all interaction effect not attributable to scaling differences (BROCKHOFF, 2003).

Le sujet 2 donne des notes plus élevées que le sujet 1 (level) ; il espace moins les produits (scaling) ;

il ordonne différemment les produits B et C (disagreement) ; il donne des notes plus divergentes lors des trois répétitions de A (variability).

Brockhoff indique sous la figure : Par disagreement, nous entendons toutes les interactions qui ne sont pas attribuables à des différences d’échelle.

(12)

© Lavoisier – La photocopie non autorisée est un délit

4.5.3 Faut-il éliminer les sujets extrêmes ?

Quand on valide une méthode de mesure par une comparaison inter laboratoi- res, il est classique, en métrologie instrumentale, de rechercher, parmi les résultats fournis, les valeurs extrêmes (outliers ou encore valeurs aberrantes en français) et de se demander s’il ne faut pas les éliminer pour obtenir une meilleure estimation de la méthode. Faut-il adopter la même attitude dans le domaine sensoriel en considérant que chaque sujet est l’équivalent d’un laboratoire ? Quand la mesure sensorielle est formée d’une seule note, on peut comprendre qu’un sujet soit éliminé au vu de ses résultats. C’est dans cette situation que se place SMITH (1988) quand il reconnaît que l’élimination de données est une opération légitime à condition qu’elle s’appuie sur des règles transparentes et qu’elle soit consignée dans le rapport. Un exemple de cette situation est offert par l’attribution d’un signe de qualité à des huiles d’olive (ALBI et GUTIÉREZ, 1991).

Dans le cas du profil conventionnel, la réponse est moins assurée. Certes, BRIEN

et al. (1987) ont écrit : Il est recommandé que, lorsque des juges sont non répétables et non discriminants, ceux-ci soient ignorés dans les conclusions tirées de l’expérience ; mais, en 1994, SCHLICH semblait (plutôt) répondre par la négative puisqu’il excluait cette pratique de GRAPES, une méthode permettant d’analyser systématiquement les résultats de chacun des sujets dans une étude de profil : Bien que ce problème de la détection des extrêmes soit fondamental, il est au-delà de la portée de GRAPES qui est [essentiellement] un outil descriptif exploratoire développé pour économiser du temps à l’animateur d’un panel quand il évalue les performances d’un sujet. Toutefois, il semble que SCHLICH réponde (plutôt) positivement en 1997 lors de la présentation de la méthode CAP, plus rapide et plus synthétique que GRA- PES du fait que l’évaluation de la performance d’un sujet se limite à deux critères : le pouvoir discriminant du sujet et l’accord avec le groupe. Il écrivait en effet : La réelle innovation est le test statistique du désaccord d’un sujet fondé sur les contrastes en analyse de la variance […] déjà présent dans les travaux de LUNDAHL et MAC DANIEL, 1990 et 1991, […] mais sous une manière quelque peu trop ardue [de sorte que] ces travaux n’ont pas réussi à modifier les pratiques courantes de l’analyse sensorielle. Or pourquoi proposer un test de significativité concernant le désaccord entre les sujets sinon pour offrir un outil permettant d’éliminer des calculs ultérieurs un ou plusieurs sujet(s) ? La perspective de BI (2003) est à rapprocher de celle de SCHLICH (1997). En effet, dans le cas où chaque sujet effectue r répétitions, BI propose de calculer deux indices dont la plage de variation est 0-1 et qui peuvent être éprouvés par rapport à 0 sur le plan statistique (donc susceptibles d’être utilisés pour éliminer un sujet). Le premier indice est appelé reliability (il correspond au pouvoir discriminant du sujet) et l’autre agreement (il correspond, non pas à l’accord du sujet avec les autres mem- bres du groupe, mais à la répétabilité du sujet). Une représentation graphique, par sujet, de l’indice reliability en fonction de l’indice agreement permet de visualiser les sujets peu discriminants et peu répétables pour un descripteur donné.

4.6 Réfléchir sur le concept de « bon groupe travaillant en profil sensoriel »

Dans les paragraphes précédents, le raisonnement descripteur par descripteur a été privilégié, au risque d’oublier que le profil conventionnel est formé d’une série de descripteurs. Pour tenir compte de cette critique, POWERS (1984) a proposé une démarche en trois temps :

1) déterminer au moyen d’une ANOVA à 1 facteur si le sujet est discriminant à P = 0,50 pour chacun des descripteurs du profil ;

(13)

© Lavoisier – La photocopie non autorisée est un délit

2) faire la somme de tous les descripteurs pour lesquels le sujet est discriminant ;

3) comparer cette somme à une somme théorique obtenue dans l’hypothèse où la probabilité de chaque descripteur d’être discriminant est égale à 0,50 et retenir seulement les sujets dont la somme est égale ou supérieure à cette valeur. Par exemple, pour 16 descripteurs et un risque égal à 0,05, la somme critique est égale à 13.

Cette démarche a été adoptée par MALUNDO et RESURRECCION (1992) dans une étude sur deux succédanés de café différant par l’addition de lait. Mais elle est discutable ; elle repose en effet sur l’idée que les réponses données par un sujet aux différents descripteurs sont indépendantes ; or – et POWERS le reconnaît lui-même – cette idée est probablement erronée. De plus, l’hypothèse de fixer à 0,50 la probabi- lité, pour un descripteur, d’être discriminant est arbitraire. C’est pourquoi SHINHOL- SER et al. (1987) ont proposé une variante consistant à fixer à 0,05 la probabilité pour qu’un descripteur soit déclaré significativement discriminant et à éprouver si le nom- bre de descripteurs significatifs d’un sujet est supérieur à 0 (également pour un ris- que α égal à 0,05).

Mais une autre critique peut être portée à l’encontre de ces démarches : le profil sensoriel est davantage qu’une succession de descripteurs judicieusement position- nés sur les deux dimensions d’une figure plane. De même que le groupe ne peut pas être considéré comme une simple juxtaposition de sujets, de même le profil n’est pas une simple juxtaposition de descripteurs. Son traitement relève donc, non seulement d’une approche univariée effectuée descripteur par descripteur, mais également d’une approche multivariée prenant en compte, simultanément, tous les descripteurs. Différentes techniques ont été développées avec, toujours, comme premier objectif, d’évaluer les différences entre produits au niveau du groupe de sujets, mais avec, parfois également, comme deuxième objectif, d’évaluer les diffé- rences entre sujets.

4.6.1 La Manova

Dans la procédure CAP mentionnée § 4.5.3, SCHLICH (1997) a introduit deux ana- lyses multivariées. La première est une analyse multivariée de la variance ou MANOVA ; elle permet de calculer, pour un sujet ou pour un groupe, un indice ana- logue au Fproduit (et au Finteraction produit*sujet), qui prend en compte tous les descrip- teurs. Cet indice est appelé lambda de Wilks. Un exemple est donné par WU et al.

(1977) dans une étude sur des vins. Toutefois, la MANOVA présente une contrainte comme le soulignent POWERS et WARE (1986) : pour que l’analyse soit possible, le nombre d’observations (les lignes) doit être supérieur au nombre de descripteurs (les colonnes). Or cette condition n’est pas toujours remplie.

4.6.2 L’Analyse Canonique Discriminante (ou ACD)

L’objectif de l’ACD, une variante de l’Analyse Discriminante (POWERS et WARE, 1986), est de trouver un espace de faible dimension dans lequel les produits sont répartis en k classes satisfaisant à la condition suivante : la dispersion des points moyens des classes doit être maximale et la dispersion des points d’une même classe doit être minimale. Elle fournit une estimation des distances entre les classes (ici les produits) ainsi que la probabilité attachée à chaque distance estimée. De plus, la localisation géométrique des moyennes pour chaque produit peut être tracée pour permettre la visualisation de la proximité ou de l’éloignement des groupes. Si, plutôt que les positions des moyennes, on préfère indiquer les positions des points répéti-

(14)

© Lavoisier – La photocopie non autorisée est un délit

tions, le chevauchement entre produits pourra être visualisé (POWERS et WARE, 1986) comme dans l’exemple donné figure 2. Dans la pratique, l’ACD tend à favoriser les descripteurs bons discriminateurs au détriment des descripteurs bons descripteurs.

De plus, l’ACD est généralement précédée d’une étape de sélection des descrip- teurs afin d’éliminer de la liste ceux qui, à cause de leurs corrélations avec d’autres descripteurs, apportent peu d’information. Cette étape est effectuée au moyen d’une analyse appelée Analyse Discriminante Pas à Pas, programmée généralement dans le sens ascendant : on commence par déterminer le descripteur qui discrimine le mieux les produits ; on détermine ensuite le second descripteur qui, associé au premier descripteur retenu, discrimine le mieux les produits, et ainsi de suite. Avec cette sélection, on a observé que l’ACD conduisait à un nombre de produits, correc- tement affectés à leur groupe d’origine, plus élevé que lorsque l’analyse était effec- tuée sur la liste entière de descripteurs (POWERS et WARE, 1986). Des considérations théoriques, fondées sur l’existence d’une quasi-colinéarité entre descripteurs sont venues étayer cette observation.

Dans CAP, l’ACD est la deuxième procédure multivariée proposée par SCHLICH

sous le sigle CVA (Canonical Variables Analysis) : elle est effectuée sujet par sujet dans le but de déterminer le nombre de dimensions orthogonales (donc non corrélées) qui permettent de séparer au mieux les produits. Plus le nombre de dimensions est élevé, plus le sujet est considéré comme « se déplaçant » dans un système riche de repé- rage perceptif. Seules sont comptabilisées les dimensions significatives, c’est-à-dire les dimensions pour lesquelles une MANOVA à un facteur conduit à des différences significatives entre les k groupes de produits. Récemment, MONROZIER (2002) a pro- posé une combinaison entre l’ACD et une autre technique : l’AFM (voir II, § 3.4.3.3).

4.6.3 La Classification Hiérarchique

La Classification Hiérarchique est une troisième méthode multivariée classique de l’évaluation sensorielle. Elle permet d’étudier les différences entre produits, mais également l’homogénéité d’un groupe en mettant en évidence l’existence de sujets extrêmes. Un exemple en est donné figure 3, emprunté à KING et al. (2001). La matrice soumise à l’analyse est constituée des moyennes des deux répétitions cal- culées pour chaque descripteur (24 descripteurs) et chaque vin. Les juges étaient

1

Canonical variable 1

Canonical variable 2

6

5

– 3.6 2 1 0 – 1 – 2 – 3 3

– 2.4 – 1.2 0 1.2 2.4 3.6 4.8 2

3 4

Figure 2

Position de six fromages au bleu obtenue par une Analyse Canonique Discriminante (POWERS et WARE, 1986).

Geometric representation of the six blue-cheese products based on canonical discriminant analysis.

(15)

© Lavoisier – La photocopie non autorisée est un délit

des fabricants de vin, des consultants et des employés du ministère de l’Agriculture du Canada. Ils avaient tous une grande connaissance des vins et avaient suivi diffé- rents programmes de formation. La figure 3 montre nettement la présence de deux juges déviants par rapport aux autres : les juges 4 et 6. DAHL et NAES (2004) ont comparé différentes méthodes de classification pour rechercher la présence de sujets extrêmes dans le cas où les données analysées ne sont pas les données bru- tes, mais les configurations de chaque sujet obtenues par APG (technique présen- tée en II, 3.4.3.1).

4.6.4 L’Analyse en Composantes Principales (ou ACP)

Cette technique, très largement utilisée, est une technique omnibus dans le sens où elle permet de répondre à différentes questions, comme les trains qui, jadis, s’arrêtaient aux différentes gares qu’ils traversaient. On a déjà vu qu’elle pouvait être utilisée pour calculer un indice de consonance pour chaque descripteur (§ 4.5.2).

Dans le cas d’une analyse intégrant tous les descripteurs, elle permet :

– de mettre en évidence les sujets « extrêmes » ; la matrice traitée comporte, en lignes, les couples produit – descripteur et, en colonnes, les sujets. Un groupe homogène conduit, sur le plan formé par les deux premières composantes prin- cipales, à une répartition des sujets aléatoire à l’œil. S’il existe des sujets

« extrêmes », ceux-ci apparaissent dans une (ou plusieurs) région(s) distincte(s) du plan. Des raffinements à cette méthode de base ont été proposés ; ainsi, SCAMAN et al. (2001) ont utilisé une variante (connue sous le nom de Principal Component Similarity) pour étudier, sur des vins, si un groupe formé de cinq juges possédant une expérience de jurys nationaux et internationaux et de sept juges ayant seulement suivi un entraînement en vue de participer à des jurys nationaux était un groupe homogène. Les résultats de la figure 4 montrent : 1) que les deux sous-groupes sont différents,

1 1.3 1.2 1.1 1 0,9 0,8 0,7

0,6 3

Judge number

Average Distance Between Clusters

2 9 7 8 5 10 4 6

Figure 3

Classification Hiérarchique appliquée à des données de profil conventionnel obtenues sur 25 vins (cépage Merlot) montrant la présence, au sein du groupe,

de deux sujets « déviants » : les sujets 4 et 6 (KING et al., 2001).

Cluster analysis performed on the 10 judges assessors in the experiment on 25 Merlot wines.

(16)

© Lavoisier – La photocopie non autorisée est un délit

2) que dans chaque sous-groupe, il existe un juge relevant de l’autre sous-groupe 3) et que deux juges sont déviants, étant plus proches l’un de l’autre qu’ils ne le sont des autres juges de leur sous-groupe ;

– d’examiner l’effet répétition (figure 5) ; la matrice comporte, en lignes, chaque couple produit-répétition et, en colonnes, les descripteurs. La construction d’une telle matrice est toujours possible dans les comparaisons intra groupe car les descripteurs utilisés sont identiques pour les différentes répétitions ; elle ne l’est pas toujours dans le cas des comparaisons inter groupes où les descripteurs utilisés peuvent différer selon les groupes (voir II, § 3.4.3) ; – d’étudier l’effet produit ; la matrice comporte, en lignes, les produits et, en

colonnes, les descripteurs. La position des différents produits évalués sur la carte factorielle, généralement limitée aux deux premières composantes princi- pales, permet d’avoir une idée synthétique du pouvoir discriminant du groupe.

De plus, cette position peut être expliquée par une confrontation entre cette carte et la carte des descripteurs, confrontation grandement facilitée dans l’approche biplot, due à GABRIEL (1971, 2003), qui permet une représentation, sur la même carte, des produits et des descripteurs. Récemment, HUSSON et al. (2004, 2005) ont proposé une méthode de ré-échantillonnage permettant de tracer, pour chaque produit, une ellipse de confiance.

Pour étudier l’effet répétition et l’effet produit, le praticien doit répondre à deux questions préalables : l’ACP doit-elle porter sur tous les descripteurs évalués ? L’ACP doit-elle être normée ?

0,7 1,4

14

12 15

W6 13 11 W7

W4

W3

W2 W1

W5 1,3

1,2 1,1 1,0 0,9 0,8

0,8 0,9 1,0 1,1

Figure 4

Analyse en Composantes Principales de Similarité portant sur 42 vins blancs évalués par un groupe formé de 5 juges « internationaux » (codés I1, I2, … I5)

et un groupe formé de 7 juges « entraînés » (codés W1, W2, ... W7) (SCAMAN et al., 2001).

Principal component similarity plot of white wine evaluations for international (I1 through I5) and winemaker (W1 through W7) judges, using international judge I1

as the reference: he has the coordinates (1,1).

Les deux groupes jugent de manière différente les vins puisque la figure montre que chacun des deux groupes issus de l’analyse est majoritairement composé de juges

appartenant à un des deux groupes initiaux. Toutefois, les groupes formés ne sont pas homogènes : les résultats du sujet I5 semblent provenir

du groupe « juges entraînés et ceux du sujet W6 du groupe « juges internationaux » ; de plus les deux sujets I4 et W7 n’appartiennent à aucun des deux groupes.

(17)

© Lavoisier – La photocopie non autorisée est un délit

L’ACP doit-elle porter sur tous les descripteurs évalués ? Cette question s’explique par une double crainte : 1) aboutir à des graphiques illisibles, 2) favoriser des interprétations erronées fondées sur des descripteurs peu efficaces. C’est pour- quoi le tableau soumis à l’ACP peut être réduit aux descripteurs les plus répétables ou aux descripteurs significatifs ou encore aux descripteurs qui contribuent de manière efficace aux différentes dimensions de l’Analyse Canonique Discriminante.

Mais l’élimination de descripteurs soulève des interrogations. Ainsi, PAGÈS et HUS- SON (2001) acceptent d’éliminer un descripteur au moyen d’une ANOVA, mais seule- ment pour un risque égal à 0,50. Il est certainement excessif d’utiliser un risque de 1re espèce égal à 0,05 : ce serait en effet en contradiction avec une approche multi- dimensionnelle. Mais une sélection semble naturelle si elle est appliquée avec une valeur élevée du risque de 1re espèce. Dans l’absence d’études systématiques, l’utili- sation d’une valeur égale à 0,50 peut être considérée comme une procédure empiri- que raisonnable en ce sens qu’elle n’éliminera pas des effets faibles qui peuvent être conservés dans une approche multidimensionnelle et qu’elle permettra cependant de déclarer que des descripteurs sont non discriminants. Le lecteur remarquera que cette attitude revient, implicitement, à prendre en compte le risque β de 2e espèce.

En effet, refuser de rejeter un descripteur, c’est reconnaître que ne pas avoir démon- tré qu’un descripteur était discriminant n’était pas du tout équivalent à avoir démon- tré que ce descripteur n’était pas discriminant.

L’ACP doit-elle être normée ou non normée ? Cette seconde question n’est pas étrangère à la première question, mais sa formulation est moins brutale. En effet, dans une ACP normée, le même poids est attribué à chacun des descripteurs alors que, dans une ACP non normée, le poids d’un descripteur est donné par la disper- sion observée entre les produits pour ce descripteur : plus un descripteur « sépare » les produits, plus son poids est élevé. Il semble que, depuis une dizaine d’années, une tendance lourde existe en faveur de l’ACP non normée. Par exemple BORGO- GNONE et al. (2001) écrivent : l’ACP non normée devrait être utilisée dans tous les cas où les échelles sensorielles sont les mêmes pour tous les attributs. Toutefois, l’ACP normée a encore ses partisans en 2005. PAGÈS et HUSSON (2001) expriment les ter-

15 10 5 PC 2 0

– 5 – 10

– 15– 30 – 20 – 10 0 PC 1

10 20 30

59 59

59

51 51

51

53

53 53

19 31

31 31

19 19

Figure 5

Projections, sur le premier plan factoriel d’une ACP,

des trois répétitions de cinq chocolats codés 19, 31, 51, 53 et 59 (RISVIK et al., 1992).

Sample space derived from Principal Component Analysis of the Norwegian profile data (with three replicates by chocolate).

(18)

© Lavoisier – La photocopie non autorisée est un délit

mes du problème ainsi : Les praticiens qui choisissent une ACP non normée mettent en avant le caractère étrange qui consisterait à utiliser de la même manière un des- cripteur très discriminant et un descripteur pour lequel les sujets ne font pas de diffé- rence entre les produits. [À l’inverse], ceux qui choisissent une ACP normée avancent que la variance d’un descripteur dépend de la difficulté de l’évaluer et que ne pas normaliser les descripteurs reviendrait à favoriser les descripteurs les plus faciles à évaluer, ce qui n’est pas désirable. Comme les arguments en faveur de ces deux points de vue sont à prendre [également] en considération, nous pensons qu’il n’est pas justifié d’exclure définitivement l’une ou l’autre de ces techniques.

4.7 Réfléchir sur le traitement de tableaux à trois dimensions

Les techniques multivariées présentées § 4.6 permettent de traiter des tableaux à deux dimensions. Or la matrice des données, obtenues à la fin d’une séance de profil sensoriel, possède trois dimensions : une dimension pour le facteur produit, une dimension pour le facteur descripteur et une dimension pour le facteur sujet. Si le facteur descripteur semble correctement pris en compte dans une ACP non nor- mée, il n’en est pas de même du facteur sujet qui est oublié puisque l’analyse est effectuée sur la moyenne calculée sur tous les sujets (après, éventuellement, élimi- nation des sujets extrêmes). Prendre en compte, en analyse multivariée, les différen- ces entre sujets revient, dans les faits, à affecter un poids propre à chaque sujet dans la construction de la carte des variables et des produits. Différentes techniques ont été proposées, dont la technique STATIS due à L’HERMIERDES PLANTES (1976).

STATIS commence par calculer un coefficient appelé RV entre tous les sujets pris 2 à 2. Ce coefficient est une généralisation du coefficient de corrélation linéaire pour une situation où il existe plus d’un item évalué. Sa plage de variation va de 0 à + 1 et le nombre de coefficients RV à calculer, pour n sujets, est égal à n (n-1)/2. Ce calcul conduit à une matrice carrée (de dimensions n) et symétrique. Dans un deuxième temps, STATIS extrait le premier vecteur propre de cette matrice ; ce vec- teur exprime la plus forte dimension structurante de cette matrice et ses valeurs donnent le poids à attribuer à chaque sujet (le poids d’un sujet i est égal à la ième valeur du 1er vecteur propre). Dans un troisième temps, un tableau compromis est calculé en affectant, à chaque tableau individuel, le poids donné par l’étape pré- cédente. Enfin, dans un quatrième temps, le tableau compromis est soumis à une ACP. Les deux premiers axes de cette ACP donnent une configuration compromis des produits, parfois qualifiée de configuration majoritaire [en ce sens] que le prin- cipe de la pondération adoptée consiste à attribuer un poids relativement faible aux juges qui sont en désaccord avec le point de vue général du jury (COURCOUX et QAN- NARI, 2002) et un poids relativement élevé aux juges qui sont en accord avec le point de vue général du jury.

Cette technique est évidemment très séduisante : elle permet de surmonter de façon élégante la question de l’élimination des sujets « extrêmes ». Dans l’exemple traité par COURCOUX et QANNARI (2002) et emprunté à une étude sur huit yaourts effectuée par DIJKSTERHUIS et GOWER (1991), le poids des sept juges est compris entre 0,910 pour le juge le plus en désaccord avec la moyenne des juges et 1,449 pour le juge le plus en accord avec la moyenne des juges. Mais, indépendamment de son postulat de base concernant la pondération et la manière de la calculer, la technique est discutée au niveau de ses résultats : il semble qu’il existe un risque de sur ajustement, c’est-à-dire d’obtenir, au niveau de l’ACP finale, un nombre trop élevé de dimensions nécessaires pour expliquer les différences entre produits. C’est ce qui explique que STATIS est encore l’objet de travaux (par exemple, KUNERT et QANNARI, 1999 ou MEYNERS, 2003). Par ailleurs, une autre technique a été

(19)

© Lavoisier – La photocopie non autorisée est un délit

développée : l’Analyse Procrustéenne Généralisée (ou APG) ; elle sera présentée dans II, § 3.4.3.1. MEYNERS (2003) a comparé les deux techniques ; il conclut que, pour les données qu’il a analysées, le choix entre les deux méthodes est arbitraire.

5 – CONCLUSION

La comparaison intralaboratoire peut mettre en jeu des techniques très diverses.

Mais le lecteur ne doit pas oublier que, pour être valides, la plupart supposent que certaines conditions sont satisfaites. Par exemple, certains théoriciens émettent de sérieuses réserves sur le traitement des tableaux à 3 voies qui vient d’être évoqué.

Ainsi, pour LE CALVÉ (2000), rassembler toutes les tables [individuelles] en une seule table n’est pas acceptable :

1) les données sensorielles ne sont généralement pas des données d’intervalle, mais des données ordinales ;

2) la valeur moyenne d’une série d’opinions ne constitue pas nécessairement une opinion moyenne.

Cette position pourra sembler peu opératoire pour un praticien ; elle rappelle (uti- lement) que les calculs, fussent-ils complexes (et hermétiques), reposent toujours sur des modèles. Celles-ci sont souvent implicites ; elles doivent, à l’occasion, être explicitées et discutées pour être acceptées ou refusées. Cette donnée concerne aussi bien les comparaisons intralaboratoire que les comparaisons interlaboratoires qui seront abordées dans la partie II de cet article.

RÉFÉRENCES BIBLIOGRAPHIQUES

ALBI M.A., GUTIERREZ F., 1991. Study of the precision of analytical taste panel for sen- sory evaluation of virgin olive oil. Esta- blishment of criteria for the elimination of abnormal results. J. Sci. Food Agric., 54, 255-267.

APARICIO R., GUTIERREZ F., RODRIGUEZ J., 1991. A chemometrics study of analyti- cal panels in virgin olive oil. An approach for evaluating panels in training. Grasas y Aceites, 42, 202-210.

APARICIO R., MORALÈS M., 1995. Sensory wheels: a statistical technique for compa- ring QDA panels. Application to virgin olive oil. J. Sci. Food Agric., 67, 247-257.

BARCENAS P., PÉREZ ELORTONDO F.J., SALMERON J., ALBISU M., 2002. Sen- sory characterisation of ewe’s milk cheeses using direct and indirect similarity

measures: a comparison. J. Sci. Food Agric., 82, 435-442.

BI J., 2004. Agreement and reliability assess- ments for performance of sensory descrip- tive panel. J. Sensory Stud., 18, 61-76.

BORGOGNONE M.G., BUSSI J., HOUGH G., 2001. Principal component analysis in sensory analysis : covariance or correla- tion matrix? Food Qual. & Preference, 12, 323-326.

BROCKOFF P.B., 2003. Statistical testing of individual differences in sensory profiling.

Food Qual. & Preference, 14, 425-434.

BURKE S., Spooner M.J.R., Hegarty P.K., 1997.

Sensory testing of beers: an inter-laboratory sensory trial. J. Inst. Brew., 103, 15-19.

CARDINAL M., CORNET J., QANNARI A., QANNARI E.M., 1994. Performances d’un

(20)

© Lavoisier – La photocopie non autorisée est un délit

groupe d’évaluation sensorielle : exem- ples de traitement statistiques de don- nées. Sci. Aliments, 14, 251-263.

CHAUHAN J., HARPER R., 1986. Descriptive profiling versus direct similarity assess- ments of soft drinks. J. Food Technol., 21, 175-187.

CLAASSEN M., LAWLESS H.T., 1992. Com- parison of descriptive terminology sys- tems for sensory evaluation of fluid milk.

J. Food Sci., 57, 596 - 621.

CLAPPERTON J.F., PIGGOTT J.R., 1979. Fla- vour characterization by trained and untrained assessors. J. Inst. Brewing, 85, 275-277.

COURCOUX PH., QANNARI E.M., (2002).

Analyse sensorielle. In : DAUDIN J.J., DUBY C. (eds), Techniques mathémati- ques pour l’industrie agroalimentaire, 239- 261, Tec & Doc., Paris.

DAHL T., NAES T., 2004. Outlier and group detection in sensory panels using hierar- chical cluster analysis with the Procrustes distance. Food Qual. & Preference, 15, 195-208.

DAIROU V., SIEFFERMANN J.M., 2002. A comparison of 14 jams characterized by conventional profile and a quick original method, the flash profile. J. Food Sci., 67, 826-834.

DAGNÉLIE P., 1998. Statistique théorique et appliquée, tome 2. De Boeck & Larcier, Paris.

DELARUE J., SIFFERMAN J.M., 2004. Sen- sory mapping using Flash profile. Compa- rison with a conventional descriptive method for the evaluation of the flavour of fruit dairy products. Food Qual. & Prefe- rence, 15, 383-392.

DE WIJK R., VAN GEMERT L.J., TERPSTAR M., WILKINSON C.L., 2003. Texture of semi-solids; sensory and instrumental measurements on vanilla custard desserts.

Food Qual. & Preference, 14, 305-317.

DIJKSTERHUIS G., 1995. Assessing panel con- sonance. Food Qual. & Preference, 6, 7-14.

DIJKSTERHUIS G., GOWER J.C., 1991. The interpretation of generalised Procrustes analysis and allied methods. Food Qual. &

Preference, 3, 67-87.

ÉVRARD Y., PRAS B., ROUX E., 1997. Mar- ket. Etudes et recherches en marketing.

Nathan, Paris.

FAYE P., BRÉMAUD D., DURAND DAUBIN M., COURCOUX PH., GIBOREAU A., NICOD H., 2004. Perceptive free sorting and verbalization tasks with naive sub- jects: an alternative to descriptive map- pings. Food Qual. & Preference, 15, 781- 791.

FEINBERG M., 1996. La validation des métho- des d’analyse. Masson, Paris.

FUSELIER N., COULAIS T., DANZART M., 1993. Interchangeabilité des panels d’experts : utopie ou réalité ? Ann. Fals.

Experts Chimistes, 86, 311-326.

GABRIEL K.R., 1971. The biplot – graphical display of matrices with application to principal component analysis. Biometrika, 58, 453-467.

GABRIEL K.R., 2003. The biplot – outil d’exploration des données multidimen- sionnelles. J. Soc. Fr. Stat., 143 (N° 3-4), 5-55.

GIBOREAU A., DACREMONT C., 2004. Le profil sensoriel : les limites d’un savoir- faire empirique. Psych. Française, 44, 4, 69-78.

GONZALEZ R., BENEDITO J., CARCEL J.A., MULET A., 2001. Cheese hardness asses- sment by experts and untrained judges. J.

Sensory Stud., 16, 277-285.

GUERRERO L., GOU P., ARNAU J., 1997.

Descriptive analysis of toasted almonds: a comparison between expert and semi- trained assessors. J. Sensory Stud., 12, 39-54.

GUINARD J-X, YIP D., CUBERO E, MAZZUC- CHELLI R., 1999. Quality ratings by experts, and relation with descriptive ana- lysis ratings: a case study with beer. Food Qual. & Preference, 10, 59-61.

HEYMANN H., 1994. A comparison of des- criptive analysis of vanilla by two indepen- dently trained panels. J. Sensory Stud., 9, 21-31.

HOUGH G., BRATCHELL N., MACDOUGALL D.B., 1992. Sensory profiling of dulce de leche, a dairy based confectionary pro- duct. Food Qual. & Preference, 7, 157- 178.

HUNTER E.A., MCEVAN J.A., 1998. Evalua- tion of an international ring trial for sen- sory profiling of hard Cheese. Food Qual.

& Preference, 9, 343-354.

Références

Documents relatifs

Pour évaluer le niveau de risque perçu avant le choix de la stratégie d’implantation pour chaque cas étudié, nous avons lié le niveau de perception du risque à la diversité

Notre étude porte sur 16 636 personnes physiques 3 présentes en 2003 dans les ins- tances de pouvoir des 500 premiers groupes français et dans les 154 664 sociétés qui leur

Ainsi des mécanismes complexes sont pris en compte dans les phases de haut niveau de la conception de circuits et permettent d’envisager une implémentation efficace en termes

La première porte sur 57 articles sélectionnés et conclut à une absence de preuve de l’efficacité de la consommation de produits lai- tiers, et donc de calcium, sur la santé

Par exemple, en avril et en mai en Bretagne, les taux d’acide rumé- nique dans le beurre sont légèrement plus faibles que ceux trouvés dans la crème et le lait ; en juillet

The aim of this work was to determine the effect of fat content of extended shelf life refrigerated pasteurized fish on heat survival of some micro- bial groups

This work established the profile of caffeoylquinic, feruloylquinic and dicaf- feoylquinic acids in twenty different Brazilian herbal infusions using a reversed- phase high

Pour évaluer la présence des résidus de benzylpénicilline, antibiotique utilisé dans le traitement des mammites chez le bovin, une méthode d’analyse a été proposée pour