Article pp.557-575 du Vol.22 n°5 (2002)

(1)

Comparaison entre évaluations sensorielles descriptives fournies par des jurys entraînés

et un jury non entraîné : méthodologie et résultats

Jérôme PAGÈS

SUMMARY Comparaison between sensory profiles provided by trained and untrained panels: methodology and results.

Obtaining sensory profiles classically implies a long training for the subjects.

For obvious economic reasons, it is often necessary to reduce this time of training. But what can one await from sensory evaluations provided by an untrained panel? The answer given brought here is based on a large set of data: a same range of six chocolates was evaluated on one hand by six traditionally trained panels and, on the other hand, by a panel having undergone only one training session. It is thus possible to locate this panel inside the variability of the trained panels. In this study, the training has appreciably improved the repeatability of the subjects but, due to its two times higher number of subjects, the untrained panel has a discriminating power comparable with the one of the traditional panel. In the comparison of the profiles provided by these panels, multiple factor analysis provides graphs illustrating, within a single fra- mework, convergences and divergences between panels, from the point of view of products evaluation and from the point of view of descriptors use.

Key-words: sensory analysis, sensory profile, training of subject, factor ana- lyzes multiple, chocolate.

RÉSUMÉ

L’obtention de profils sensoriels implique classiquement un long entraînement des sujets. Pour des raisons économiques évidentes, il est souvent nécessaire de réduire ce temps d’entraînement. Mais que peut-on attendre des évalua- tions sensorielles fournies par un jury non entraîné ? L’élément de réponse apporté ici s’appuie sur une gamme de six chocolats, évaluée d’un côté par six jurys entraînés et de l’autre par un jury n’ayant subi qu’une seule séance d’en- traînement. Il est ainsi possible de situer ce jury par rapport à la variabilité des jurys entraînés. Dans cette étude, l’entraînement a amélioré sensiblement la répétabilité des sujets ; mais, du fait d’un nombre de sujets deux fois plus

Laboratoire de mathématiques appliquées, École nationale supérieure agronomique de Rennes, 65, rue de Saint-Brieuc, CS 84215, 35042 Rennes cedex, France.

Correspondance

[email protected]

©Lavoisier – La photocopie non autorisée est un délit

(2)

élevé, le jury non entraîné a un pouvoir discriminant comparable à celui d’un jury entraîné. Dans la comparaison des profils fournis par ces jurys, l’analyse factorielle multiple fournit des graphiques de synthèse illustrant, dans un cadre unique, les convergences et les divergences entre jurys du point de vue de l’évaluation des produits et de l’utilisation des descripteurs.

Mots clés : analyse sensorielle, profil sensoriel, entraînement de jury, analyse factorielle multiple, chocolat.

1 – INTRODUCTION

Classiquement, il est recommandé de ne faire réaliser les évaluations sensorielles descriptives que par un jury bien entraîné. Pour fixer les idées, le nombre de séances d’entraînement couramment préconisé varie entre 10 et 20 (Actia, 1999 ; SSHA, 1998, p. 66). Un tel entraînement est coûteux et ne peut être amorti que si un grand nombre de dégustations de la même gamme de produits est prévu. Cette condition est remplie chez bon nombre d’industriels. À côté de cette situation favorable, le besoin est fréquemment ressenti de former un jury pour une seule évaluation. Ce cas se rencontre en premier lieu chez les presta- taires de services, mais aussi dans des unités de production qui travaillent pour la grande distribution et fabriquent, au sein d’une même famille, des produits suffisamment différents pour que leur évaluation sensorielle nécessite un entraî- nement spécifique. Il est alors tentant de réduire le temps d’entraînement.

Dans cet esprit, on peut s’orienter vers le profil libre (WILLIAMSet LANGRON, 1984 ; ISSANCHOU et al., 1992 ; DELAHUNTY et al., 1997) en particulier sa variante, le profil flash (SIEFFERMAN, 2001 ; DAIROUet SIEFFERMAN, 2002). Mais les difficultés d’analyse de ces derniers incitent à recourir au profil classique lorsque cela est possible. La question est alors : quelle valeur accorder à des profils fournis par des jurys, dits ici « non entraînés », ayant subi une seule séance d’entraînement ?

Une première démarche consiste à analyser des profils fournis par de tels jurys en fonction de critères de performance (pour une application des concepts de métrologie à l’analyse sensorielle, cf. SAUVAGEOT, 1982 ; pour une approche intégrée de critères de performance, cf. SCHLICH, 1994) soit essentiellement : consensus, discrimination, répétabilité et reproductibilité. Il s’agit en quelque sorte d’une validation interne du jury non entraîné, dont un exemple se trouve dans HUSSON et al. (2001). Cette validation interne est nécessaire mais se heurte à la difficulté d’évaluer « dans l’absolu » les indicateurs de performance calculés. Une autre voie consiste à comparer des profils recueillis parallèlement à partir de jurys classiques et de jurys non entraînés (CLAPPERTON et PIGOTT, 1979). Cette épreuve de validation externe présente l’avantage d’inclure des références auxquelles comparer les résultats du jury non entraîné. En termes de métrologie, le jury étant vu comme un instrument de mesure, considérer les évaluations du jury entraîné comme des valeurs vraies permet d’envisager d’ap- précier la justesse, voire l’exactitude, du jury étudié. C’est l’optique choisie ici.

Le jury non entraîné utilisé ici est un jury d’étudiants en agroalimentaire. Les jurys d’étudiants sont fréquemment mobilisés, en particulier dans des publica- ©Lavoisier – La photocopie non autorisée est un délit

(3)

tions scientifiques réalisées par des universitaires. En outre, un tel jury présente des caractéristiques intéressantes : une aisance pour remplir un questionnaire, une motivation pour l’analyse de produits alimentaires et de bonnes aptitudes sensorielles généralement constatées. Enfin, la partie « formation théorique » que doit comporter un entraînement (SSHA, 1998) est d’emblée acquise avec ce type de jury.

2 – DONNÉES

Les données utilisées ici ont été recueillies initialement dans la perspective d’une comparaison entre jurys entraînés, action de recherche réalisée à l’initia- tive de l’Actia (Association de coordination technique pour l’industrie agroalimentaire) (PAGÈS, 2000 ; PAGÈSet HUSSON, 2001). Elles se rapportent à une gamme de six chocolats du marché (tableau 1), analysés sensoriellement selon le même protocole par six laboratoires membres du réseau Actia. Selon ce protocole, établi par les laboratoires :

– chaque laboratoire entraîne son jury au cours de dix séances sur une liste commune de 14 descripteurs ; chaque jury comporte entre 11 et 15 sujets ; l’ensemble totalise 79 sujets ;

– dans un premier temps, des descripteurs ont été générés parallèlement par les différents jurys ; l’établissement de la liste commune a été réalisé ensuite par les animateurs au cours d’une séance de synthèse ;

– les évaluations proprement dites comportent trois séances au cours des- quelles chaque sujet évalue chaque produit ; les ordres de présentation des produits sont établis à partir de carrés latins équilibrés pour les voisinages (MAC FIEet al., 1989) ;

– les évaluations sont faites à l’aide d’une échelle de notation allant de 0 à 10 ; – les produits ont été présentés sous forme de plaquettes anonymes.

Tableau 1

Produits analysés et principales variables de composition Table 1

Analyzed products and main composition variables

Nom commercial Cacao (%) M.G. (%) Saccharose (%) Cacao (%) + Saccharose ( %)

Excellence Noir 70 42 27 97

Qualité amère 60 34 38 98

Mi-doux 45 35 40 85

Amazonie 62 38 36 98

Pâtissier 61 40 37 98

Extra Supérieur 50 34 47 97

(4)

L’analyse des résultats fournis par ces jurys entraînés a mis en évidence une grande convergence entre les profils sensoriels obtenus (PAGÈS et HUSSON, 2001). Aussi, est-il possible de considérer les six profils établis à partir de l’ensemble de ces laboratoires comme des profils de référence dont il convient de s’approcher le plus possible.

Parallèlement, un jury de 29 étudiants de l’INSFA (Institut national supérieur de formation agroalimentaire) a été entraîné en une seule séance : nous quali- fions par la suite ce jury de non entraîné, par opposition aux jurys entraînés. Ce jury a évalué les chocolats lors de deux séances. Les ordres de présentation des produits sont établis à partir de carrés latins équilibrés pour les voisinages (MAC FIEet al., 1989).

La caractéristique remarquable de ce corpus de données est que les profils de référence sont obtenus à partir de plusieurs jurys travaillant parallèlement.

L’ensemble des six profils établis par chacun de ces jurys donne une indication sur la variabilité, autour de la référence, à laquelle on peut s’attendre de la part d’un jury entraîné.

Deux fichiers de données ont été constitués :

– le fichier des notes individuelles, dans lequel chaque séance de chaque juge est représentée par six lignes (une par produit) ; chaque ligne comporte ses valeurs identificatrices (numéro du jury, du juge, de la séance et du produit) et les valeurs correspondantes pour tous les descripteurs ; – le fichier des moyennes comporte une ligne par produit ; chaque ligne

contient la moyenne des notes par descripteur et par jury ainsi que la moyenne de ces notes tous jurys entraînés confondus (figure 1).

Figure 1

Structure du fichier des moyennes par produit

Chaque sous-tableau contient les notes moyennes calculées pour chaque produit et chaque descripteur.

Structure of the file containing the averages per product Each sub-table contains the averaged scores per product and per descriptor.

L’analyse des six chocolats a révélé un produit très particulier : le mi-doux (P3) qui contient 15 % de lait. Les données ont donc été considérées successi- vement en incluant puis en éliminant ce produit. L’étude porte donc sur deux ensembles de données (6 chocolats ou 5 chocolats). Le premier ensemble correspond à une épreuve facile, l’un des produits étant très différent des autres.

Le deuxième ensemble correspond à une épreuve difficile : les cinq produits sont proches et, en plus, lors de l’évaluation, un produit très différent est placé parmi eux.

(5)

3 – MÉTHODOLOGIE

3.1 Approches par descripteur

3.1.1 Répétabilité et discrimination comparées du jury non entraîné et des jurys entraînés

Pour chaque descripteur et chaque jury, une analyse de variance est réalisée selon le modèle :

Note = sujet + produit + (sujet ×produit) + résidu

Dans ce modèle, le facteur sujet est considéré comme aléatoire (dans l’ana- lyse de variance, le test de l’effet produit est donc réalisé par rapport à l’interac- tion sujet × produit). Ce point fait souvent l’objet de discussions (NAES et LANGSRUD, 1998) ; dans cette étude, l’essentiel est d’utiliser le même modèle pour tous les jurys. Mentionnons que tous les calculs présentés, réalisés en considérant le facteur sujet comme fixe, ont conduit rigoureusement aux mêmes conclusions.

Cette analyse fournit deux critères de performance majeurs (LEA et al., 1995) :

– le pouvoir discriminant, mesuré au moyen du test F global de l’effet produit ;

– l’incertitude autour de chaque valeur, mesurée à l’aide de l’écart-type rési- duel. Cet écart-type sera interprété comme une mesure de répétabilité (Afnor, 1981).

Les degrés de liberté de la variance résiduelle variant d’une analyse à l’autre, les valeurs du test F ne peuvent être comparées directement. Il est nécessaire d’utiliser les probabilités critiques ou, ce qui est fait ici, le quantile correspondant associé à la loi normale centrée réduite, appelé valeur-test, s’inspirant en cela du logiciel SPAD. Par exemple : à la probabilité 0,05 correspond, dans le cas unilatéral qui est celui du test F, la valeur-test 1,65. Ces valeurs-tests per- mettent de calculer des indicateurs globaux, empiriques mais commodes. Ainsi, le pouvoir discriminant d’un jury pour l’ensemble des descripteurs pourra être apprécié à l’aide de la moyenne des valeurs-tests associées aux F des effets produits pour l’ensemble des descripteurs. Il est alors possible, dans une pre- mière approche, de comparer des jurys tous descripteurs confondus.

Pour un jury donné, le pouvoir discriminant a priori d’un descripteur dépend du nombre de données par produit soit :

– 39 = 13 juges (en moyenne) ×3 séances pour chaque jury entraîné ; – 58 = 29 juges ×2 séances pour le jury non entraîné.

Ainsi, du point de vue du nombre de données par produit, le jury non entraîné possède un avantage (50 % de données en plus) quant au pouvoir discriminant.

Ces analyses de variance ont été réalisées à l’aide du logiciel S+ (2000).

(6)

3.1.2 Accord global avec la référence sensorielle

La référence sensorielle est obtenue à partir de l’ensemble des données tous jurys entraînés confondus. L’accord entre un jury donné et la référence peut être mesuré, pour chaque descripteur, par le coefficient de corrélation entre les moyennes des notes affectées aux produits, par le jury donné d’une part (le jury non entraîné ou l’un des jurys entraînés) et par la référence d’autre part. Ces coefficients sont donc calculés entre les colonnes du tableau repré- senté figure 1. À l’aide de cet ensemble de coefficients de corrélation, il est possible de confronter, d’une part l’écart entre le jury non entraîné et la réfé- rence et, d’autre part, les écarts entre chacun des jurys entraînés et cette réfé- rence. Les coefficients de corrélation entre chaque jury entraîné et la référence seront résumés :

– par leur moyenne (les descripteurs pour lesquels le jury non entraîné s’écarte le plus de la référence sont-ils ceux pour lesquels les jurys entraî- nés eux-mêmes s’accordent le moins entre eux ?) ;

– par leur minimum (le jury non entraîné peut-il être inclus dans la variabilité des jurys entraînés ?).

Cette façon de procéder inclut un léger biais en faveur des jurys entraînés : chacun d’entre eux participe à l’établissement de la référence et se trouve de ce fait a priori plus proche de cette dernière que le jury non entraîné. En contrepartie de cet inconvénient, on dispose ainsi d’une référence fixe (on aurait pu comparer chaque jury entraîné à l’ensemble des autres jurys entraînés) et la plus solide possible (calculée avec toutes les données des jurys entraînés et rien qu’elles).

3.1.3 Comparaison entre les profils sensoriels des jurys et ceux de la référence Le profil sensoriel d’un produit peut être défini comme la liste des descripteurs pour lesquels ce produit s’écarte significativement de l’ensemble des autres produits avec lesquels il est évalué. Nous obtenons cette liste à partir du coefficient du produit considéré dans chacune des analyses de variance défi- nies § 3.1.1. Si ce coefficient est significatif (selon le test t usuel), le descripteur est inclus dans le profil du produit, avec prise en compte du signe du coefficient (si le coefficient est positif, le produit est caractérisé par de fortes valeurs pour le descripteur considéré).

La comparaison entre deux profils revient à comptabiliser la fréquence des cinq situations suivantes pour chaque produit (S = significatif ; R = référence).

1) Accord S : le même descripteur figure, avec le même signe, dans les deux profils.

2) Accord NS : le même descripteur ne figure dans aucun des deux profils.

3 et 4) Désaccord : le même descripteur figure dans un profil et ne figure pas dans l’autre ; lorsqu’un jury sert de référence pour évaluer l’autre, on distingue le cas (désaccord RS) où le descripteur figure dans le profil référence (le jury évalué n’a pas « perçu » une caractéristique d’un produit) de l’autre cas (désac- cord RNS : le jury a attribué « à tort » une caractéristique à un produit).

5) Fort désaccord : le même descripteur figure dans les deux profils mais en sens contraires (par exemple, le même produit a été perçu très acide par un jury et très peu acide par l’autre). ©Lavoisier – La photocopie non autorisée est un délit

(7)

Cette grille sera utilisée pour comparer les profils de chacun des jurys (entraînés et non entraînés) avec les profils de référence.

3.2 Synthèse multidimensionnelle

La synthèse d’une évaluation sensorielle est fréquemment réalisée à l’aide d’une analyse en composantes principales (ACP) sur le tableau produits×des- cripteurs contenant les moyennes des notes attribuées par le jury utilisé. Ce sont ces tableaux, pour chacun des jurys étudiés, qui sont juxtaposés figure 1.

Une comparaison globale des configurations des produits induites par deux jurys peut être faite à l’aide de l’indicateur RV (ESCOUFIER, 1973). Ce coefficient a déjà été utilisé en évaluation sensorielle (par exemple SCHLICH, 1992) ; sa valeur maximum, 1, est atteinte lorsque les deux configurations des produits sont homothétiques. Le coefficient RV donne une image optimiste des ressemblances entre configurations car il ne prend en compte que les distances entre produits sans se préoccuper de la façon dont les descripteurs interviennent dans ces distances (deux produits peuvent être également éloignés dans deux configurations mais du fait de descripteurs différents).

Une comparaison plus fine des images des produits, vus par le jury non entraîné d’une part et l’ensemble des jurys entraînés d’autre part, peut être obtenue par une analyse factorielle multiple (AFM ; ESCOFIER et PAGÈS 1988, 1998) sur le tableau de la figure 1, en introduisant les deux premiers sous- tableaux en tant que groupes de colonnes actifs et les sept derniers (six jurys entraînés auxquels s’ajoutent les données de composition) en illustratif. Les deux types de jury ont ainsi le même poids dans la construction des axes, mais les sujets entraînés apparaissent à la fois globalement et par jury. Cette analyse peut être envisagée selon plusieurs points de vue correspondant à différents aspects de l’AFM. Soit, mettre en évidence :

– une représentation des produits et des descripteurs en équilibrant l’in- fluence a priori des deux ensembles de données (aspect analyse facto- rielle) ;

– les facteurs communs aux deux groupes de descripteurs (aspect analyse canonique) ;

– une superposition des images des produits associées à chacun des deux ensembles de données (aspect analyse procustéenne).

Dans cette analyse, afin de leur accorder la même importance a priori, les colonnes sont centrées et réduites. Ce choix est le plus fréquent (BORGOGNONE, 2001) ; nous l’accompagnons d’une sélection des descripteurs (PAGÈSet HUS- SON, 2001) : seuls ceux dont la probabilité critique, associée au F de l’effet produit dans l’analyse de variance définie § 3.1.1, est inférieure à 0,50 sont conservés. Ce seuil élevé traduit la volonté de n’éliminer que les descripteurs que l’on peut considérer comme « certainement » non discriminants. Dans ces données, seul le descripteur granuleux pour le jury non entraîné a été écarté.

Enfin, il convient de ne pas oublier que, dans cette analyse, le nombre de variables (27 actives ; 114 en tout) est beaucoup plus élevé que celui des indivi- dus (6 ou 5). Mécaniquement, cette situation engendre des corrélations entre variables. Dans l’interprétation, il conviendra d’être prudent et de toujours vali- der par le sens les liaisons mises en évidence.

(8)

L’AFM a été réalisée à l’aide du logiciel SPAD (2000). Une description technique des tableaux issus de ce logiciel se trouve dans PAGÈS(1997).

4 – RÉSULTATS – DISCUSSION

4.1 Approches par descripteur

4.1.1 Performances comparées du jury non entraîné et des jurys entraînés

Tableau 2

Performances comparées des deux types de jurys Table 2

Compared performances of the two types of panels

Jury non entraîné Jurys entraînés

Critère Données Moyenne Minimum Maximum

Effet produit 6 chocolats 8,84 8,00 6,68 9,65

(valeur-test) 5 chocolats 3,43 3,24 1,95 3,85

Écart-type résiduel 6 chocolats 1,77 1,27 0,97 1,68

5 chocolats 1,81 1,29 1,02 1,73

Pour chaque critère (valeur-test associée au test F ou écart-type résiduel), on calcule la moyenne pour tous les descripteurs et en outre, pour les jurys entraînés, la moyenne, le minimum et le maximum des moyennes par jury.

For each criterion (test-value associated with the F test or residual standard deviation), we calculate the average for all the descriptors and moreover, for the trained panels, the average, the minimum and the maximum of the averages per jury.

Remarquons d’emblée que, lorsque l’on retire de l’analyse le chocolat mi- doux, très particulier dans la gamme des chocolats testés :

– les écart-types résiduels sont peu modifiés ; ils augmentent très légère- ment : la répétabilité est légèrement plus élevée pour le chocolat mi-doux que pour les autres chocolats ;

– les pouvoirs discriminants baissent très fortement ; dans le cas des six chocolats, la probabilité critique associée au test F global de l’effet produit est, tous descripteurs et tous jurys (entraînés ou non entraîné) confondus, toujours inférieure à 1 %. Dans les données restreintes à cinq chocolats, on obtient 18/84 tests non-significatifs pour les jurys entraînés et 5/14 tests non significatifs pour les jurys non entraînés. Ce résultat, attendu, tra- duit bien l’homogénéité de ces cinq chocolats par rapport au mi-doux.

La répétabilité du jury non entraîné, mesurée par la moyenne, pour tous les descripteurs, des écarts-types résiduels, est très sensiblement plus faible que la moyenne de celles des jurys entraînés. Cet effet de l’entraînement sur la répéta- ©Lavoisier – La photocopie non autorisée est un délit

(9)

bilité est classique (CLAPPERTONet PIGGOTT, 1979). Elle n’est toutefois pas très éloignée de celle du jury non entraîné le moins performant selon ce point de vue.

En revanche le pouvoir discriminant du jury non entraîné, mesuré à l’aide du test F global de l’effet produit, est du même ordre de grandeur que celui des jurys entraînés (il est même légèrement supérieur à leur moyenne). De façon très globale, ceci suggère que, pour le jury non entraîné, le plus grand nombre de données par chocolat a compensé la moindre répétabilité des sujets.

Dans les données réduites à cinq chocolats, cette équivalence globale des pouvoirs discriminants masque des disparités entre descripteurs (tableau 3), certains étant significatifs pour les deux types de jurys et d’autres non.

Tableau 3

Pouvoir discriminant par descripteur et par type de jury (5 chocolats) Table 3

Discriminating power by descriptor and by type of panel (5 chocolates)

Descripteur vt F Rang/7 vt F vt F vt F nb F n-S.

moyenne minimum maximum

01 Odeur cacao 1,29 5 2,02 0,81 3,69 3

02 Odeur lait 1,22 5 1,75 0,82 2,73 3

03 Saveur sucrée 5,83 5 6,05 4,96 6,60 0

04 Saveur acide 5,02 2 3,93 1,68 5,22 0

05 Saveur amère 6,52 2 5,85 4,08 7,32 0

06 Saveur cacao 5,26 3 4,43 2,73 5,67 0

07 Saveur lait 5,20 1 3,38 0,94 4,90 2

08 Saveur caramel 4,32 2 2,76 1,21 4,99 2

09 Saveur vanille 2,76 3 2,87 0,55 4,49 1

10 Saveur astringente 4,84 1 3,73 2,83 4,82 0

11 Texture croquante 4,74 1 2,70 1,73 3,38 1

12 Texture fondante 0,44 6 0,86 – 0,76 2,35 4

13 Texture collante 0,91 6 3,10 0,50 5,83 1

14 Texture granuleuse – 0,35 6 1,90 – 0,88 3,66 1

moyenne 3,43 4 3,24 1,95 3,85

Vt F : valeur-test associée au test F global de l’effet produit (seuil de signification au risque 5 % : 1,65).

Rang/7 : Rang du jury non entraîné parmi les 7 jurys (6 entraînés et 1 non entraîné) en ordonnant les Vt F de la plus grande (codée 1) à la plus petite (codée 7).

Nb F n-S : nombre de tests F non significatifs parmi les jurys entraînés.

Vt F: test-value associated to the F test of product effect (critical value at level 5% : 1.65).

Rang/7: order of the untrained panel among the 7 panels (6 trained and 1 untrained) in the decrea- sing sort of the Vt F (the maximum is coded 1).

Nb F n-S: number of not-significant F among trained panels.

• Globalement, le classement des descripteurs par pouvoir discriminant est le même pour les deux types de jurys. Les descripteurs d’odeur sont moins dis-

(10)

criminants que les descripteurs de saveur ; les descripteurs de texture ont un pouvoir discriminant étonnamment variable : élevé pour croquant, pratiquement nul pour fondant. Deux hypothèses, non exclusives, rendent compte de ce phé- nomène : les produits sont plus ou moins différents selon les dimensions sensorielles ; certains descripteurs sont plus difficiles à évaluer que d’autres (cas des odeurs comparées aux saveurs, par exemple).

• Le jury non entraîné a un pouvoir discriminant plus élevé que la moyenne des jurys entraînés pour les descripteurs ayant, pour les deux jurys, les pouvoirs discriminants les plus élevés ; l’inverse est observé pour les descripteurs globalement le moins discriminants. Une hypothèse est que, pour les descripteurs faciles à évaluer, l’effet de l’entraînement joue moins et le plus grand nombre de données par produit du jury non entraîné joue fortement dans la significativité du test F ; en revanche, pour les descripteurs les plus difficiles à évaluer, le manque d’entraînement est difficilement compensable par le nombre de sujets.

4.1.2 Écart à la référence

Pour chaque descripteur et chaque jury, on calcule le coefficient de corréla- tion entre ses notes moyennes par produit et celles de la référence. Les données

« Six chocolats » conduisent à des coefficients de corrélations toujours supérieurs à 0,95 : sur cette gamme « facile », le consensus entre tous les jurys, entraînés ou non entraîné est excellent. Ces résultats n’ont pas donné lieu à un graphique.

Pour les données restreintes à cinq chocolats, la corrélation entre le jury non entraîné et la référence est (cf. figure 2) :

– variable selon le descripteur ; toutefois la plupart des descripteurs (11 sur 14) présentent un coefficient de corrélation entre le jury non entraîné et la référence supérieur à 0,77 (S. vanille) ;

– presque toujours inférieure à la moyenne des corrélations relatives aux jurys entraînés et ce dans des proportions plus importantes que le biais inhérent à ce calcul ne le laisse attendre ; cela étant, l’allure allongée du nuage de points montre que les descripteurs pour lesquels le jury non entraîné s’écarte le plus de la référence sont ceux pour lesquels le consensus est le moins fort pour les jurys entraînés (exemple extrême : le fondant du chocolat) ;

– du même ordre de grandeur que la valeur minimum correspondante pour les jurys entraînés, sauf pour le descripteur collant (et à un moindre degré vanille) pour lequel le jury non entraîné est sensiblement plus éloigné de la référence que ne le sont les jurys entraînés ; selon ce point de vue, l’écart entre le jury non entraîné et la référence se situe globalement dans la plage de variabilité des jurys entraînés.

Dans l’ensemble, ces données sont en cohérence avec le pouvoir discriminant. Lorsque le jury non entraîné est discriminant, son évaluation ressemble à celle de la référence. A contrario, pour les descripteurs fondant, collant, et o. cacao, les évaluations du jury non entraîné remarquées comme non significa- tives ne sont pas ou peu apparentées à celles de la référence. L’exception notable concerne le caractère granuleux, dont les évaluations par le jury non entraîné sont très éloignées de la significativité et sont pourtant très corrélées à celle de la référence : seul le hasard (aidé par le faible nombre de produits : le seuil de signification est dans ce cas 0,88 pour un risque de 5 %) peut rendre compte d’une telle corrélation. ©Lavoisier – La photocopie non autorisée est un délit

(11)

4.1.3 Comparaison entre les profils sensoriels des jurys et ceux de la référence Pour ces deux ensembles de données, les profils ont été établis et compa- rés selon la procédure décrite § 3.1.3.

Signalons que, selon que l’on considère cinq ou six chocolats, un même produit peut avoir un profil très différent. Ainsi, du point de vue de l’odeur et de la saveur cacao, le produit 6 (extra supérieur) est perçu comme peu caractéris- tique si l’on considère les six produits et comme très caractéristique si l’on exclut le mi-doux (ce qui est en accord avec les compositions, cf. tableau 1).

Figure 2

Coefficients de corrélation entre notes moyennes affectées aux produits Les coefficients sont calculés entre chaque jury (entraîné ou non) et la référence. Les coefficients des jurys entraînés pour un même descripteur sont représentés par leur moyenne (à droite) ou leur minimum (à gauche). Par souci de lisibilité, certains descripteurs n’apparaissent que par leur numéro (cf. tableau 3).

Correlation coefficients between averaged scores given to the products Coefficients are calculated between each panel (trained or not) and the reference. The coefficients of the trained panels for a same descriptor are represented by their average or their minimum. Some descriptors appear only by their number (cf. table 3).

(12)

Le tableau 4 résume les résultats.

Tableau 4

Accords et désaccords entre le profil sensoriel établi par un jury et le profil de référence (cf. section 3.1.3)

Table 4

Agreements and dissensions between the sensory profile established by one panel and the reference profile (cf. section 3.1.3)

5 chocolats 6 chocolats

Jury Jurys Jury Jurys

non entraînés non entraînés

entraîné entraîné

Accord S : descripteur présent dans les deux profils

avec le même signe 34,3 39,3 52,4 56,2

Accord NS : descripteur absent des deux profils 34,3 36,0 15,5 15,5 Désaccord RS : descripteur présent dans le profil de

référence et non dans celui du jury 27,1 22,1 31,0 27,2

Désaccord RNS : descripteur présent dans le profil

du jury et absent de celui de la référence 4,3 2,6 1,2 1,2

Fort désaccord : descripteur présent dans les deux

profils mais avec un signe différent 0 0 0 0

Total 100 100 100 100

Pour les jurys entraînés, le pourcentage est la moyenne des pourcentages calculés sur les six jurys disponibles. Les comptages sont effectués sur chaque couple (descripteur ×produit) soit, pour chaque jury : 84 (cas des 6 chocolats) ou 70 (cas des 5 chocolats).

For the trained panels, the percentage is the average of the percentages calculated from the six avai- lable panels. Counting is carried out on each couple (descriptor ×product) that is, for each panel: 84 (6 chocolates) or 70 (5 chocolates).

Que l’on considère ou non le produit mi-doux, le consensus est très élevé : les profils des différents jurys coïncident à environ 70 % avec ceux de la réfé- rence et aucun fort désaccord n’est observé. Selon ce point de vue, le jury non entraîné est comparable aux jurys entraînés.

Les désaccords correspondent essentiellement aux caractéristiques pré- sentes dans les profils de référence et absentes des profils issus du jury non entraîné ou d’un jury entraîné. Il s’agit là d’une conséquence de la taille plus importante du jury de référence (= ensemble des jurys entraînés) qui induit un plus grand nombre de données et donc de tests significatifs. Selon ce point de vue, les seuls « véritables » désaccords sont de type RNS.

4.2 Approche multidimensionnelle 4.2.1 Comparaison globale des configurations

D’après le tableau 5, les configurations des six chocolats fournies par les dif- férents jurys coïncident pratiquement toutes avec la référence (RV toujours supérieur à .986). Ce résultat était attendu compte tenu des fortes corrélations ©Lavoisier – La photocopie non autorisée est un délit

(13)

entre les utilisations d’un même descripteur pour le jury non entraîné et l’ensemble des jurys entraînés. De même l’AFM appliquée à ces données met en évidence une quasi-identité entre la configuration du jury non entraîné et celle de la référence (données non présentées).

Tableau 5

Coefficients RV entre chaque jury et la référence Table 5

RV coefficients between each panel and the reference

J 1 J 2 J 3 J 4 J 5 J 6

6 chocolats .993 .991 .995 .994 .986 .989 .999

5 chocolats .921 .938 .948 .965 .985 .948 .988

Les configurations des cinq chocolats se ressemblent beaucoup. Le jury non entraîné est le plus écarté de la référence mais si faiblement que cela peut être attribué au léger biais dû à sa non intervention dans la référence (ceci a été vérifié en calculant une « référence » à partir des 6 + 1 jurys : le coefficient RV du jury non entraîné est alors situé dans la plage de variation de celui des jurys entraînés).

Tableau 6

Quelques résultats globaux de l’AFM Table 6

Some global results of the MFA

axe 1 axe 2 axe 3 axe 4

Valeurs propres 1,971 .299 .259 .115

% d’inertie 74,58 11,30 9,78 4,34

Corrélations entre facteurs

Jury entraîné .99 .93 .63 .47

Jury non entraîné .99 .86 .92 .45

Les corrélations sont calculées, pour chaque axe de l’AFM, entre les projections des produits moyens d’une part et les projections des produits partiels de chaque jury d’autre part.

Une corrélation élevée pour l’axe s et le jury j indique que la structure mise en évidence par l’axe s est discernable dans le jury j.

For each axis of the MFA, the correlations are calculated between projections of the average products on the one hand and projections of the partial products of each panel on the other hand. A high cor- relation for the axis s and the panel j indicates that the structure highlighted by the axis s is discer- nible in the panel j.

4.2.2 Choix des axes de représentation

Les inerties projetées (= valeurs propres, cf. tableau 6) mettent en évidence un premier facteur prépondérant, coïncidant pratiquement avec la première

(14)

composante principale de l’analyse séparée de chaque groupe (1^revaleur propre

= 1,977 ≈ 2 = valeur maximum). Les deux facteurs suivants ont des inerties beaucoup plus faibles et comparables entre elles.

Les corrélations entre facteurs du nuage moyen et des nuages partiels de même rang mettent en évidence deux facteurs communs aux deux groupes, puis un troisième facteur spécifique du jury non entraîné. Les graphiques seront donc réalisés à partir des axes 1 et 2, l’axe 3 donnant lieu à un commentaire séparé en fin d’analyse.

Figure 3

AFM sur les 5 chocolats : représentation des éléments actifs sur le premier plan a) Chaque chocolat est relié à ses deux images partielles : JE pour jurys entraînés considérés comme un seul jury, J7 pour jury non entraîné.

b) Les descripteurs du jury non entraîné sont suivis du chiffre 7.

MFA on the 5 chocolates: representation of the active elements on to the first plan a) Each chocolate is connected to its two partial images: JE for trained panels considered as a unique panel, J7 for untrained panel.

b) The descriptors of the untrained panel are followed by 7.

(15)

4.2.3 Interprétation générale du plan (1,2) Le premier facteur oppose (figure 3) :

– excellence noir, perçu entre autres comme amer, fort en chocolat et peu sucré ;

– et extra-supérieur, qui présente les caractéristiques sensorielles opposées.

Figure 4

AFM sur les 5 chocolats : représentation de quelques variables illustratives sur le premier plan

À gauche : représentation des trois variables de composition.

À droite : représentation de trois descripteurs pour chacun des 7 jurys; le chiffre en fin de libellé iden- tifie le jury (7 = jury non entraîné).

MFA on the 5 chocolates: representation of some illustrative variables on the first plan

On the left: representation of the three variables of composition.

On the right: representation of three descriptors as used by each panels; the figure at the end of each label identifies the panel (7 = untrained panel).

(16)

Pour ce facteur, l’accord, du point de vue des descripteurs, entre les deux types de jurys est presque parfait. Rappelons que la détermination des axes ne prend pas en compte la correspondance entre les descripteurs des deux jurys.

L’étroite liaison entre deux variables associées à un même descripteur constitue donc une validation importante. La corrélation entre ce facteur et les pourcentages de sucre et de cacao apporte, si besoin était, une validation supplémentaire (figure 4).

Le deuxième facteur oppose :

– du point de vue des produits, qualité amère à pâtissier noir ; – du point de vue des descripteurs, collant et croquant à fondant.

Ici encore, la convergence entre les variables associées à un même descripteur, même si elle est bien moindre que pour le premier facteur, apporte une validation essentielle pour cette dimension de faible inertie. La coïncidence entre le pourcentage de matières grasses et l’opposition entre fondant et cro- quant-collant apporte une validation supplémentaire.

4.2.4 Comparaison entre les utilisations d’un même descripteur par les deux jurys

La figure 2 a mis en évidence les descripteurs pour lesquels les jugements des deux jurys différaient le plus : fondant, collant, odeur cacao. Sur le gra- phique de la figure 3, ces descripteurs sont effectivement ceux pour lesquels l’angle entre les deux flèches qui les représentent est le plus grand.

L’apport de l’analyse factorielle est ici de montrer que, même si d’un jury à l’autre certains descripteurs ne sont pas utilisés de la même manière, globalement, les faisceaux de descripteurs corrélés entre eux se recouvrent bien d’un jury à l’autre. C’est par exemple le cas des deux odeur cacao qui, bien que sen- siblement différents, s’inscrivent bien dans l’opposition entre {cacao – amer – acide, etc.} et {sucré – vanille, etc.}.

Il en est de même des deux fondant qui s’opposent bien à croquant-collant.

Finalement, seul le descripteur collant pour le jury non entraîné s’écarte sensi- blement de cette cohérence.

La représentation, en tant que variables illustratives, des descripteurs o. cacao et fondant utilisés par chacun des jurys entraînés (figure 4) montre que, selon ces points de vue, le jury non entraîné évolue au sein de la variabilité des jurys entraînés. Il n’en est pas de même du descripteur collant dont l’utilisation par le jury non entraîné est mal représentée sur le plan 1.2 et donc diffère sensiblement de celle des jurys entraînés. Aucune explication n’a été trouvée pour expliquer cette différence entre jurys pour un descripteur dont la définition don- née aux dégustateurs semblait non ambiguë : « Collant. Définition : qui adhère aux dents et au palais. Évaluation : après avoir réduit l’échantillon en pâte, éva- luer la force nécessaire pour décoller la pâte des dents et/ou du palais. »

4.2.5 Comparaison entre les images d’un même produit données par les deux jurys

Le long du premier axe, les images partielles d’un même produit coïncident presque parfaitement (figure 3). En revanche, le long du deuxième facteur, ©Lavoisier – La photocopie non autorisée est un délit

(17)

quelques différences apparaissent : qualité amère est surtout caractérisé (en l’occurrence comme collant, croquant et peu fondant) par le jury entraîné ; pâtissier noir est légèrement plus caractérisé par le jury non entraîné. Ces résul- tats peuvent être retrouvés dans les valeurs centrées réduites de ces trois des- cripteurs pour ces deux produits et pour les deux jurys (tableau 7).

Tableau 7

Quelques valeurs centrées-réduites du tableau de la figure 1 restreint aux 5 chocolats

Table 7

Some standardized values of the table of figure 1 restricted to the 5 chocolates

Collant Fondant Croquant

Qualité amère Entraînés 0,31* – 0,13* 0,33*

Non entraînés 0,02 -0,06 0,43*

Pâtissier noir Entraînés – 0,22* 0,01 – 0,05

Non entraînés – 0,22 0,11 – 0,05

Exemple : pour les jurys entraînés, le descripteur « collant » caractérise « qualité amère » : la valeur centrée réduite (.31) est positive et significativement différente de 0 (ce qui est noté par *).

Example: for the trained panels, the descriptor “sticking” characterizes “qualité amère”: the standar- dized value (.31) is positive significantly different from 0 (that is denoted by *).

Il n’a pas été possible d’identifier une explication pour cette divergence entre jurys. Ces descripteurs sont réputés faciles à évaluer, à condition de défi- nir précisément le protocole d’évaluation. Une hypothèse est que l’animatrice du jury non entraîné, n’ayant pas participé à la définition des descripteurs, a sans doute eu une interprétation personnelle des protocoles proposés.

4.2.6 Troisième facteur

Ce facteur est quasiment spécifique du jury non entraîné. Il met principale- ment en évidence le produit Amazonie, jugé collant par le seul jury non entraîné.

Cet élément du profil d’Amazonie constitue le désaccord RNS du jury non entraîné (cf. tableau 3). On retrouve l’utilisation différente du descripteur collant entre les deux types de jurys, déjà soulignée dans les paragraphes précédents.

5 – CONCLUSION

Dans cette étude, le jury n’ayant pas suivi d’entraînement a montré une répétabilité sensiblement inférieure à la moyenne de celles des jurys entraînés.

Malgré cela, les pouvoirs discriminants de ces jurys sont équivalents, du fait du plus grand nombre de données par produit pour le jury non entraîné. Il en résulte finalement des profils sensoriels tout à fait comparables. Cette conclu-

(18)

sion a été observée à la fois sur un ensemble de produits facile (six chocolats dont l’un est très particulier) et sur un ensemble difficile (cinq chocolats relative- ment proches quant à leur composition et, de plus, évalués en présence d’un sixième produit très différent).

Il est toujours délicat, et même impossible de façon formelle, de généraliser ces résultats à d’autres produits et d’autres jurys. Toutefois, la cohérence des résultats suggère que, pour obtenir une description sensorielle que l’on peut qualifier de basique, c’est-à-dire incluant saveurs, texture et odeur/arômes typiques du produit, une initiation d’une séance peut suffire pour un jury motivé et averti comme il est possible d’en constituer avec des étudiants en agroalimentaire. Or, cette description basique est souvent celle qui est recherchée. Il est montré ici que l’on peut obtenir une telle description avec une méthodologie économiquement plus avantageuse que la démarche préconisée classiquement.

Avec de tels jurys, il est prudent de prévoir un nombre de données par produit plus important : dans cette étude, une augmentation de 50 % de ce nombre a permis de compenser le déficit d’entraînement.

Enfin, l’analyse factorielle multiple s’est avérée ici commode pour analyser ce type de données, à la fois en tant que synthèse pour apprécier globalement les ressemblances entre tableaux et en tant qu’outil d’analyse fine des dissem- blances entre ces mêmes tableaux. Elle a permis d’apprécier, dans un cadre unique, les convergences et divergences entre jurys, à la fois du point de vue de l’évaluation des produits et celui de l’utilisation des descripteurs.

REMERCIEMENTS

Je remercie la société LINDT qui a fourni les chocolats, l’Actia qui a financé la partie « jurys entraînés » de cette étude, ainsi que les laboratoires d’analyse sensorielle du réseau Actia qui ont participé à l’évaluation des chocolats : Aerial (Schiltigheim), Agrohall (Évreux), Agrotec (Agen), Iterg (Pessac), ITG (Rennes), SSHA (Longjumeau).

Il est également agréable de remercier :

– Soizic ROUSSEL, qui, au cours de son stage de maîtrise au pôle agronomique de Rennes, a organisé les évaluations sensorielles du jury non entraîné ;

– François HUSSON, enseignant-chercheur en mathématiques appliquées à l’Ensar, qui a réalisé les programmes en S+ calculant les tableaux d’indicateurs issus des analyses de variance.

Reçu le 9 janvier 2002, accepté le 24 mai 2002.

(19)

RÉFÉRENCES BIBLIOGRAPHIQUES

Actia, 1999. Évaluation sensorielle. Guide des bonnes pratiques. Actia, Paris.

Afnor, 1981. Norme ISO 5725. Fidélité des méthodes d’essai.

BORGOGNONE M., BUSSI J. HOUGH G., 2001. Principal component analysis in sensory analysis: covariance or correlation matrix? Food Qual. Pref., 12, 323-326.

CLAPPERTON J.-F., PIGGOTT J.-R., 1979.

Flavor characterization by trained and untrai- ned assessors. J. Inst. Brewing, 85 (5), 275- 277.

DAIROU V., SIEFFERMAN J.-M., 2002. A comparison of fourteen jams characterized by conventional profile and a quick original method, the flash profile. J. Food Sci., 67, 825-834.

DELAHUNTY C., MC CORD F., O’NEILL E., MORISSEY P., 1997. Sensory characterisa- tion of cooked hams by untrained consumers using free-choice profiling. Food Qual.

Prefer., 8, 381-388.

ESCOFIER B., PAGÈS J., 1988, 1998. Ana- lyses factorielles simples et multiples; objec- tifs, méthodes et interprétation. Dunod, Paris.

ESCOUFIER Y., 1973. Le traitement des variables vectorielles. Biometrics., 29, 751- 760.

HUSSON F., LE DIEN S., PAGÈS J., 2001.

Which value can be granted to sensory profiles given by consumers? Methodology and results. Food Qual. Prefer., 12, 291-296.

ISSANCHOU S., SCHLICH P., LESSCHAEVE I., 1992. Carte sensorielle d’eaux gazeuses.

Une application du vocabulaire libre et de l’analyse procustéenne. IAA, Cahier scienti- fique, 109, 181-186.

JOCTEUR-MONROZIER R., 2001. Le profil sensoriel, de la mesure à l’analyse discrimi- nante multiple. Thèse Ensia, Massy.

LEA P., RODBOTTEN M., NAES T., 1995.

Measuring validity in sensory analysis. Food Qual. Prefer., 6, 321-326.

LESSCHAEVE I., 1997. Étude des performances de sujets effectuant l’analyse des- criptive quantitative de l’odeur ou de l’arôme de produits alimentaires. Thèse de doctorat, Université de Bourgogne, Ensbana, Dijon.

MACFIE H.J., BRATCHELL N., GREENHOFF, VALLIS L.V., 1989. Designs to balance the effect of order of presentation and first-order carry-over effects in hall tests. J. Sens. Stud., 4, 129-148.

NAES T., LANGSRUD O., 1998. Fixed or ran- dom assessors in sensory profiling? Food Qual. Prefer., 9 (3), 145-152.

PAGÈS J., 1997. Analyse factorielle multiple.

In: SPAD T.M. (ed), Analyse des tableaux multiples. Cisia, Ed. 93556 Montreuil, France.

PAGÈS J., 2000. Comparaison inter-laboratoires de profils sensoriels. Actes 6^ejournées européennes agro-industrie et méthodes sta- tistiques. Pau, Sfds, 30-39.

PAGÈS J., HUSSON F., 2001. Inter-labora- tory comparison of sensory profiles: metho- dology and results. Food Qual. Prefer., 12, 297-309.

SAUVAGEOT F., 1982. Répétabilité, repro- ductibilité justesse et fiabilité en évaluation sensorielle. Ind. Aliment. Agric., 99, 309-319.

SCHLICH P., GUICHARD E., 1989. Selection and classification of volatile compounds of apricot using the RV coefficient. J. Agr. Food Chem., 37, 142-150.

SCHLICH P., 1992. GPA ou STATIS, consen- sus ou compromis? Proceedings Séminaire européen en évaluation sensorielle. Ceria, Bruxelles 17-20 novembre 1992.

SCHLICH P., 1994. Grapes: a method and a SAS^®program for Graphical Representation of Assessor Performances. J. Sens. Stud., 9, 157-169.

SIEFFERMAN J.-M., 2001. Le profil flash.

Document Ensia, Massy.

SPAD, 2000. Système portable pour l’analyse des données. Logiciel diffusé par Decisia, Montreuil, 93556 France.

SSHA, 1998. Évaluation sensorielle. Manuel méthodologique, Éditions Tec & Doc, Paris.

S+ (2000). Logiciel diffusé par Insightful, Tou- louse, France.

WILLIAMS A., LANGRON S., 1984. The use of free-choice profiling for the evaluation of commercial ports. J. Sci. Food Agric., 35, 558-568.

(20)