A NNALES DE L ’I. H. P., SECTION A
C OLETTE P ADET
Sur une théorie informationnelle de l’observation pour des événements de nature probabiliste
Annales de l’I. H. P., section A, tome 33, n
o3 (1980), p. 319-343
<http://www.numdam.org/item?id=AIHPA_1980__33_3_319_0>
© Gauthier-Villars, 1980, tous droits réservés.
L’accès aux archives de la revue « Annales de l’I. H. P., section A » implique l’accord avec les conditions générales d’utilisation (http://www.numdam.
org/conditions). Toute utilisation commerciale ou impression systématique est constitutive d’une infraction pénale. Toute copie ou impression de ce fichier doit contenir la présente mention de copyright.
Article numérisé dans le cadre du programme Numérisation de documents anciens mathématiques
http://www.numdam.org/
319
Sur
unethéorie informationnelle de l’observation
pour des événements de nature probabiliste
Colette PADET
Université de Reims, Laboratoire de Mécanique Quantique
Vol. XXXIII, n° 3, 1980, Physique théorique.
RÉSUMÉ. - On se propose de relier certains concepts fondamentaux dans le domaine de l’observation avec certains autres concepts de base de la théorie de
l’information,
enparticulier
celuid’entropie.
Une
axiomatique
définissant un processus d’observation est d’abord établie. Pour desphénomènes
de natureprobabiliste,
on peut alors définiret
calculer,
en les mettant clairement en relation avec lescaractéristiques
du
procédé d’observation,
l’information associée à un résultat d’observa- tion etl’entropie
d’une variable aléatoire relativement à unprocédé
d’obser-vation. La démarche
suivie, applicable
aussi bien au cas des variables aléatoires continuesqu’à
celui des variables aléatoiresdiscrètes,
permetd’apporter
une solution auproblème
très controversé del’entropie
desvariables aléatoires continues.
En faisant la relation avec les
caractéristiques
duprocédé utilisé,
on estamené à introduire quatre familles
d’entropies (entropie utile, entropie mesurable, entropie
absolue etentropie brute)
dont on met en évidenceles
principales propriétés
ainsi que les relations avec d’autres famillesd’entropie.
SUMMARY. - The présent paper aims at
linking
some fundamental concepts of the observation with some other basic concepts in the informa- tiontheory, particularly
the concept of entropy.An axiomatic formulation in order to describe a process of observation is stated at first. For a statistical set of events, we define and
calculate,
with référence to the parameters of the
observation,
the information associated with a result of observation and the entropy of a random variable for aproceed
of observation. The method can beapplied
as well for theAnnales de l’Institut Henri Poincaré-Section A-Vol. XXXIII, 0020-2339/1980/319/$5,00/
(0 Gauthier-Villars
continuous random variables as for the discrète random
variables,
allowto
give
a solution to the much debatedproblem
of the entropy of a continu-ous random variable.
Taking
into account characteristic parameters of theproceed
of observa-tion,
we are lead up to introduce four classes ofentropies,
for which weexamine the main
properties just
as the relations with others classes ofentropies.
Il est
généralement fructueux,
dans de nombreuxdomaines,
de réaliserune
synthèse
entre deux groupes dephénomènes
ou entre deux théoriescomplémentaires qui
ont connupendant
un certain temps des évolutionsautonomes. On peut ainsi mettre en évidence des
propriétés nouvelles,
voire élaborer des concepts nouveaux. Pour ce
faire,
la démarche laplus
intéressante consiste souvent à réunir les bases
conceptuelles
des deuxthéories
plutôt qu’à
regrouper leursdéveloppements
et leurs résultats.Une telle tentative d’unification entre la
physique statistique
et la théoriede l’information a ainsi été à
l’origine
de la construction d’un nouveau conceptprobabiliste, l’opacité
d’unecomplexion statistique [7].
La
période
actuelle nous offre un autreexemple
de deux domainesimportants
visiblementcomplémentaires
entrelesquels
aucunesynthèse
véritable ne semble avoir été réalisée : celui de l’observation et celui de l’information. On ne s’informe
pourtant qu’en
observant mais cette évi- dence ne s’est pas encore traduite dans la théorie.Le travail que nous
présentons
ici est une tentative pour relier certains concepts fondamentaux dans le domaine de l’observation avec certainsautres concepts de base de la théorie de
l’information,
enparticulier
celuid’entropie.
Nous avons d’abord été amenés àapprofondir l’analyse
d’unprocessus d’observation et à en proposer une
axiomatique.
Pour desphénomènes
de natureprobabiliste,
cela nous apermis
de définir et decalculer,
en les mettant clairement en relation avec lescaractéristiques
duprocédé d’observation,
l’information associée à un résultat d’observationet
l’entropie
d’une variable aléatoire relativement à unprocédé
d’obser-vation. La démarche
suivie, applicable
aussi bien au cas des variables aléatoires continuesqu’à
celui des variables aléatoiresdiscrètes,
a le mérited’apporter
une solution auproblème
si controversé del’entropie
desvariables aléatoires continues.
I. CONCEPTS DE BASE EN
THÉORIE
DE L’INFORMATION
Considérons un espace de
probabilité
constitué par letriplet { Q, ~, p }
où Q est l’ensemble de toutes les réalisations
possibles
del’expérience
Annales de l’Institut Henri Poincaré-Section A
étudiée, ~
une tribu departies
mesurables de Q et p une mesure deproba-
bilité définie sur ~ et telle que
p(Q)
=1,
les éléments de ~ étantappelés
événements
[2] ] [3 ].
Soit
I(ai)
== 2014 KLog
la mesure d’information relative à l’événe-ment ai. Elle caractérise le
degré
d’incertitude apriori
lié à cet événe-ment
[4] ] [5 ].
La valeur de la constante Kdépend uniquement
de l’unitéd’information choisie. Nous considérerons par la suite l’unité
appelée bit, correspondant
à K ==L og 2
d’oùl’expression :
Si l’on réitère un
grand
nombre de fois uneexpérience
dans des condi- tionsidentiques,
divers événements al ... o~, deprobabilités
peuvent être observés. Par
suite,
l’information moyenne parévénement,
introduite pour la
première
fois par Shannon en1948,
s’écrit[6 ] :
En raison de son
analogie
formelle avecl’entropie physique,
cette expres- sion est souventappelée
«entropie
informationnelle ». De nombreuxauteurs la
désignent également
par «entropie
informationnelleH(A)
dela variable aléatoire A ». Ceci
s’explique
par le faitqu’en physique
onassocie presque
toujours
à un événement un nombreréel,
cequi
nécessitela considération d’une variable aléatoire vectorielle. C’est cette dénomina- tion que nous utiliserons désormais.
L’entropie
de Shannon dont nous venons derappeler
la définition estl’entropie
d’une variable aléatoire discrète[7
à9 ].
Ilapparaît
natureld’envisager
son extension au cas continu. Mais on se heurte alors à unedifficulté liée à la
divergence
de la fonctionH(A).
De nombreux auteursont
cependant
souhaité associer une fonction finie aux variables aléatoires continues. Laplus
communément utilisée est cellequi
a étéproposée
parShannon
[6 ] :
où A est une variable aléatoire continue de densité
Or,
il faut remarquer que, si les conventionsadoptées
pour définirl’entropie
dans le cas de distributions discrètes sont cohérentes et relative-ment
satisfaisantes,
il en va tout autrement dans le cas des distributionscontinues. La fonction
proposée
par Shannonprésente
des difficultésd’interprétation
provenant despropriétés
suivantes[10
à13 ] :
-
H(A)
peut êtrenégative,
- la formule définissant
H(A)
n’est pashomogène puisque
lagrandeur figurant
sous lelogarithme possède
une dimensionqui
est celle d’unedensité,
- la fonction
H(A)
n’est pas invariante dans une transformation des coordonnées.Ces difficultés ont souvent été
sous-estimées,
voireignorées,
en raisondu fait
qu’elles disparaissent
engénéral
dans laplupart
desapplications, qui
sont basées sur des recherches de maximad’entropies.
Ceci ne diminueen aucun cas
cependant
les faiblesses deH(A)
etquelques
auteurs[14
à77] ]
ont cherché une définition de
l’entropie plus
satisfaisante que celle de Shannon. Touspratiquement (Gibbs, Kolmogorov, Sempi, etc.)
ont étéamenés à
intégrer
la notion deprécision
d’une observation à la théorie de l’information.Malheureusement,
celle-ci se voit attribuer dans cesdifférentes tentatives des
significations
assez différentes etquelquefois imprécises.
Une voie semblecependant
sedégager qui
mérite d’êtreexplorée plus
avant, à savoir laprise
en compte desparamètres caractéristiques
du
procédé
d’observation et c’est elle que nous nous proposons de suivre maintenant.Auparavant,
il est toutefoisindispensable
d’élaborer uneanalyse théorique
despropriétés
habituellement reconnues à toutsystème expérimental, puis
du processus d’observationlui-même,
dans le cas leplus général
où les événements observés ne sont pasobligatoirement
denature
probabiliste.
II.
ÉLÉMENTS
D’UNETHÉORIE MACROSCOPIQUE
DE L’OBSERVATION
II.1.
Caractéristiques
d’unprocédé
d’observation.Il est connu
depuis longtemps
que toutprocédé
d’observation quenous noterons ~ est caractérisé par trois
qualités : sensibilité,
fidélitéet
précision.
Enparticulier,
l’échelle de lecture del’appareil
est nécessaire-ment
discrète,
l’écart entre les «graduations »
ne pouvant matériellement pasêtre
rendu infinimentpetit.
Mais ces conceptsclassiques
bien connusdes
expérimentateurs
sont rarement formalisés defaçon
satisfaisante auniveau
théorique.
Souvent même ils ne sont pas dissociés les uns des autres.Notre
premier
souci sera donc d’en exécuter uneanalyse
détaillée pourparfaire
etgénéraliser
ensuite leur formalisation.Remarquons
aupréalable
que, du fait de
l’imperfection
del’appareil
et de laprésence
de l’échelle deAnnales de l’Institut Henri Poincaré-Section A
lecture,
trois ensembles d’événements interviennent dans touteobservation,
à savoir l’ensemble j~ des événements observés oc, l’ensemble
~e
des événe-ments
enregistrés
ae et l’ensembles~i
des événements lus Les deux pre- miers ensembles seraientidentiques
sil’appareil
était idéal. Les deux derniers le seraient sil’étalonnage
etl’affichage
étaientparfaits [18 ].
II.1.1. SENSIBILITÉ
La limite de sensibilité caractérise une sorte d’inertie du
procédé
d’obser-vation vis-à-vis d’une variation de l’événement observé. Pour tout événe- ment oco, l’événement
enregistré
aeo estidentique
à ao. Si des fluctuationsapparaissent
autour de (Xo,l’appareil
continue à marquer aeo.Ainsi,
l’enre-gistrement
d’une valeur aeoprovient
soit d’un événement ao == aeo, soit d’un ensemble d’événements aappartenant
au borélien(fig. 1) qui,
d’un
point
de vuephysique,
peut être considéré comme centré sur ao = aeo.Le borélien est
appelé
« limite de sensibilité » del’appareil.
La fidélité d’un
procédé
d’observation est uneaptitude
à lareproducti-
bilité de l’observation pour des événements
identiques ;
elle est affectéepar les fluctuations aléatoires
qui
surviennent dansl’appareil
d’observa-tion. La
conséquence
en est que, àchaque
valeur x à mesurer,correspond
tout un ensemble de valeurs
enregistrées
oc~possibles
formant un seg- ment(fig. 2).
Ce segment estappelé
« limite de fidélité » del’appareil
pour la valeur ex. Notons au passage que la fidélité est
plus
volontiersappelée
depuis quelques
années fiabilité ou encore sûreté de fonctionnement.Le manque de
précision
d’unappareil
de mesure caractérise un écartsystématique
entre la valeurenregistrée
ae et la valeur lue aiqui procède
d’une part du fait que l’ensemble des valeurs lues est
toujours
discret etdénombrable,
d’autre part d’un défautd’étalonnage
ou d’une détérioration del’appareil (introduction
d’unedistorsion) (6g.
3 et4).
Le caractère discret de l’échelle de lecture
implique qu’à chaque
valeur a~susceptible
d’être affichéecorresponde
tout un ensemble de valeursenregistrées. Quant
à ladistorsion,
elle introduit undécalage
entre valeursenregistrées
et valeurs affichées.Compte
tenu de cequi précède,
nous noterons toutprocédé
d’observa-tion P{0394s, 0394ef, 0394ep, 0394l}, 0394l
étant l’intervalle[al, [.
Annales de l’Institut Henri Poincaré-Section A
Il est nécessaire de
poursuivre l’analyse
en considérant nonplus
le détaildu mécanisme d’observation mais
l’aspect global
de l’acte de mesure. Un processus de mesure sedécompose
en deuxphases :
l’observation propre-ment dite et
l’interprétation
de cette observation[18 ].
Le processus d’observation conduit d’un événement a à observer à la valeur lue a~ selon le schéma
représenté figure
5.Vol.
Le processus
d’interprétation
permetensuite,
connaissant la valeur lue ai, de remonter à une valeurpossible
de a.Étant
donnée la limitation desqualités
d’unappareil
de mesure, nous pouvons seulement conclure que la lecture de la valeur a~implique l’appartenance
de l’événement ocobservé à un certain borélien de j~
qui
constitue en fait le « domaine total d’incertitude associé au résultat d’observation a~ ». Celui-ci peut être déterminé de lafaçon
suivante : la lecture de al nousapprend
que ae EÉtant
donnée la limite defidélité,
àchaque
aecorrespond
tout un ensemblede oc Ceci permet donc de
déduire,
en se référant aux notationsde la
figure 6,
que :Dans le cas le
plus général
où la limite de sensibilitéAs
n’est pasnulle,
on déduit de la lecture de a~ que l’événement a
appartient
à l’intervalle(fig 7) :
Le
renseignement
fourni par la lecture de a~ est donc en définitive :où
représente
’ le domaine total d’incertitude associé ’ au résultat d’observation #Annales de l’Irtstitut Henri Poincaré-Section A
Le véritable processus de mesure étant la succession des processus d’observation et
d’interprétation,
ilapparaît
maintenantindispensable
d’enétablir une
axiomatique
permettant de formaliser pour des cas trèsgéné-
raux le
couple observation-interprétation [19 ].
Dans cettedémarche,
nous nous sommes
inspirés
du modèlemathématique
de l’observation basé sur le formalisme des «opérateurs
d’observation »[20
à22 ].
Nous pouvons ainsi définir une classe de situations
expérimentales correspondant
à unprocédé ~ ~ A~ dep, 4~ ~
par les axiomes suivants :une
application 0394ef
de l’ensemble A dans l’ensembleAe,
caracté-ristique
duprocédé
d’observationqui,
à toutpoint
de~,
fait corres-pondre
un segment de~e. L’opérateur d’enregistrement
est uneapplication
définie sur l’ensemble j~qui,
à toutpoint
et E j~ fait corres-pondre
unpoint
ae Ej~,
avec une loi deprobabilité
nulle en dehorsde
ef(a).
une
partition
dénombrable de~e
en segments totalement dis-joints 0394ep
dont la réunion estAe. L’opérateur
de lecture est uneapplica-
tion définie sur
~e qui,
à tout faitcorrespondre
lepoint
aI de~j.
Le
produit
6l desopérateurs d’enregistrement
et de lecture estappelé opérateur
d’observation.%t : L’application image réciproque 7
de 6~, ouopérateur d’interpré- tation,
est uneapplication
deAl
dans Aqui
faitcorrespondre
àchaque
03B1l de~~
un borélien de j~.est le domaine total d’incertitude associé à contenant l’ensemble de toutes les valeurs
possibles
pour oc.L’opérateur
de mesure 03C3M associé à unprocédé 0394ep, 0394l}
a pour
expression :
Les axiomes
précédents
caractérisent la mesure(au
sensexpérimental
du
terme)
d’événements par unprocédé
à échelle de lecturediscrète,
soumisà des fluctuations aléatoires et dont la limite de sensibilité n’est pas nulle.
Ils vont maintenant permettre de traiter
l’aspect
informationnel de l’observation.III. ENTROPIE D’UNE VARIABLE
ALÉATOIRE
RELATIVEMENT A UNPROCÉDÉ
D’OBSERVATION La connaissanceacquise
par mesure étant maintenant clairementcaractérisée,
il reste à en effectuer une évaluationquantitative
àpartir
de la définition conventionnelle de l’information pour un ensemble statis-
tique
d’événements[7~] ] [19 ].
Lors de cetteétude,
nous allons être amenésà introduire trois familles
d’entropies.
III.1.
Entropie
utile.La lecture d’une valeur al nous
apprend
que a E Nousappellerons
« information utile relative à l’événement lu oc~ » l’information associée à ce résultat a~ et la définirons par la fonction :
L’information moyenne que l’on peut recueillir en utilisant le
procédé
d’observation P est évidemment
l’espérance mathématique
de la fonc-tion Nous
appellerons
cetteexpression
«entropie
utile de la variablealéatoire A relativement au
procédé
d’observation P » et la noteronsS(A,
Annales de l’Institut Henri Poincaré-Section A
Pour une variable aléatoire A continue de densité de
probabilité
nous avons d’une part :
en
notant la
mesure deLebesgue
sur R.D’autre part, étant la
probabilité
de lire la valeur x~ lors d’une mesure, est aussi laprobabilité
d’obtenir un événementenregistré
aequi appartienne
au segment Si est la densité deprobabilité
de aesur l’ensemble
~e,
alors :Une difficulté
apparaît
en cequi
concerne l’évaluation de la densité Nous avons vu quel’opérateur d’enregistrement
03C3ef faitcorrespondre
àtout
point
oc E j~ une loi deprobabilité
de densité telle que = 0 si03B1e ~ 0394ef(03B1).
Parsuite,
la densité deprobabilité
dequi
est en faitune densité
marginale
de ae pour tout a, s’écrit :Or la condition est
équivalente
à la conditionétant le borélien de .xl contenant l’ensemble des événements de ~/
susceptibles
de donner ae à l’observation. Il vient alors :et
D’où
l’expression générale
del’entropie
utileS(A, ~) :
En regroupant les formules
(1), (2), (3),
on voit quel’entropie
utileS(A, &»
a la forme :
Cette
présentation
permet de mettre en évidence troispropriétés
essen-tielles :
- la formule définissant S est
homogène puisqu’il n’y apparaît
que desprobabilités,
- les
probabilités,
étant desgrandeurs
sansdimension,
sont invariantesVol. 3-1980.
dans toute transformation des coordonnées. Il en est donc de même pour
S(A, .9’),
-
l’entropie S(A, .9’)
est nonnégative
car lelogarithme
d’uneproba-
bilité est
toujours
0.Ces trois
propriétés
fondamentales deS(A, ¿P)
assurent sa cohérenceavec
l’entropie
de Wiener-Shannon définie pour les variables aléatoires discrètes hors de toute référence à unprocédé d’observation,
et la rendentexempte des défauts attachés à
l’entropie
de Shannonpour les variables aléatoires continues.
Nous devons
également signaler qu’il
existe une sous-classe de situationsexpérimentales
très usuelles où estindépendante
de oc, et où lesfluctuations ont une densité de
probabilité
uniforme surchaque
seg- ment On a alors :(ce
que nous écrirons poursimplifier ,u(~ f)
=cte)
etD’où
et
où
représente
la valeur moyenne de la fonctionp((x)
sur le boré-lien de l’ensemble j~.
111.2.
Entropie
mesurable.Étant
donnéel’analyse
que nous avons faite de la relation observation-observé,
une autre familled’entropies
peut être définie.En
effet,
il esttoujours possible
de dissocier lesystème d’affichage
d’unmoyen d’observation donné et de le traiter
indépendamment.
Si nousconsidérons alors un ensemble d’événements observés par un
procédé 0, 0 }
deprécision parfaite,
nous savons,après
obtention durésultat d’observation ae,
qu’à
l’issue du processusinterprétatif,
les valeurspossibles
de a sont contenues dans un segmentat
de ~/ que nous note-rons
Par
définition,
nousappellerons
« information mesurableapportée
parl’enregistrement
de la valeurl’expression :
Annales de l’Institut Henri Poincaré-Section A
Corrélativement à cette
notion,
nous pouvons définir une «entropie
mesurable »
Sm(A, 2P)
de la variable aléatoire A relativement à unprocédé
d’observation 2P. C’est
l’espérance mathématique
de la fonction surson ensemble de définition
~e.
C’estégalement
la valeur queprend
l’en-tropie
utileS(A, 2P) lorsque P = P { 0394s, 0394ef, 0, 0 }.
On a donc :soit encore :
où
représente
la valeur moyenne de la fonctionp((x)
sur le boré-lien de l’ensemble j~.
Le
qualificatif
« mesurable » estjustifié
par le fait que cette information serait accessible avec un moyen d’observation donné à condition de rendreparfait
lesystème d’affichage.
Si nous considérons la sous-classe de situations
expérimentales
définieau
paragraphe précédent, l’entropie
mesurableSm(A, £?P) prend
alors laforme :
III.3.
Entropie
absolue.Nous devons enfin considérer l’information relative à un
procédé
idéal
~ {0, 0, 0, 0}.
Elle ne fait en vérité aucune référence auprocédé
d’observation
qui
sert à recueillir l’information(lequel
estimplicitement
considéré comme
parfait)
et ne concerne donc quel’objet
d’observationen soi.
Soit a un événement à observer de
probabilité p(oc).
On peutappeler
« information absolue relative à l’événement x ~
l’expression :
C’est encore l’information associée à un
opérateur
6M identité.Parallèlement à cette
notion,
nous pouvons définir une «entropie
absolue
S(A)
de la variable aléatoire A »qui
estl’espérance mathématique
des informations absolues relatives à
chaque
événement. Si la variable aléatoire A estcontinue,
l’informationI(a)
et par suitel’entropie
absolueS(A)
sont infinies.III.4.
Entropie
brute.Le processus de mesure considéré
jusqu’à présent
estconstitué,
commenous l’avons vu, de la succession du processus d’observation et du processus
interprétatif.
Vol. n° 3-1980.
Or il est courant dans la
pratique
de s’en tenir à l’observationseule, qui représente
en fait une « mesure brute » de l’événement. Aussi est-il très intéressant d’introduire les notions d’information brute etd’entropie
brute
[19 ].
L’événement final du processus d’observation est la lecture d’une valeur a~
de l’ensemble des résultats d’observation
~~.
Parsuite,
étant laproba-
bilité de lire la valeur a~ à l’issue du processus
d’observation,
nous pro- posonsd’appeler
« information brute associée à l’événement a~ »l’expres-
sion :
«
L’entropie
bruteSb(A, &)
de la variable aléatoire A relativement àun
procédé
d’observation ~ » est alorsl’espérance mathématique
deEn
remplaçant
par sa valeur donnée dansl’expression (3),
onobtient
l’expression générale
del’entropie
bruteSb(A, ~) :
:Une étude
comparative
entrel’entropie
utile etl’entropie
brute apermis
de mettre en
évidence,
dans tous les cas où une conclusion a pu êtreobtenue,
la relation d’ordre suivante :
Nous pouvons en déduire
qu’il
y a diminutiond’entropie lorsque
l’obser-vation d’un
phénomène
estcomplétée
parl’interprétation
des résultats de mesure. Cette diminutiond’entropie
traduit uneaugmentation
denotre connaissance du
système
étudié provenant del’interprétation.
IV . EXTENSION
AU CAS DE VARIABLES
ALÉATOIRES DISCRÈTES :
ÉVÉNEMENTS
DISCERNABLESPAR UN
PROCÉDÉ
DE MESURENous avons défini
plus
hautl’entropie
utile d’une variable aléatoire continue relativement à unprocédé d’observation P{ 0394s, 0394ef, Agp, 0394l}.
Annules de l’Institut Hernri Poincaré-Section A
Nous allons maintenant étendre cette étude au cas de variables aléatoires discrètes et montrer
qu’il
estgénéralement
nécessaired’intégrer
les caracté-ristiques
duprocédé
d’observation dansl’expression
del’entropie.
IV . 1.
Évaluation
del’entropie
utiled’une variable aléatoire discrète.
Nous considérons
toujours
les trois ensembles de valeurs réelles~, s~e
et
~~.
Les ensembles j~ et~t
sontdiscrets ;
nous noterons av et oc~ leurs élémentsrespectifs.
L’ensemble~e
estcontinu, l’appareil
pouvant apriori enregistrer n’importe quelle
valeur ae.L’entropie
utile de la variable aléatoire discrète A relativement à unprocédé d’observation P{ OS, 0394l}
a pourexpression :
a~ étant le résultat d’observation et l’information utile relative à l’événement (X~.
Or l’information pour un
procédé ~
estégale
à :d’où
Nous
allons,
pour la suite de cetexposé,
introduire lesymbole qui
v,Ax
représente
la sommation sur tous les ay appartenant à un intervalle Ax.L’expression
de peut alorss’écrire,
en prenant Ajc ==Il reste à calculer la
probabilité
d’obtenir le résultat a~ lors d’une observation. Cetteprobabilité
est aussi celle d’obtenir un événementenregistré
aequi appartienne
au segment associé à al.étant la densité de
probabilité
de ae dans~e. Or,
à toutpoint
a,, de~,
parl’opérateur
d’observation 6e f,correspond
sur~e
une loi deprobabilité
de densité telle que = 0 si Parsuite,
la densité s’écrit :La condition étant
équivalente
à la condition il vient alors :et
En reportant
(5)
et(6)
dans(4), l’entropie S(A, &»
s’écrit :IV. 2.
Entropie
mesurable etentropie
absolue.Comme nous l’avons fait pour une variable aléatoire
continue,
nousallons maintenant
exprimer l’entropie
mesurable d’une variable aléatoire discrètepuis
sonentropie
absolue.Nous avons
appelé entropie
mesurable la valeur queprend l’entropie
utile
S(A, 9) 0, 0}.
C’estégalement l’espérance mathématique
des informations mesurablesI(xJ.
Dans le cas d’une variable aléatoire
discrète,
nous avons :On notera que, dans cette dernière
intégrale,
les sommesAnnales de l’Institut Poincaré-.Section A
sont bien des fonctions de ae
puisque
lessegments 0394f(03B1e)
et surlesquels
sont faites les sommations sont eux-mêmes des fonctions de (Xg.Évaluons
maintenantl’entropie
absolueS(A)
de la variable aléatoireA, qui
est la valeur del’entropie
utileS(A, &» lorsque
leprocède
devientidéal. Dans ce cas
particulier, chaque
valeur mesurée a~correspond
à uneseule valeur observée ay et lui est
identique (fig. 8)
de telle sorte que=
p(av)
pour t = v et == -log2 p(a,,)
d’où :Ainsi,
pour unprocédé idéal, l’entropie
utile d’une variable aléatoire discrète s’identifie àl’entropie absolue,
elle-mêmeidentique
àl’entropie
de Shannon.
IV. 3.
Événements
discernables par unprocédé
La
capacité
d’unprocédé
d’observation àdistinguer plusieurs
événementsentre eux est une
qualité importante
etcorrespond
à la notion de «pouvoir séparateur
». Nous examinons ici cettepropriété
dupoint
de vue informa-tionnel.
Les événements d’une distribution discrète sont discernables par un
procédé d’observation P{0394s, 0394ef, 0394ep, 0394l}
si :- à
chaque
événement av est associé un résultat d’observation aI etun
seul,
Vol. 3-1980.
- à
chaque
résultat d’observation a~ est attribué auplus
un événe-ment av.
Ceci
signifie
donc que le processus de mesure est un processus iden-tique :
le processusinterprétatif
est l’inverse du processus d’observation.Calculons alors
l’entropie
utile de la variable aléatoire discrète A relati- vementOr, d’après
la définitionprécédente
des événementsdiscernables,
nouspouvons écrire : .
et
On obtient par suite :
L’entropie
utile d’événements discernables par unprocédé
d’observa-tion P est donc
indépendante
desparamètres qui
caractérisent Nous pouvons remarquer deplus
quel’expression (7)
estidentique
àl’entropie
absolue définieprécédemment
ainsiqu’à l’entropie
de Shannon.Ainsi sont mises en évidence les
importantes propriétés
suivantesqui spécifient
les limites de validité del’entropie
de Shannon.PROPRIÉTÉ 1. - «
L’entropie
absolueS(A)
d’une variable aléatoire discrète estl’entropie
utileS(A,
de cette variablelorsque
les événements sont discernables par leprocédé
d’observation ».PROPRIÉTÉ 2. - «
L’entropie
absolueS(A)
d’une variable aléatoire discrète A est la valeur maximale del’entropie
utileS(A, Y’)
».Il est à
signaler
une autre situationfréquente
enphysique :
celle desvariables aléatoires dont la densité
p(x)
est nulle sauf sur un ensemble de domainesdisjoints,
la mesure dechaque
domaine étantpetite
par rapport à la mesure du domaine surlequel p(o)
est définie. Nousappelons
« distributions
catastrophiques » (*)
de telles distributions deprobabilités.
On trouvera dans la référence
[7~] une analyse
de leurspropriétés.
En
appliquant
notre théorie de l’observation au cas des distributions (*) L’expression est empruntée à THOM [23] et se réfère au fait que varie très rapide-ment à l’intérieur des domaines Cv.
Annales de l’Institut Henri Poincaré-Section A
discrètes,
nous avons donc établi que, dès lors que les événements observésne sont
plus
discernables par leprocédé d’observation, l’expression
del’entropie
doit inclure lescaractéristiques
de ceprocédé
d’observation.V
ÉTUDE
COMPARATIVENous avons
rappelé,
au début de cetarticle,
queplusieurs
auteurs ontdéjà
tenté d’introduire directement laprécision
de l’observation dansl’expression
del’entropie
d’une variable aléatoirecontinue,
mais en selimitant à une
analyse
relativement sommaire du processus d’observation.Nous allons maintenant comparer
l’expression
del’entropie S(A, ~)
quenous avons
proposée
pour une variable aléatoire continue auxentropies déjà introduites,
à savoir celles deGibbs,
deKolmogorov,
deSempi
etde
Majernik.
Ilapparaît
que cesentropies
seprésentent
comme des limitesou des cas
particuliers
del’entropie S(A, ~).
Leursignification physique
s’en trouve ainsi
précisée
V . 1.
Entropie
absolue etentropie
de Shannon.Rappelons
tout d’abord lapropriété
concernant la relationqui
reliel’entropie S(A, ~), l’entropie
absolueS(A)
et la fonction de ShannonH(A)
pour une variable aléatoire continue A et
qui s’exprime
dans le théorème suivant[19 ] :
THÉORÈME. La différence des
entropies
de deux variables aléatoires relativement à un mêmeprocédé P{0394s, 0394ef, 0394ep, 0394l}
estégale
à la diffé-rence de leurs fonctions de Shannon
lorsque 1Bs,
etOt
tendentsimultanément vers zéro :
La fonction
empirique
de Shannon se voit ainsi attribuer un sensphy- sique beaucoup plus précis.
De
même,
la fonction Jf de Boltzmann doit êtrereplacée
dans ce contexteoù elle
prend
lasignification
suivante :« La variation au cours du temps de
l’entropie
absolue d’unsystème thermodynamique
estégale
à la variationchangée
designe
de sa fonc-tion .Y{’ ».
V 2
Entropie
utile et~-entropie.
examinons maintenant le rapport
qui
peut exister entrel’entropie
utile et
l’~-entropie
deKolmogorov [15]
dont onrappelle
la définitionproposée
parRenyi [14 J.
« Si ~~ est un espacemétrique précompact
Vol. XXXIII,
pour tout a >
0,
j~ peut être divisé en un nombre fini d’ensemblesdisjoints
ayant chacun une mesure inférieure ouégale
à a. Onappelle ~-partition
de j~ un tel
système
d’ensembles ..., dont la réunion est j~.A étant une variable aléatoire définie sur j~ et à valeurs
réelles, 1’8-entropie
de A par rapport à
l’~-partition A1(~),
... , de A est, par définition :étant la
probabilité
d’observer l’événement oc dans lapartie ~k(E)
».Si l’on considère
l’expression
del’entropie
utile dans le cas d’unprocédé
~ ~ o~ o~ 4eP~ ~I ~ :
il
apparaît qu’elle
estidentique
àH(s, A).
Cette
comparaison
apporte toutefois uneprécision
essentielle concer- nant le critère de construction derépartition, qui
se trouve défini par la donnée de l’ensemble~I
des résultats d’observation(«
échelle de lecture»)
et par les
caractéristiques
del’étalonnage (segments
L’entropie
utile constitue en outre unegénéralisation
del’~-entropie puisque
le caractèreprécompact
de l’ensemble j~ n’a pas eu à êtrepostulé.
Cette constatation est
particulièrement
intéressante en raison del’impor-
tance
historique
du conceptd’~-entropie
en théorie de l’information.V 3 .
Entropie
utile etentropie grossière
de Gibbs.Les travaux de Gibbs
[7~] ] [7~],
antérieurs à ceux deShannon,
suscitentdepuis quelques
années unregain
d’intérêt.Gibbs divise
l’espace
desphases
surlequel
il travaille en cellules dontla
position,
les dimensions et la formedépendent
des connaissances initiales que nous avons sur lesystème
étudié. Cescellules,
dont l’extension et laposition
restent fixes dans le temps, ont une extension d’autantplus petite
que nos connaissances sont
plus précises.
Gibbs définit alors la densitémoyenne pg de
remplissage
de ces cellules. Cette densité pgdépend
del’extension des
cellules,
est uniforme à l’intérieur dechaque cellule,
etvarie d’une cellule à une autre. Il établit ensuite une
entropie
Happelée
«
grossière » qui
a la même forme que celle de Shannon maisqui s’exprime
en fonction de pg.
où p~k
représente
la densité moyenne deremplissage
de la cellule k dansl’espace
desphases
et~ik
son extension.Nous devons remarquer tout d’abord que cette
expression présente
un défaut
évident,
à savoirqu’elle
comporte lelogarithme
d’une densité deprobabilité,
cequi
est contraire à l’essence même du concept dequantité
d’information.
En
conséquence,
cette fonction de Gibbs seprésente
comme un cas à part pouvant difficilementapparaître
comme une limite ou un casparticulier
de
l’entropie
utileS(A, .9).
Elle
possède cependant
un lien avecS(A, .9)
que nous avons établi dans la référence[19 ].
Eneffet,
on démontre la relation suivante :où
S(A, 9) représente l’entropie
relative auprocédé ~~’ ~ 0, 0, [26].
Ainsi, l’entropie
de Gibbs se rattache à laprécision proprement
diteet non au
pouvoir
de résolution de P comme onpourrait
le penser àpremière
vue. La maille~Tk
n’est pas assimilable à une limite de résolution(ou
limite desensibilité).
V 4 .
Entropie
mesurable etentropies
avec erreur deSempi.
Comme chez
Kolmogorov,
le but deSempi [76] ] [17
est d’introduire des mesures d’informationqui dépendent explicitement
de l’erreur. Pourcela,
il considère que, dansl’analyse
d’uneexpérience,
deux variablesaléatoires entrent en
jeu :
la variable aléatoire A dont nous désirons déter- miner la distribution et une variable aléatoire Bqui représente
l’erreur.La
présence
de l’erreurexpérimentale
inhérente à toute mesure ne nouspermet pas de dire si la valeur
prise
par la variable aléatoireA, après
réalisation de
l’expérience,
coïncide avec la valeur a lue surl’appareil
de mesure. On peut seulement conclure que la valeur mesurée est contenue
dans l’intervalle
(a - b, a
+b)
où breprésente
l’erreur associée à la mesure.Si F est la fonction de
répartition
de la variable aléatoireA(F :
R --+[0, 1 ]),
la différence
F(a
+b) - F(a - b) représente
laprobabilité
de trouver lavaleur mesurée dans l’intervalle
(a - b, a
+b).
L’information 1 fournie par l’événement « lire la valeur dans l’intervalle(a - b, a
+b) »
est donnéepar :
Si nous considérons 1 comme une
grandeur aléatoire,
le calcul de savaleur moyenne fournit
l’expression
de l’ «entropie
avec erreur ».Deux cas se
présentent
alors :- il est
possible
deprendre
la moyenne par rapport à la mesure deVol.