Grenoble INP Laurent Ros
PHELMA, filière Sicom 2°annéeNotes de cours « THEORIE DE l’INFORMATION »
(avec fiches de TDs incluses)
Année scolaire 2017-2018
Bibliographie
Théorie de l’Information
[Cov06] T.M. Cover, J.A. Thomas, “ Elements of Information Theory”, Wiley & Sons, 2nd edition, 2006.
[Bat97] Gérard Battail, « Théorie de l’information : application aux techniques de communication », collection pédagogique de Télécommunication, MASSON, 1997
[Weh03] Louis Wehenkel, Théorie de l’Information et du codage, cours de l’Université de Liège, 2003 http://www.montefiore.ulg.ac.be/~lwh/Info/
[Rou70] E. Roubine, « Introduction à la théorie de la communication. Tome III : Théorie de l’information », collection MASSON et Cie, 1970
[Spa87] A. Spataru, « Fondements de la théorie de la transmission de l’information », presses polytechniques romandes, complément au traité d’électricité, 1987
[Mac03] David J.C. MacKay “Information Theory, Inference, and Learning Algorithm”, Cambridge Univ. Press, 2003 http://www.cs.toronto.edu/~mackay/itprnn/ps/
[Aug07] François Auger, « Introduction à la théorie du signal et de l’information , cours et exercices », collection Sciences et Technologies, éditions Technip, 1999
[Gal68] R.G. Gallager, « Information Theory and reliable communication », Wiley, 1968
[Jou95] Geneviève Jourdain, « Théorie de l’Information », polycopié de cours DEA SIPT (INPG), 1992 [Bri01] Jean Brini, « cours de Théorie de l’information », polycopié de cours 2° année ENSERG 2001/2002
Plan détaillé du document
Théorie de l’information, et application au codage (de source et de canal) Avant Propos
I Eléments généraux de théorie de l’information : Mesure d’information I.1 Historique et Introduction
I.2 Mesure d’information - Quantité d’information d’un « symbole » I.3 Entropie ou contenu d’information moyen d’une source discrète
I.4 Diverses entropies entre deux Variables Aléatoires et Information mutuelle I.5 Source avec mémoire, et source Markovienne : une introduction
Fiche d’exercices (TD1) page 16
II Codage de source (compression) : II.1 Introduction
II.2 Caractérisation d’un codage
II.3 Théorème du codage de source (1° théorème de Shannon)
II.4 Techniques de codage de source : codage de Shannon-Fano, codage d’Huffman.
Fiche d’exercices (TD2) page 25
III Capacité et codage de Canal (cas discret) : III.1 « Canaux » de la théorie de l’information III.2 Capacité d’un canal discret
III.3 Codage de canal et théorème fondamental (2° théorème de Shannon)
Fiche d’exercices (TD3) page 34
IV Eléments de Théorie de l’Information dans le cas d’un canal continu (Introduction) Cas d’un canal continu à Bruit Blanc Additif Gaussien, Entropie et formule de la Capacité, Annexes : représentation géométrique des signaux et th. fondamental dans le cas continu, performances de diverses modulations par rapport aux limites de la théorie de l’information.
Fiche d’exercices page 43
Avant propos
Ce document présente des notes de cours (et exercices) d’introduction à la Théorie de l’Information. Le contexte illustré est surtout tourné vers celui des communications point à point (contexte initial pour lequel la théorie de l’Information a été développée par Claude Shannon), mais le champ d’application de la Théorie de l’Information est beaucoup plus vaste.
La figure 1 schématise une chaîne de transmission (entre un émetteur / un destinataire) numérique :
Codage Source
SOURCE Codage
Canal
FI
Débits binaires (bit/sec) : Db(S) ≥ Db(U) ≤ Db(B)
FI
Étage RF Emetteur Transpo. HF Amplification filtrage
Étage RF Récepteur
Filtrage, Amp faible bruit
Transpo. HF CAG
Démodulateur
Demod I/Q Egalisation Synchronisation
Décision bits formation symboles
a[m]
M O D I / Q
Modulateur
voies I Q
Canal RF physique Perturbations
(bruit, échos, brouilleurs …) (numérique
ou numérisée)
signal
Signal émis
Signal reçu
x(t)
r(t)
S
bits
U
bits
B
Décodage Source DESTINA‐
TAIRE
S’ Décodage
Canal bits
U’
bits
B’
Source normalisée
Destinataire normalisé
« Canal » normalisé
* Décodage canal avec décisions « dures »
« Canal » binaire de capacité C (théorie de l’information)
FI: fréquence intermédaire, typiquement 70MHz à 400 MHz RF: radio‐fréquences, typiquement 900 Mhz à 5 GHz CODAGE
(pouvant inclure « cryptage »)
DECODAGE (pouvant inclure « décryptage »)
figure 1: Schéma global typique d’une transmission numérique sur fréquence porteuse Dans la chaîne d’émission, on part de la source numérique (symboles discrets) jusqu’au signal analogique émis x(t):
On a d’abord une partie CODAGE, qui transforme la suite de symboles discrets ‘S’ en une autre suite de symboles discrets ‘B’. Le but du codage peut être multiple :
- Sécurité de l’information : cryptage, authentification (=> « Cryptographie » ou science du secret), - Rentabilité : compression des données (« Codage de source »)
- Tolérance aux erreurs de transmission : correction / détection d’erreurs (« Codage de Canal »)
On a ensuite une partie TRANSMISSION DU SIGNAL NUMERIQUE qui transforme la suite de symboles numériques en un signal analogique x(t) adapté au support de transmission : cette opération est désignée généralement par modulation numérique.
Les outils généraux de la Théorie de l’Information peuvent être utiles pour de nombreux domaines, et seront étudiées d’abord en tant que tels dans le présent document (principalement en considérant des Variables Aléatoires discrètes) . L’application de la T.I. au domaine des communications apporte un éclairage sur les parties codage/décodage :
« codage de source » et capacité liée au « codage de canal » seront présentés dans ce document. Notons qu’elle apporte aussi un élégant éclairage sur les performances des modulations numériques, ce que nous évoquerons brièvement avec la dernière partie consacrée aux Variables Aléatoires continues et au canal à Bruit Blanc Additif Gaussien.
Notations :
Débit littéral d’une source discrète X : - symbole : D(X) symb/sec - binaire (équivalent) : Db(X) bit/sec Une source numérique est caractérisée par son débit littéral (à ne pas confondre avec son « débit d’information » du vocabulaire de la Théorie de l’Information), défini comme le nombre d’éléments (symboles) qu’elle émet, en moyenne s’il y a lieu, par unité de temps, c’est à dire par seconde.
Pour une source X émettant des symboles Q-aire (avec Q états possibles), il est naturel de considérer le débit littéral symbole, D(X), avec pour unité les symboles par seconde. Notons que ce débit symbole littéral n’indique pas de manière transparente la quantité de « données » transmise par seconde, il faut préciser la taille de l’alphabet des symboles (Q) ou le point de la chaîne considéré (la taille de l’alphabet peut varier d’un point à l’autre : groupement de ‘lettres’ pour former des ‘mots’, passage en binaire, …).
Il peut parfois être commode (pour faire des comparaisons notamment) de considérer un débit binaire (ou bit) littéral équivalent, que nous noterons Db(X) , avec pour unité de temps les bits par seconde. Pour passer du débit symbole (littéral) au débit binaire équivalent, on a la correspondance :
Db(X) = D(X) . lb(Q) bit/s avec lb(Q) en bit/symb
Notes : Cette définition est valable même si lb(Q) n’est pas entier (d’où le mot « équivalent »).
Pour des symboles binaires (Q=2), on a Db(X) = D(X).
Annexe 1 : Liaison point à point ou réseau de communication ?
Aujourd’hui, de nombreux systèmes de transmission numériques de données opèrent en réseau, où cohabitent plusieurs émetteurs et destinataires de données. En plus du lien physique entre deux éléments, de nouvelles questions apparaissent concernant les stratégies de coopérations ou de relais, les voies de retour, la limitation due aux interférences, …, ce qui amène au domaine de la Théorie de l’Information des Réseaux. Le présent cours d’introduction ne couvre pas directement ces questions, en traitant majoritairement le cas de la liaison point à point, mais donnera les outils de base (notamment en Théorie de l’Information) nécessaires pour pouvoir les aborder. Nous donnons ci-dessous quelques références en « Network Information Theory » pour le lecteur désireux d’aller plus loin :
T.M. Cover, J.A. Thomas, " chapter 15: Network Information Theory" from "Elements of information Theory" , Wiley and Sons, Second Edition, 2006,
Ephremides, b. Hajek, "Information Theory and communication networks: an Unconsummated Union", IEEE Trans. It Information theory, vol. 44, n ° 6 October 1998,
L.L. Xie, P.R. Kumar, "A network information Theory for Wireless. Communication: Scaling Laws and optimal Operations" , IEEE Trans. On information Theory, flight 50, n ° 5, May 2004,
http://www.ece.uwaterloo.ca/~llxie/pdf_files/XieKum04.pdf http://www.ipam.ucla.edu/publications/cnself/cnself_4005.pdf
Chia-Ping Chen, "Network Information Theory" , race of National Sun Yat - Sen University, http://slpl.cse.nsysu.edu.tw/cpchen/courses/ita/l14_network.pdf
Annexe 2 : Théorie de l’Information quantique .
Nous pouvons mentionner aussi que depuis les années 2000, la théorie de l’information dite classique (ou de Shannon) est en train d’être généralisée pour le cas où l’information est échangée au moyen de ressources (états, canaux) quantiques. Dans ce cadre, on peut encore obtenir des théorèmes indiquant les limites du possible en termes de stockage ou transmission fiable d’information (information étant alors protégée par des codes correcteurs d’erreurs quantiques). Le lecteur intéressé par ce nouveau champ d’étude pourra consulter entre-autre les références ci-dessous :
Charles H. Bennett, Peter W. Shor, " Quantum Information Theory" , IEEE Transaction on Information Theory, vol. 44, n°6, October 1998.
http://www.mcl.hu/wcdma/Pubs/qInfo.pdf
M.A. Nielsen and Isaac L. Chuang, " Quantum Computation and Quantum Information" , Cambridge 2000.
http://michaelnielsen.org/blog/qcqi/QINFO-book-nielsen-and-chuang-toc-and-chapter1-nov00.pdf
I. Eléments généraux de théorie de l’information : Mesure d’information
I.1 Historique et introduction
La théorie de l’information est née dans le contexte de la théorie statistique des communications. Ses méthodes, essentiellement mathématiques, ont permis de rendre compte et d’expliquer l’évaluation des performances des systèmes de communications, en raisonnant au niveau le plus élémentaire, abstraction faite des moyens ou supports physiques.
- 1928, Hartley : 1° tentative de définition scientifique d’une « quantité d’information »
- 1948, C. Shannon : introduit le nouveau concept de « quantité d’information » de façon mathématique , en déduisant les principales conséquences : réel début de la « théorie de l’information ».
Référence: Claude E. Shannon, A Mathematical Theory of Communication, Bell System Technical Journal, vol. 27, pp.379-423 and 623-656, July and October 1948, http://pespmc1.vub.ac.be/books/Shannon-TheoryComm.pdf
Pour définir une théorie scientifique de l’information, il a fallu tout d’abord partir d’une définition scientifique du mot « information », avec donc un sens précis qui peut différer du langage usuel. On cherche à attribuer une quantité numérique du contenu informatif des messages à l’aide des probabilités d’émission des différents messages, avec une quantité d’information importante si le message est inattendu. Le sens du mot « information » est donc très restrictif par rapport au langage « usuel », puisqu’on ne se préoccupe pas de la signification (coté
« subjectif ») du message, ni de la personnalité du destinataire. L’approche probabiliste des communications se justifie (outre la présence d’un bruit additif) par le fait que si il n’y avait aucune incertitude sur le message émis, il n’y aurait pas d’information à la réception du message.
Le champ d’application de la théorie dépasse largement celui des techniques de communication, elle constitue une puissance de synthèse considérable pour expliquer des expériences parfois surprenantes dans des domaines aussi différents que la physique (thermodynamique, optique, rayonnement, …), la biologie, voire aussi la sociologie, l’économie …
Appliquée aux communications, l’objectif (initial) de la T.I. est de caractériser de manière probabiliste la source, le canal, et le destinataire afin d’évaluer les limites théoriques de transmission en fonction des divers paramètres, et de mettre en œuvre les systèmes de codage / décodage adéquats. On évalue ainsi numériquement :
1. la quantité d’information émise par une source discrète de symboles
2. la capacité de transmission d’information d’un canal bruité, c'est-à-dire la quantité d’information maximale (par élément ou pas seconde) qui peut être transmise de manière fiable dans le canal.
On note que la connaissance du débit littéral de la source ou du canal ne suffit pas à évaluer 1. ou 2, en remarquant que :
- une source qui émet le même symbole 1000 fois / seconde n’apporte aucune information,
- un canal qui transmet 1000 symboles par seconde n’achemine pas la même quantité d’information si la probabilité d’erreur Pe = 10-1 ou Pe =10-6.
Aujourd’hui, le champ de recherche / application de la T.I. ne concerne non plus seulement la capacité des liaisons point à point (chaîne de Shannon) mais l’optimisation et la capacité des réseaux complexes de communication. De manière plus futuriste et en perspective de l’ordinateur et des moyens de communications quantiques, la T.I. s’intéresse aussi à l’optimisation pour le cas où l’information n’est plus portée par un symbole discret à 2 états (par exemple) mais par un élément obéissant aux lois de la mécanique quantique (qubit, pour quantum bit) (Cf Chapitre « Avant propos »).
Mais ces deux derniers points ne seront pas abordés dans ce cours d’introduction.
I.2 Quantité d’information associée à la réalisation d’un évènement
La quantité d’information associée à la réalisation d’un événement parmi N possibles reflète objectivement l’imprévisibilité ou le degré d’incertitude de l’événement. Elle est donc d’autant plus grande que la probabilité de l’événement était petite (Note : incertitude importante avant l’événement quantité d’information importante après).
Contexte :
On se place dans le cadre d’une expérience aléatoire délivrant un évènement (ou résultat) s parmi un ensemble fini de N évènements élémentaires (résultats) possibles : As = { s1 , s2 , …, sN } , tels que si sj = , i, j, i≠j
L’évènement certain est E = (s1 U s2 U … U sN).
A chaque résultat est associé une probabilité p(si) [0, 1], encore notée pi. On a bien sûr
N
i
pi
E
1
1 )
Pr( .
La plupart du temps dans le cours, les N évènements élémentaires seront les N messages possibles délivrés par une source discrète S à un instant donné. As est alors l’alphabet de la source S, et {pi}i =1..N, le jeu de probabilités associé.
Notations :
Le résultat en sortie de la source S peut être modélisé par une Variable Aléatoire (V.A.) discrète, et les évènements devraient en toute rigueur être notés {S = si } et les probabilités Pr({S = si}) ou encore pS( si ) , en tant que distribution de probabilité (discrète) de S. Mais nous utiliserons le plus souvent les notations abrégées si et p(si).
dans le cas où l’expérience délivre plus d’un résultat, (si , uj ) correspondra à l’évènement {S = si } {U = uj } pris dans un espace de dimension NS NU, où S et U sont 2 V.A. (de dimensions respectives NS et NU).
Quantité d’information associée à un évènement (à l’émission d’un symbole par une source discrète)
La quantité d’information obtenue en observant la réalisation de l’évènement S = si , (source S émettant le symbole si ) de probabilité pi ([0, 1]), est par définition :
h(si ) = – K . ln( pi ) où K est une constante réelle positive qui dépend de l’unité choisie
Propriétés : la fonction f = -log a été choisie car elle seule (parmi les fonctions continue monotone) a les propriétés:
- d’obtenir une fonction h(si) = f(pi) décroissante avec la probabilité de l’événement pi ,
- d’additivité pour des évènements indépendants : de sorte que l’observation de deux évènements statistiquement indépendants (émission indépendante de deux symboles si1 et si2 par exemple) fournisse une information cumulée : h(si1 , si2) = h(si1) + h(si2)
En effet, l’indépendance mène à p(si1 , si2) = pi1 pi2 , et finalement à f( p(si1, si2) ) = f(p(si1)) + f(p(si2))
L’information ainsi définie est une grandeur toujours positive. Si la source émet le symbole s avec la probabilité p = 1 (événement certain), on a une quantité d’information nulle h(s) = 0 associée à cet évènement certain.
Unité d’information
La constante K est libre : choisir K consiste à choisir une unité d’information. Cela revient à choisir la base b du logarithme : h(si ) = –logb ( pi ), avec alors K = 1 / ln( b),
Différents choix possibles pour différentes unités : base b=e => natural unit (nit), : b=10 => decimal unit (dit) ou Hartley, …
Choix le plus fréquent (utilisé dans le cours), base b = 2 => log binaire : lb(x) = log2(x) = ln(x) / ln(2) : h(si ) = – lb( pi ) unité Sh (Shannon)
Le Shannon (Sh) fait parti du système international des unités de mesure des grandeurs physiques.
Note : initialement (ouvrages anciens, articles de C. Shannon, …) l’unité Sh était dénommée « bit » pour « binary unit », mais avec le risque de confondre avec le digit binaire (symbole de l’alphabet binaire) qui ne transporte 1 Sh d’information que si les deux états possibles sont équiprobables (p(0) = p(1) = ½).
Exemples et remarques :
pour une source discrète binaire d’alphabet As = {0, 1}, - si p(0)= p(1) =1/2 => h(0)=h(1)= 1 Sh
- si p(0) = 0,2 et p(1) = 0,8 => l’émission d’un 0 correspond à une quantité d’information h(0) = 2.32 Sh ; l’émission d’un 1 à h(1) =0,32 Sh
pour une source S, avec N messages équiprobables : h(si ) = – lb( 1/N) = lb(N)
- information apportée par un chiffre décimal, si les 10 chiffres sont équiprobables : Lb(10) = 3.32 Sh - si N = 2n (formé à partir de n bits) => h(si ) = n Sh
information apportée par les évènements : - tirage d’une carte parmi 32 : -lb(1/32) = 5 Sh.
- tirage de 2 cartes respectivement dans 2 jeux différents de 32 cartes : 5 Sh + 5 Sh = 10 Sh.
I.3 Entropie ou contenu d’information moyen d’une source discrète S
I.3.a) Source discrète simple (ou « sans mémoire », ou « indépendante ») :
Une source discrète simple (et stationnaire) émet des symboles de manière indépendante à des instants successifs, avec la même loi de probabilité d’un symbole à l’autre. Les symboles appartiennent à un alphabet As = {s1 , s2 , … , sN } de taille N, avec les probabilités respectives p1, p2 , … , pN pour les N symboles possibles (on a donc
0 ;1Pr avec , 1
1
n n
N
n pn p S s ) ;
Modèle mathématique : Une source discrète (stationnaire) S peut ainsi être modélisée par une suite de m variables aléatoires (V.A.) : Sm = S[1] , S[2], …, S[m] , d’indice temporel i = 1, 2, …, m (représentant les instants d’émission des symboles). Chaque V.A. S[i] est à valeur dans As et de même distribution {pn}n=1…N. La situation est celle des processus discrets. Dans le cas d’une source simple, toutes les V.A. sont de plus générées indépendamment. Une source discrète simple produit ainsi en sortie une suite de symboles (1 réalisation) : sm = s 1, s 2 , … , s m avec 1 i N, et si As, de probabilité p( Smsm ), ou p(s 1, s 2 , … , s m ) = p 1 p 2 … p m , en raison de l’indépendance.
Note de vocabulaire : le mot « symbole » désigne ici de façon générale les éléments de la source. Selon le contexte, ces éléments pourront être des lettres, des mots de plusieurs lettres, … , et on pourra utiliser le vocabulaire le plus adéquat.
I.3.b) Entropie de la source discrète simple S : quantité moyenne d’information que la source délivre par symbole :
N
n
n
nlb p
p S
h E S H
1
) (
) ( )
( en Sh/symb
L’entropie définit ainsi l’incertitude moyenne au sens des probabilités de l’expérience aléatoire : S { sn } Notes :
on parlera indifféremment de l’entropie H(S) de la source S ou de l’entropie H(p1, p2 , … , pN) (ou encore HN(p1, p2
, … , pN-1)) de la loi de probabilité (p1, p2 , … , pN). La notation H(S) largement utilisée est en fait un abus de notation. Elle semblerait dire que H est fonction de la V.A. S, alors que H n’est qu’un nombre, en réalité fonction seulement de la distribution de probabilité {pn}n=1…N , et qui ne dépend même pas des valeurs de l’alphabet As.
la définition H(S) ci-dessus est en fait d’abord celle de l’entropie d’une V.A. S. Elle s’étend au cas où S est une source discrète simple (i.e. une séquence de V.A.) grâce à l’indépendance (entropie par symbole, à chaque instant).
Annexe : mais dans le cas d’une source avec mémoire (évoquée en I.5), l’entropie (moyenne) a une définition plus complexe, basée sur l’entropie conjointe normalisée des symboles successifs, ou à partir de l’entropie conditionnelle du symbole présent, connaissant tous les symboles précédemment générés. La valeur moyenne de l’entropie par symbole H(s) de la source avec mémoire a une valeur nécessairement inférieure à celle donnée par la formule
N
n
n
nlb p
p
1
)
( , ce qui pourra être facilement déduit des propriétés de l’entropie conjointe (I.4.b).
exemple pour une source binaire : p = probabilité de « 0 », 1-p = probabilité de « 1 »
H(s) = H2(S) = - p.lb(p) – (1-p).lb(1-p) Cf figure 2
=> l’entropie est maximale et vaut = 1 Sh/symb quand les 2 symboles binaires sont équiprobables 1 élément binaire (ou bit) ne véhicule 1 Sh que lorsque les 2 états sont équiprobables (p = 0.5)
=> la quantité d’information moyenne d’information H(S) tend vers zéro lorsqu’un des symboles devient beaucoup plus fréquent que l’autre
(on adopte la convention pi log pi = 0 pour pi =0, vraie seulement en limite)
H(S)
(Sh/digit)
0 0.2 0.4 0.6 0.8 1
p
1 0.8 0.6 0.4 0.2
figure 2: Entropie d’une source binaire dissymétrique en fonction de la probabilité d’un des 2 symboles autres exemples :
alphabet de N lettres équiprobables :
N
n lb lb N
S H
1 eq
[N] ( ) ( ) Sh/symb H
)
( N1
N 1
=> pour un symbole à N = 4 états => H= 2 Sh/symb
alphabet français : si on suppose les 27 lettres (avec caractère espace) équiprobables, H = lb(27) = 4.75 Sh/symb En fait, H 1 à 2 Sh/symb car les lettres ne sont pas équiprobables et les symboles ne sont pas indépendants (probabilités conjointes) : Contraintes supplémentaires (information liée) => baisse de l’entropie !
Avant de décrire les propriétés de l’entropie (majoration), citons ci-dessous l’énoncé de l’inégalité fondamentale qui constitue un lemme fort utile en théorie de l’information, et que nous utiliserons à plusieurs reprises:
Inégalité de Gibbs :
Soient deux distributions de probabilités P= {p1, p2, …, pK} et Q= {q1, q2, …, qK } définies sur un même nombre d’éléments K (avec donc 1, et ,
0 ;11 1
k k
K k
K
k k
k q p q
p ) .
- on a l’inégalité :
K
k k
k pk
lb q p
1
0 ) (
. (soit
K
k
K k
k k k
k lb p p lbq
p
1 1
) ( . ) (
. )
- l’égalité ayant lieu pour « pk = qk ; k = 1 …K »
Démonstration se déduit de l’inégalité « x +, ln(x) x-1 » (égalité seulement si x = 1) en posant x = qk / pk , en multipliant par pk, et en faisant la somme pour tout k.
Note : DKL(P||Q)
K
k k
k
k q
lb p p
1
) (
. est la Divergence de Kullback-Leibler ( ≥ 0) entre les distributions P et Q.
Propriétés de l’Entropie :
continuité : l’entropie H(S) = H(p1, p2 , … , pN) est une fonction continue de chaque variable pi sur [0, 1[
symétrie : par rapport à toutes les variables pi : i, j H(p1,…, pi, … , pj, … , pN) = H(p1,…, pj, … , pi, … , pN)
encadrement : H(S) est positive et majorée :
0 H(S) lb(N) démonstration à partir de l’inégalité de Gibbs appliquée à qk = 1/N et à pk ,
=> on a donc une majoration de H(S) par Heq [N] = lb(N), c’est à dire que H(S) est la plus grande lorsque les symboles indépendants de la source simple sont équiprobables, pn = 1/N, ce qui correspond à l’incertitude globale la plus grande.
I.3.c) Redondance d’une source: écart relatif à l’entropie maximale Heq [N] (que permettrait la taille N de son alphabet) )
( -H(S) 1 )
(S lb N
R
Permet d’apprécier l’usage que fait la source de son alphabet, c’est à dire l’adéquation de cet alphabet au message délivré par la source. On a 0 R(S) 1, avec une pleine utilisation lorsque la redondance est nulle.
I.3.d) Débit d’information par seconde d’une source:
L’entropie exprime une quantité d’information moyenne par symbole. Pour s’affranchir de préciser la taille de l’alphabet (N) des symboles, qui peut varier d’un point à l’autre de la chaîne (extensions, codage de source, …), on a souvent intérêt à discuter de la quantité d’information moyenne par seconde (Sh / seconde), que l’on nommera ici Débit d’information :
Débit d’information (ou Débit entropique)
Ht (S) = H(S) . D(S) Sh/sec où D(S) : débit symbole littéral (symb/s)
Notes :
1- Ne pas confondre le débit d’information Ht(S) (en Sh/sec) avec le débit binaire littéral (équivalent) Db(S) (bit/sec) . On a l’inégalité : Ht (S) Db (S) = D(S).lb(N) puisque H(S) lb(N)
2- Dans certains ouvrages, le débit d’information est dénommé « Entropie par seconde », ou « Débit entropique » ce qui correspond bien à sa définition.
exemple débit d’information : avec alphabet binaire (N=2) et Db(S) = 34 Mbit/s
- alphabet binaire équiprobable (p1 = p2 = 0,5) => H(S) = 1 Sh/bit, Ht(S) = 34 MSh/s, redondance R(S) = 0;
- alphabet binaire tel que (p1 = 0,2 ; p2 = 0,8) => H(S) = 0.72 Sh/bit, Ht(S) = 24.5 MSh/s.
redondance R(S) = 28%;
I.3.e) Cas de l’extension d’une source simple:
Extension d’une source simple
Soit une source simple S = ({si}, {pi}) de N lettres (1 symbole = 1 lettre). L’extension d’ordre k de S, notée Sk, émet des messages (mots) xj , en nombre Nk , construits à partir de k symboles (ou k lettres) si , qui peuvent s’écrire :
xj = sj1 sj2 … sjk et dont les probabilités sont : p( xj ) = p(sj1 ) . p(sj2 ) … p( sjk ) (On a donc 1 symbole étendu = 1 mot de k lettres)
Entropie de l’extension d’une source simple : H( Sk ) = k .H(S), en Sh / mot de k lettres
Cette propriété se déduira immédiatement des résultats à venir sur la dépendance entre 2 Variables Aléatoires ( I.4 ).
Exercice E1 : On utilise un alphabet de 3 lettres A, B, C de probabilité respective : pA = 0,7 ; pB = 0,2 ; pC = 0,1 ;
Source S1 : émet successivement des mots de 1 lettre (indépendance d’une lettre à l’autre).
Source S2 : émet des mots de 2 lettres (statistiquement indépendantes), avec indépendance d’un mot à l’autre.
Source S3 : émet des mots (groupement de 2 lettres non indépendantes), avec indépendance d’un mot à l’autre.
On donne les probabilités de mots suivantes : pAA = 0,6 ; pAB = 0,1 ; pAC = 0 ; pBA = 0,06 ; pBB = 0,1 ; pBC = 0.04 ; pCA = 0,04 ; pCB = 0 ; pCC = 0.06 ;
Calculer les entropies H(S1), H(S2) et H(S3) à partir des jeux de probabilités.
Commentaires sur l’exercice : but est de revoir les règles de probabilités élémentaires (Cf I.4). Attention à n’utiliser la formule de l’entropie qu’après s’être assuré que la source était simple. Pour S3, la source n’est pas simple si on considère l’émission des lettres, elle l’est pour l’émission des mots (1 symbole de la source simple = 1 mot de 2 lettres).
Exercice E2 : On tire à Pile ou Face avec une pièce équilibrée jusqu’à obtenir Pile. Donner la loi, puis l’Entropie du nombre de lancés nécessaire, X. (Annexe : nombre moyen de questions binaires pour identifier efficacement X ?) N.B. : formulaire mathématique : pour q [0 ;1[, on a
q q
n n
1
1
1
et
21
1
1 1 q q
n
n
n
.
Note annexe au paragraphe I.3 : théorie de l’information et thermodynamique [ Léon Brillouin, « La science et la théorie de l’information », Masson, 1959] : l’entropie ainsi définie est en « correspondance » avec l’entropie rencontrée en théorie statistique de la thermo-dynamique (H = k ln(P) où k= cte de Boltzman, P = nombre d’états stables possibles à l’échelle atomique), qui mesure l’ « état de désordre » d’un système physique ; L’entropie thermodynamique représente en fait le manque d’information sur la véritable structure du système (acquisition d’information sur le système physique => baisse de l’entropie thermodynamique).
I.4 Diverses entropies entre 2 Variables Aléatoires et Information mutuelle:
On considère le cas de 2 V.A. X et Y, qui peuvent être dépendantes ou non, et on va définir des entropies et informations mutuelles entre ces 2 V.A., permettant une mesure de leur degré de ressemblance. Ces concepts sont particulièrement importants lorsqu’on considère une source avec mémoire (X et Y peuvent alors représenter les résultats aléatoires à 2 instants différents). Dans un autre contexte (Ch2.III), X et Y pourraient représenter les entrée / sortie d’un canal discret bruité. Ou encore plus directement, X et Y peuvent représenter (le résultat à un instant donné de) deux sources sans mémoire diffusant des messages plus ou moins ressemblants.
Les 2 V.A. X et Y sont donc respectivement caractérisées par les deux alphabets {x1, x2, …, xN } et {y1, y2, …, yM }, avec les probabilités { p(x1), p(x2), …, p(xN)} et { p(y1), p(y2), …, p(yM) } .
On note que le couple (X, Y) peut-être assimilé à une source virtuelle émettant le mot ( x i , yj ) de deux lettres.
I.4.a) Rappel probabilités conjointes, marginales, conditionnelles
probabilités conjointes : aux variables aléatoires X et Y qui viennent d’être définis dans deux espaces d’épreuves {x1 , x2 , …, xN} et {y1 , y2 , …, yM }, on peut définir le champ conjoint {x}{y}={x}{y} sur le produit cartésien de ces espaces, auquel est associé un tableau P(X,Y) de N x M probabilités conjointes p(xi , yj).
=> Pr( X = xi ; Y = yj ), noté en abrégé p(xi , yj) : probabilité pour que le mot (xi , yj) soit émis par la source virtuelle.
probabilités marginales : ( ) ( , )
1
j M
j i
i p x y
x
p
et ( ) ( , )
1
j N
i i
j p x y
y
p
=> p(xi ) : probabilité pour que la lettre xi soit la première lettre du mot émis
on a donc les relations :
N
i M
j
M
j j N
i i j
i y p x p y
x p
1 1 1 1
1 ) ( ) ( ) , (
probabilités conditionnelles : p(xi / yj)
p(x i / yj ) désigne la probabilité d’émettre x i sachant que yj est émis (Pr(X = x i | Y= yj) en notation plus rigoureuse).
Lorsqu’on a la connaissance que yj est émis, l’ensemble des évènements possibles (mot ( xi , yj ) émis), initialement produit cartésien {x}{y} de cardinal NM a été réduit à l’ensemble de N événements {x}{yj}.
Les probabilités associés sont les probabilités conditionnelles : p( x1 / yj ), p( x2 / yj ), …, p( xN / yj ) Elles peuvent s’exprimer à partir des probabilités conjointes et marginales :
) (
) , ) (
/ (
j j i j
i p y
y x y p
x
p
Résultat fondamental : établir l’axiome des probabilités totales : p (yj) en fonction de p (yjxi) et de )
(xi
p .
I.4.b) Entropie conjointe H(X, Y)
L’incertitude moyenne (ou quantité d’information moyenne par mot) de (X, Y) est donnée par l’entropie conjointe (ou composée) :
N
i M
j
j i j
i y lb p x y
x p Y
X h E Y X H
1 1
) , ( . ) , ( - ) , ( ) , (
Si X et Y indépendants, somme des entropies marginales : H(X,Y) = H(X) + H(Y)
Si X = Y : H(X, Y) = H(X) = H(Y)
Cas général : l’observation globale de (X, Y) apporte moins d’information que la somme des informations apportées par les observations séparées de X et Y :
0 H(X,Y) H(X) + H(Y)
avec égalité à droite si et seulement si X et Y sont indépendants.
démonstration à partir de l’inégalité de Gibbs, avec pk = p(xi , yj), qk = p(xi ).p( yj) , pour les K = NM valeurs de k en fait H(X,Y) Max{H(X) ; H(Y)}
I.4.c) Entropies conditionnelles H(X / Y):
L’incertitude moyenne (ou indétermination, ambiguïté) sur X après la connaissance de Y (quantité d’information qu’il reste à acquérir pour connaître X lorsque Y est connu) est donnée par l’entropie conditionnelle :
N
i M j
j i j
i y lb p x y
x p Y
X H
1 1
) / ( . ) , ( - ) / (
H(X / Y) correspond à l’espérance de g(X,Y) = -lb{p(X | Y}, qui peut s’obtenir en sommant avec les poids de la distribution conjointe de probabilité p(xi, yj) du couple (X,Y).
Cette expression peut aussi être obtenue en revenant à l’information élémentaire associée à xi conditionnellement à la réalisation de yj : h(xi / yj) = -lb( p(xi / yj) :
Indétermination (incertitude moyenne, entropie) sur X lorsque Y est connu et égal à Y = yj : )) / ( ( . ) / ( - ) / ( . ) / ( ) / (
1 1
j i N
i
j i N
i
j i j i
j p x y h x y p x y lb p x y
y Y X
H
Indétermination sur X sachant Y, moyennée sur l’ensemble des valeurs possibles de Y :
M
j
j j H(X / Y y ) y
p Y
X H
1
. ) ( ) / (
En utilisant la définition des p. conditionnelles, on retrouve la 1° définition de H(X / Y).
Relation entre les entropies :
H(X / Y) = H(X, Y) – H(Y)
démonstration à partir de la définition de H(X,Y) et en utilisant : p(xi , yj) = p(yj). p(xi / yj), Exercice : interpréter la relation ci-dessus en terme de chaîne, et généraliser à n V.A., avec n >2.
Cas particuliers :
Si X et Y indépendants : H(X / Y) = H(X)
Si X = Y : H(X / Y) = 0
Cas général : on en déduit une majoration en utilisant la majoration de H(X, Y) : 0 H(X/Y) H(X)
avec égalité à droite si et seulement si X et Y sont indépendants
=> l’entropie conditionnelle H(X / Y) est inférieure ou égale à la quantité d’information apportée par X, puisque la connaissance de Y réduit l’incertitude sur X.
I.4.d) Information mutuelle I(X ; Y): quantité d’information (moyenne) partagée par X et Y, en Sh /symb
C’est à dire la quantité d’information que la donnée de l’une des deux variables du couple de variables dépendantes (X,Y) apporte sur l’autre.
I(X ; Y) mesure l’écart par rapport à l’indépendance entre X et Y, avec les définitions équivalentes : I(X ;Y) = H(X) + H(Y) - H(X,Y)
I(X ; Y) = H(X) – H(X/Y) ; I(X ; Y) = H(Y) – H(Y/X)
Si X et Y indépendants : I(X ; Y) = 0 ;
Si X = Y : I(X ; Y) = H(X) = H(Y)
Cas général :
0 I(X ;Y) H(X) ; et 0 I(X ;Y) H(Y) ;
Le diagramme de Venn résume, pour le cas de 2 Variables Aléatoires, la définition de l’information mutuelle ainsi que les relations entre les différentes entropies qui ont été définies dans le paragraphe I :
H(X) H(Y)
H(X/Y) H(Y/X)
H(X, Y)
I(X,Y)
figure 3 : diagramme de Venn
Le calcul de l’information partagée entre X et Y peut se faire directement à partir des probabilités marginales et conjointes, ce qui se déduit des définitions précédentes de I(X, Y) :
N
i M
j i j
j i j
i p(x ).p(y ) y x lb p y x p Y
X I
1 1
) , . (
) , ( ) ; (
Note Annexe :
1) On considère parfois (en particulier dans les applications de communication, X : entrée, Y : sortie d’un canal) que l’information mutuelle (moyenne) I(X ;Y) est une grandeur plus importante que l’entropie. C’est pourquoi dans certains ouvrages, on commence à définir I(X ;Y) à partir d’une information mutuelle élémentaire i(x,y), et la définition de l’entropie s’en déduit :
i(xi , yj) = lb{ p(xi /yj)/p(xi ) } = i(yj , xi ) => quantité d’information apportée par la réalisation Y = yj , sur l’état possible de X, X = xi : réduction de l’incertitude sur X.
I(X ; Y) = E{ i(xi , yj) } et H(X) =I(X ; X).
2) I(X ; Y) peut aussi être interprété comme une « entropie relative » (ou distance de Kullback Leibler) entre la masse de probabilité conjointe p(xi , yj) et la masse de probabilité « produit » p(xi ) p(yj).
3)
Extension au cas de 3 V.A. discrètes X, Y, Z :
on peut définir les entropies entre 3 V.A. (exemple H(X,Y,Z) ) mais l’information mutuelle se mesure seulement entre 2 V.A. (Cf interprétation en terme de « distance » de Kullback Leibler).
mais on peut par exemple définir l’information mutuelle conditionnelle de X et Y connaissant Z :) , ( ) ( )
;
( X Y Z H X Z H X Y Z
I (
)) ( ).
(
) , ( (
).
, , (
1 1 1 i k j k
k j i k
j N
i M
j L
k
i p z p z
z lb p
z y x
p x y
y
x
).
Annexe : en présence d’un nombre de V.A. supérieur à 2, le diagramme de Venn peut ne pas être valide, en tout cas si on veut que les différentes entropies correspondent à des surfaces à valeurs positives (Cf cas où l’information mutuelle entre 2 V.A. augmente après connaissance d’une 3° V.A. Exemple : X, Y indépendants et Z = X+Y: on a I(X ;Y) = 0 donc H(X) et H(Y) doivent être représentées par 2 surfaces disjointes dans le diagramme de Venn, mais problème de représentation si on connait Z car alors I(X ;Y| Z) > 0 …).Exercice
(Note : Les exemples les plus utiles seront donnés en III lorsque X et Y seront les entrées /sorties d’un canal) Considérons ici le cas de deux sources discrètes binaires X, Y telles que :
- X émet de manière indépendante et équiprobable les symboles « 0 » et « 1 »
- Y émet de manière dépendante de X : le symbole « 1 » si X émet « 0 », les symboles « 0 » ou « 1 » de manière équiprobable si X émet 1
En déduire les diverses probabilités, entropie et information mutuelle du système (X,Y) ?
I.5 Source de Markov : une introduction
Jusqu’à présent : source sans mémoire (indépendance d’un symbole émis à l’autre). En pratique, il y a souvent dépendance temporelle entre les symboles x[n] émis par la source aux indices temporels n.
1.5.a) Entropie d’une source Markovienne (d’ordre M=1) :
Soit une source X à N symboles (ou états) possibles {x1 , x2 , …, xN }, dont l’état X[n+1] à l’instant n+1 dépend de l’état X[n] à l’instant n, selon la matrice de transition
M
:Pr( X[n+1] / X[n] ) à [n+1]
de [n] x1 … xN
x1 p1 / 1 pN / 1
…
xN p1 / N pN / N
Avec pi / j = Pr(X[n+1] = xi | X[n] = xj ) On a donc : /
1
1, 1, ...,
N i j i
p j N
La dépendance par rapport à tout le passé se résume donc à celle de l’état qui est atteint.
(pour une définition plus précise : X[1] -> X[2] -> …-> X[n] -> X[n+1] forme une chaine de Markov).
à l’instant n : le système est caractérisé par un jeu de probabilité P[n] ={p1[n] , p2 [n] , …, pN[n]} pour les différents états {x1 , x2 , …, xN }, avec pj [n] = Pr { X[n] = xj }
à l’instant n+1 : le jeu de probabilité change P[n+1] = { p1[n+1] , p2 [n+1] , …, pN[n+1] } , avec
/ 1
[ 1] N . [ ], 1, ...,
i i j j
j
p n p p n i N
Soit sous forme vectorielle :
[n 1]
[ ]n
. P
P M
Etat stationnaire du système : On montre que si la matrice est telle que tous les états « communiquent effectivement » (c'est-à-dire si il est possible de passer de n’importe quel état à n’importe quel autre état en un nombre fini de fois. En particulier la matrice ne doit comporter aucune colonne de zéro) le système atteint (pour n suffisamment grand) un état stationnaire pour lequel le jeu de probabilité P* = {p1 , p2 , …, pN } n’évolue plus d’un instant à l’autre.
Notes :
- l’état stationnaire est atteint (plus ou moins vite) quelque-soit le jeu de probabilités initial P[0] . Bien sûr, si l’état initial correspond déjà aux probabilités stationnaires, alors la chaine de Markov forme un processus stationnaire (P[0] = P*).
- P* est donc solution du système linéaire :
P . P M
, avec la condition supplémentaire1
1
N
i
p
i . Entropie (moyenne par symbole): l’entropie par symbole de la source (« entropy rate »), notée H(X), ou
H ( X )
(définie en annexe) joue le rôle de l’entropie des sources avec mémoire. Lorsque la source est avec mémoire, la connaissance des symboles passés rend moins inattendu le symbole qui va être émis. Il y a ainsi une réduction de l’entropie qui résulte de la prise en compte du passé dans l’appréciation des symboles émis.Pour une source de Markov stationnaire,
H ( X )
est égal à l’entropie conditionnelle de la source à un instant, connaissant l’état précédent (notée HM1(X)). Ainsi, pour une source de Markov d’ordre 1, l’entropie par symbole peut être calculée lorsque le jeu de probabilité stationnaire est atteint, par :) (
)
(
[ 1] [ ]1 n n
def
M
X H X X
H
avec
N
j N
i i j j i j
def n
n X p p lb p
X H
1 1 / /
] [ ] 1
[ ) ( . ) ( )
(
Ce qui est équivalent aussi, d’après la définition de l’entropie conditionnelle (Cf I.4) à la valeur moyenne de l’indétermination sur X, conditionnée par les différents états précédents possibles :
[ ] [ 1]
1
1
( ) . ( / )
N
n n
M j j
j
H X p H X X x
avec [ ] [ 1] / /1
(
n/
n j)
N i j. (
i j)
i
H X X
x p lb p
ANNEXE : Cas d’une source avec mémoire plus générale (pas nécessairement stationnaire ni de Markov) Soit une source définie par une séquence de V.A.
X
[1], X
[2],..., X
[n] avec possible dépendance entre les V.A.- Entropie moyenne (Entropy Rate) : mesure l’incertitude moyenne par symbole de la source. La définition générale de
l’entropie (par symbole) est :
1 . ( , ,..., )
lim )
(
[1] [2] [n]n
def
H X X X
X n
H
, en Sh/symbole.- pour une source stationnaire, l’entropie moyenne peut aussi être calculée comme l’entropie conditionnelle de la V.A.
présente, connaissant celles passées. Alors ( ) lim ( [ ] [1], [2],..., [ 1])
n n
n H X X X X
X
H
- pour une source de Markov stationnaire, l’entropie (moyenne) est réduite à H(X)H(X[n] X[n1]), où l’entropie conditionnelle est calculée en utilisant la distribution stationnaire.
1.5.b) Annexe 1 : chaîne de Markov et « Data Processing Theorem » :
En 1.5.a), la source avec mémoire d’ordre 1 introduite, représente en fait une chaîne de Markov : X[1] -> X[2] -> X[3] -> …-> X[n-1] -> X[n] -> …
Plus formellement :
Chaine de Markov : Soit X, Y, Z, 3 variables aléatoires discrètes d’alphabets finis. Elles forment une chaîne de Markov dans le sens X -> Y-> Z ssi Z est indépendante de X conditionnellement à la connaissance de Y, soit de manière équivalente :
Pr(Z = z | Y = y, X = x) = Pr(Z = z | Y = y) ou
Pr(Z = z , Y = y , X = x) = Pr( X = x ). Pr( Y = y | X = x). Pr(Z = z | Y = y)
« Data processing Theorem » : Si X -> Y-> Z forment une chaîne de Markov, alors : I(X ; Z) I(X ;Y) Aucun traitement sur Y ne peut augmenter l’information que Y contient sur X.
1.5.c) Annexe 2 : extension à la source de Markov d’ordre M : symbole envoyé à l’instant « n » dépend des M précédents symboles, envoyés aux instants « n-1 » à « n-M ». Généralisation du cas M=1.
La source X est parfaitement connue avec les probabilités de transition :
Pr(xi / X j ) = Pr( x[n] = xi / X j ) , avec X j l’état de la source pour les M symboles précédents
1 1
( / j) - N ( / i j) . ( / i j) - N ( i / j) . ( i / j)
i i
H X X p x X lb p x X p X X lb p X X
avec X i = ( x[n], …, x[n-M+1] ) ; X j = ( x[n-1], …, x[n-M] )
L’entropie de la source X est la moyenne des entropies conditionnelles :
1
( ) - ( ) . ( / )
M
j j
M
j
N
H X p X H X X
Cette entropie peut être calculée à partir des probabilités de transition p(Xi, Xj), rassemblées dans la matrice de transition T(NM x NM) où Tij= p(Xi, Xj).
On montre que HM(X) est une suite décroissante telle que :
0 HM(X) HM-1(X) ... H1(X) H0(X) lb(N) avec H0(X) : entropie de la source sans mémoire
Maintenant que les notions générales de théorie de l’information ont été introduites, nous allons voir comment elles peuvent s’appliquer aux problèmes du codage afin de déterminer les limites théoriquement atteignables. Le codage sera séparé en « codage de source » et « codage de canal », car cette séparation peut être réalisée sans perte d’optimalité dans le cas d’une liaison point à point (1 émetteur vers un destinataire), comme l’a montré Claude Shannon*.
* Notons que la séparation du codage en « codage de source » - « codage canal » sans perte d’optimalité ne serait plus forcément vraie dans le problème plus général de la communication en réseau, domaine de recherche actuel, comme développé dans :
M. Gastpar, M. Vetterli, and P.L. Dragotti. “Sensing reality and communicating bits: A dangerous liaison - Is digital communication sufficient for sensor networks?” , IEEE Signal Processing Magazine, 23(4):70–83, 2006.