Projet - Entropie et applications

(1)

Projet - Entropie et applications

1 Principes introductifs et codage

L’entropie est un concept qui transcende les disciplines scientifiques : on le retrouve en physique pour caractériser le désordre d’un système, en théorie de l’information pour caractériser la quantité d’information, en mathématiques pour l’incertitude. Rien qu’en informatique ses applications sont fondamentales et très diverses : en compression, en aide à la décision, dans des problèmes de séparation de sources (en signal par exemple), en algorithmique pour l’approximation de problèmes NP-complet.

La notion d’entropie a été principalement formalisée en informatique par Shannon vers 1948. Le problème auquel il s’attaquait était de réussir à quantifier la notion d’information contenue dans un message émis par une source vers un récepteur (pour répondre à des questions de bruitage), ce qui a contribué à la naissance à la théorie de l’information.

Supposons que l’on joue à deviner un nombre x^∗ dans N = [0,100] : à chaque tour le joueur peut demander si le nombre à deviner est plus grand ou plus petit qu’un nombrex. Une stratégie naturelle consiste à découper l’ensemble en deux parties égales, et ceci pour une raison simple : soitA_xetB_x la partition opérée parx,Ax contenant les éléments inférieurs à x etB ceux supérieurs. La probabilité de trouver x lorsque l’on sait x^∗ est dans A_x ou B_x est identique, 2/|N|. Si le découpage n’était pas égal, en fonction de la réponse, notre probabilité aurait pu être meilleur ou pire. Une stratégie conservative nous fait préférer naturellement le partitionnement équilibré, en considérant que sans autre information supplémentaire, il est préférable de garder des probabilités optimales quelque soit la réponse à la question.

En communiquant une unité d’information, on a divisé par 2 le nombre de possibilités. Selon cette méthode, pour spécifier complètementx^∗, on aurait besoin de log₂|N|unités d’information. Spécifier un élément dansA_x (sachant qu’il appartient àA_x) revient à transmettre selon le même raisonnement log₂|A_x| information. Ainsi, lorsqu’on transmet l’information qu’un élément appartient à |A_x, on transmet en fait log₂|N| −log₂|A_x|= log₂_|A^|N|

x| unit´es d’information.

Supposons maintenant que le joueur adverse est notre meilleur ami d’enfance et que l’on sait qu’il y a une chance sur deux pour que le nombre soit entre 0 et 10. Devrait-on faire le même choix ? Si on pose comme première questionx= 10 ?, alors la probabilité de trouver la réponse est 0.5∗0.1 + 0.5∗0.9 = 0.055, plus élevé que précédemment.

On complique le jeu : vous devez devinez deux nombres cette fois, toujours face à votre meilleur ami d’enfance. Si un tricheur vous communique l’un des deux nombres, préférez vous que ce soit un nombre de A₁₀ entre 0 et 10 ou deB₁₀entre 10 et 100 ? La part d’information que l’on vous communique sur les deux nombres à deviner est toujours la même pour n’importe quel nombre deA10, de même pour n’importe quel nombre de B₁₀. Cependant, comme il vous faudrait plus de questions pour spécifier un nombre de B₁₀ (ou vous avez une plus faible chance de trouver au hasard un nombre de B₁₀), le tricheur vous aide beaucoup plus en vous communiquant un nombre de B10 que de A10 qui aurait sinon une probabilité de 0.5^|B_|N¹⁰_|^| d’être trouvé. En reprenant le calcul ci-dessus, l’information d’un

´

el´ement x de B₁₀ est log₂0.5_|B^|N^|

10| =−log₂P(x), P ´etant la distribution de probabilit´e sur les choix de mon ami.

L’entropieS peut être vu comme l’information moyenne obtenue en tirant un élément d’une distribution, soit pour une variable aléatoireXdenmodalités :S(X) =−Pn

i=1p_ilog₂p_i. Plus la distribution est proche de la distribution uniforme, plus l’entropie est grande (maximum en −log₂n). Plus un

(2)

´

elément de la distribution est prépondérant, plus l’entropie est basse. L’entropie est ainsi une mesure de dispersion de la loi de probabilité.

Pour deux distributions P et Q, on d´efinit l’entropie relative S(P||Q) =P

xP(x) log₂^P_Q(x)^(x) qui peut ˆ

etre vu comme une sorte de distance entre les deux distributions (distance non sym´etrique).

Préliminaires Codez une fonctionentropie(l)qui permet de calculer l’entropie de la distribution représentée par la listel= [p₁, ..., p_n]. Codez la fonctiondivergence(p,q)qui code l’entropie relative (appelée aussi divergence) entre la distributionp etq.

Tracez le graphique de l’entropie pour une variable al´eatoire binaire, pouvant prendre 2 valeurs uni- quement, l’une avec une probabilit´e pl’autre 1−p, en fonction dep.

2 Entropie et classification de texte

Soit X une variable aléatoire à valeur dans l’ensemble des caractères d’un alphabet A. Un texte de longueur n est la réalisation des n variables aléatoires X1X2· · ·Xn (ce qu’on appelle un processus séquentiel). X₁ dénote le premier caractère, X₂ le deuxième et ainsi de suite. On peut ainsi définir la distribution Pn sur les textes de longueurn. Si les textes d’une langue étaient composés de toutes les combinaisons possibles de caractère de la langue,Pn serait uniforme. Ce n’est bien sûr pas le cas.

L’objectif de cette partie est d’´etudier l’information contenue dans ses distributions sur les langues.

2.1 Entropie d’une langue

On d´efinit l’entropie d’un processus s´equentiel comme la limite de ^S(X¹^X_n²^···Xⁿ⁾ quand n tend vers l’infini :

— pourn= 1, S(X1) =−P

x∈Ap(X1 =x) logp(X1 =x),

— pourn= 2, S(X₁X₂) =−P

xy∈Ap(X₁ =x, X₂ =y) logp(X₁ =x, X₂ =y) (la probabilit´e des combinaisons de deux lettres) et ainsi de suite.

Il est bien sûr impossible de calculer explicitement cette entropie, on peut cependant l’estimer pour quelques valeurs petites den(et par d’autres moyens plus avancés). Pourn= 1, il nous faut estimer la probabilité d’apparition de chaque caractère ; pourn= 2 celle d’apparition de couple de caractères,. . ..

Codez les fonctions nécessaires à ce calcul, en particulier la fonctioncount ngrams(text,n)qui à partir d’un textetextet d’un entiern, rend le dictionnaire où chaque clé est une séquence dencaractères et la valeur associée le nombre de fois où elle apparaˆıt dans le texte (une suite de n caractères s’ap- pellent également un n-gram). Vous pourrez utiliser l’objetCounter() du modulecollectionspour compter le nombre d’occurences. Par simplification, vous pouvez ignorer les accents et les caractères spéciaux.

Indications Pour traiter les accents et autres caractères spéciaux, prenez soin de sauvegarder vos fichiers textes en utf8, vous pouvez ensuite utiliser ce code pour substituer la lettre correspondante aux caractères accentués.

1import c o d e c s

2import u n i c o d e d a t a

3w i t h c o d e c s . open ( fn , e n c o d i n g=" utf -8 ") a s f :

4 s=f . r e a d ( )

5s=u n i c o d e d a t a . n o r m a l i z e (" NFKD ", s ) . e n c o d e (" ascii "," ignore ")

Vous pouvez également construire une correspondance (mapping) entre caractères à subsituer et leur substitution en utilisantstring.translate :

(3)

1import s t r i n g

2t a b l e=s t r i n g . m a ke t r a ns (" abc "," bcd ") #t a b l e d e s c o r r e s p o n d a n c e s

3#a −> b , b−>c , c−>d

4s=s t r i n g . t r a n s l a t e ( s , t a b l e ," ! ") # d e r n i e r p a r a m e t r e : c a r a c t e r e s a s u p p r i m e r

Enfin le code suivant enlève les caractères d’espacement consécutifs et les remplacent pas un unique espace :

1import r e

2r e = r e . sub (" \ s "," ", r e . sub (" \ s (?=\ s ) "," ", s ) )

Exp´eriences

— Testez vos fonctions sur des textes d’une mˆeme langue (par exemple `a partir du site www.

gutenberg.org). Calculez l’entropie pour les n qui ne posent pas de probl`eme m´emoire. Que remarquez vous selon les langues et les valeurs de n?

— Soit T un texte et P^l la distribution de la langue l pour un certain nombre de langues. En utilisant l’entropie relativeS(T||P^l), on peut tenter de classifier le texte parmi une des langues.

Conduisez des exp´eriences en ce sens. Est-ce une m´ethode fiable ? Testez plusieurs longueurs de texte. Peut-on classer un mot ?

— Tracez les distributionsS_n^l sous forme d’histogramme. Cela vous semble-t-il plus informatif ?

2.2 Classification bay´esienne

Plutôt que de s’intéresser au caractère global des distributions, nous allons utiliser dans cette partie les probabilités de chaque sous-séquence pour calculer la probabilité qu’une séquence appartient à une langue. Nous noterons dans la suitew=w₁w₂w₃· · ·w_nun texte sur l’alphabetAdont les lettres sont w₁, w₂, w₃· · ·.

Nous voulons calculer : l^∗ = argmax_l∈Lp(l|w) où L est l’ensemble des langues que notre système connaˆıt, w le texte considéré et l^∗ est le résultat de la prédiction. La probabilité p(l|w) peut être déterminée grâce à la formule de Bayes : p(l|w) = p(w|l)·p(l)

p(w)

A quoi correspondent les différents termes de cette relation ? Peuvent-ils être tous calculés ? En particulier, est-il nécessaire de déterminer la probabilitép(w) ? Quelle hypothèse faut-il faire pourp(l) ?

Estimation du modèle Pour estimerp(w|l), nous allons procéder à une simplification, en considérant que toutes les lettres sont indépendantes : P(X₁ =w₁, X₂ =w₂, . . . X_n=w_n) =P(X₁ =w₁)P(X₂ = w2). . . P(Xn=wn). En quoi est-ce faux ? Comment se comporte cette probabilité quandnaugmente ? Cette méthode fonctionne-t-elle mieux pour la détection de langue d’un mot ou d’un texte ? Comment généraliser à la détection d’un texte ?

Expériences Comparez les résultats de cette méthode par rapport à la méthode entropique. Faites varier le nombre de texte qui servent à l’estimation des paramètres, comment se comportent les résultats ?

Amélioration On peut améliorer le modèle en supposant une dépendance d’ordre 1 entre les lettres, c’est-à-dire que Xi, Xi+1 sont dépendants. Dans ce cas, on a

P(X) =P(X1, ..., Xn) =P(Xn|X₁...Xn−1)P(X1...Xn−1) =P(Xn|Xn−1)P(X1...Xn−1)

. En continuant le d´eveloppement, on obtientP(X) =P(X_n|X_n−1)P(Xn−1|X_n−2)...P(X₂|X₁)P(X₁).

(4)

Codez cette amélioration. Qu’observez vous expérimentalement ? Est-il possible de généraliser à des dépendances d’ordre 2,3, etc ?

Génération de texte Comment utiliser les résultats ci-dessus afin d’engendrer un texte d’une taille ndonnée en fonction du modèle du langage ? Codez cette fonction et expérimentez.

2.3 Codage de Huffman

Le codage de Huffman est un algorithme de compression de données. SoitAl’alphabet de représentation des données et une donnéew=w₁..w_n. Pour décrire cette donnée, on doit représenter informatique- ment chaque lettre de l’alphabet par un code et la longueur de description de la donnée (la longueur de codage) est l(w) =P

l(wi). Si on considère l’alphabet de 26 lettres, on a besoin de log2(26) bits pour décrire chaque lettre, soit 5 bits (cf introduction). Dans ce cas, la longueur de codage de chaque mot ne dépend que du nombre de caractère, l(w) = nlog₂(26). L’espérance sur tous les mots de la langue Létudiée nous donne la longueur moyenne de codage d’un mot de la langue.

Lorsque les lettres ne sont pas équiprobables, ce codage n’est pas optimale : on souhaiterait utiliser des codes plus longs pour décrire des lettres très rares, des codes très courts pour des lettres très fréquentes afin de minimiser l’espérance. En effet, si on considère chaque lettre indépendante l’une de l’autre, l’espérance de la longueur de codage d’un mot de longueur m pour une langue L est EL(l) = _|L|¹ P

w∈L,|w|=ml(w) =P

w∈L,|w|=m

P

wi∈wl(w_i) =mP

wi∈Al(w_i)p(w_i)

Le codage de Huffman est un algorithme qui garantie l’optimalité du code obtenu (en considérant les lettres indépendantes). Le but est de construire un arbre binaire, tel que une lettre est associée de fa¸con bijective à une feuille de l’arbre et que le chemin de la racine à la feuille indique le codage de la lettre.

Pour trouver le codage d’une lettre, on parcourt l’arbre de la racine à la feuille concernée, en notant successivement 0 si la branche gauche du nœud a été choisie, 1 si c’est la branche droite. A l’issue du parcourt, le chemin est décrit par une suite de{0,1} selon les embranchements choisis. La lettre peut ˆ

etre remplacée par ce code, décodable de manière unique (en parcourant l’arbre selon la succession de 0 et de 1). Soit c(wi) le codage de la lettre wi, la longueur de la donnée compressée est alors l(c(w)) =P

l(c(wi)) : plus la feuille correspondant `a la lettre est profonde, plus la longueur du codage est grande (quelle lien entre les deux ?).

L’algorithme proposé par Huffman pour aboutir à un arbre de codage optimal (tel que l’espérance de la longueur de l’encodage soit minimale) consiste à construire de manière itérative l’arbre à partir de l’ensemble des feuilles.

— T est initialisé comme un ensemble d’arbres ti de profondeur 0, chacun correspondant à une lettre de l’alphabet. On dénotera pti le poids associé à l’arbre ti : dans le cas d’une feuille il s’agit de la probabilité d’apparition de la lettre correspondante.

— à chaque étape, on choisit les deux arbres ti et tj de T tels que les poids pti et ptj des deux arbres soient minimales. Les deux arbres sont retirés de la liste, un nouvel arbre t_k est ajouté dans la liste tel que le fils gauche de la racine det_k soitt_i et le fils droitt_j. Le poids du nouvel arbre estptk =pti+ptj : il correspond à la probabilité d’apparition d’une des lettres codés par le sous-arbre.

— On itère le processus tant qu’il reste plus d’un arbre dansT. L’arbre final est l’arbre de codage A l’aide de vos fonctions précédentes, codez les fonctions :

— codage(liste)qui prend une liste de couples (wi, pi) (la lettre et sa probabilit´e d’apparition) et renvoie l’arbre de codage optimal ;

(5)

— encode(s,code) qui permet d’encoder le mot savec l’arbre de codagecode;

— decode(s,code) qui permet de d´ecoder le mot savec l’arbre de codage code.

Expérimentez sur la longueur des codes obtenus dans le cas d’un langage aléatoire, dans le cas des langues que vous avez expérimentez ci-dessus.