• Aucun résultat trouvé

Occurrences de mots dans un texte g´en´er´e par un L-syst`eme

4.1 Cadre combinatoire

ne peuvent donc plus ˆetre mises en œuvre ici. L’objectif de ce chapitre est donc de pr´e-senter une m´ethode combinatoire permettant de d´eterminer la distribution du nombre d’occurrences d’un mot donn´e dans un texte g´en´er´e al´eatoirement par des L-syst`emes stochastiques apr`es N ´etapes de production. La majorit´e des r´esultats pr´esent´es par la suite sont issus de Loi and Courn`ede (2010). Cette m´ethode repose sur une approche symbolique (voir les travaux de Philippe Flajolet et notamment son ouvrage de r´ef´e-rence Flajolet and Sedgewick (2009)). La premi`ere ´etape consiste `a ´ecrire une bonne sp´ecification pour les classes combinatoires d’int´erˆet (voir la section 4.3.1). Autrement dit, il s’agit de d´ecomposer ces classes d’int´erˆet en un ensemble de classes combinatoires dont la structure est plus simple `a partir de constructions admissibles. Dans cette op-tique, nous introduisons une nouvelle structure alg´ebrique pour l’ensemble des classes combinatoires pond´er´ees construites `a partir d’un ensemble de mots (les textes g´en´er´es par les L-syst`emes stochastiques peuvent ˆetre consid´er´es comme des mots pond´er´es dont le poids est la probabilit´e de r´ealisation des textes).

Dans une premi`ere section, nous pr´esentons le cadre combinatoire associ´e aux en-sembles de mots pond´er´es (Section 4.1). Nous introduisons en particulier une structure de semi-anneau se basant sur de nouveaux op´erateurs union et concat´enation. La section suivante (Section 4.2) pr´esente le mod`ele probabiliste li´e aux textes g´en´er´es al´eatoire-ment par des L-syst`emes stochastiques avec entre autre le lien avec les processus de branchement multitypes. Ensuite, la section 4.3 introduit la m´ethode symbolique. Nous y pr´esentons des conditions sur les op´erateurs d´efinis dans la section 4.1 pour obtenir des constructions admissibles mais aussi des th´eor`emes de d´ecomposition pour les classes combinatoires d’int´erˆet. Ce chapite se termine par des exemples soulignant les difficult´es que l’on peut rencontrer dans un tel contexte. Dans tout le chapitre, les variables (ou vecteurs) al´eatoires sont d´efinies sur un espace de probabilit´e (Ω,F,P).

4.1 Cadre combinatoire

4.1.1 Classes combinatoires pond´er´ees

Nous ´enon¸cons tout d’abord quelques concepts de combinatoire que nous ´etendons ensuite dans un cadre plus large. Rappelons tout d’abord la notion de classe combinatoire ainsi que celle de fonction g´en´eratrice (voir Flajolet and Sedgewick (2009) pour plus de d´etails) :

D´efinition 4.1.1 (Classe combinatoire) Une classe combinatoire (ou simplement une classe) est un ensemble fini ou d´enombrable sur lequel est d´efinie une fonction taille |.| satisfaisant les conditions suivantes :

• la taille d’un ´el´ement est un entier naturel ; • le nombre d’´el´ements d’une taille donn´ee est fini.

La fonction g´en´eratrice est l’outil math´ematique central de la combinatoire permettant d’´etudier les classes :

D´efinition 4.1.2 (Fonction g´en´eratrice d’une classe combinatoire) La fonction g´en´eratrice Ψd’une classe C munie d’une fonction taille |.| est la s´erie formelle donn´ee par la forme combinatoire suivante :

Ψ(z) =X

t∈C z|t|.

En r´earrangeant les termes de la fonction g´en´eratrice Ψ, nous obtenons la s´erie enti`ere formelle suivante : Ψ(z) =X t∈C z|t|=X n∈N Anzn

avec An le nombre d’´el´ements de C ayant une taille n. D´eterminer la fonction g´en´e-ratrice d’une classe combinatoire permet donc de compter le nombre d’´el´ements d’une taille donn´ee appartenant `a cette classe . En pratique, la fonction g´en´eratrice est ob-tenue `a partir d’une relation fonctionnelle faisant intervenir entre autre des fonctions g´en´eratrices de classes combinatoires connues (ou tout du moins plus faciles `a caract´e-riser). Cette relation est g´en´eralement ´etablie `a partir de la forme combinatoire de Ψ puisque celle-ci permet de d´ecomposer une classe selon les caract´eristiques propres `a sa structure combinatoire (voir la section 4.3 `a propos de la m´ethode symbolique).

Nous introduisons maintenant le concept de classe combinatoire pond´er´ee. Il s’agit en fait d’une extension de la d´efinition de classe combinatoire dans le cas o`u un nombre r´eel positif ou nul peut ˆetre associ´e `a chacun de ses ´el´ements :

D´efinition 4.1.3 (Classe combinatoire pond´er´ee) SoitC une classe combinatoire. Une classe combinatoire pond´er´ee est un ensemble W C ={(t, pt) | t∈C} tel que :

• ∀t∈C, ∃! (t, pt)∈C×R+/(t, pt)∈W C; • X

t∈C

pt<∞.

Pour tout t ∈C, le nombre pt est appel´e poids associ´e `a t.

N.B. 4.1 Si W C ={(t, pt) | t ∈C}} est une classe combinatoire pond´er´ee, alors C

est appel´ee classe combinatoire associ´ee `aW C.

Nous introduisons maintenant un type particulier de classe combinatoire pond´er´ee :

D´efinition 4.1.4 (Classe combinatoire stochastique) Une classe combinatoire sto-chastique est une classe combinatoire pond´er´ee SC = {(t, pt) | t ∈ C} telle que X

t∈C

pt= 1.

Le concept de fonction g´en´eratrice associ´ee `a une classe combinatoire peut facilement s’´etendre au cas pond´er´e :

4.1. Cadre combinatoire 69

D´efinition 4.1.5 (Fonction g´en´eratrice d’une classe combinatoire pond´er´ee) Soit

W C = {(t, pt) | t ∈C}} une classe combinatoire pond´er´ee avec C la classe associ´ee. Soit |.| une fonction taille d´efinie sur C. La fonction g´en´eratrice de W C munie de la fonction taille |.| est la s´erie formelle donn´ee par la forme combinatoire suivante :

Ψ(z) = X

t∈C

ptz|t|.

N.B. 4.2 Pourz ∈[0,1], la fonction g´en´eratrice d’une classe combinatoire stochastique

SC munie de la fonction taille |.| co¨ıncide avec la fonction g´en´eratrice associ´ee `a la variable al´eatoire Z donnant la taille d’un ´el´ement tir´e al´eatoirement dans SC selon la loi multinomiale dont les param`etres sont donn´es par les poids des ´el´ements :

∀z ∈[0,1], Ψ(z) =X

t∈C

ptz|t|=X

n∈N

P(Z =n)zn.

L’extraction des coefficients de Ψ sous forme d’une s´erie enti`ere permet ainsi d’obtenir la distribution deZ.

4.1.2 Ensembles de mots pond´er´es

D´efinition et fonction g´en´eratrice

Nous pr´esentons maintenant le cadre combinatoire attach´e aux ensembles de mots pond´er´es. Les notations suivantes sont valables pour tout le reste du chapitre. Soit

V = {v1, . . . , vm} un alphabet de taille m. Soit W l’ensemble des mots construits `a partir de V etW+ l’ensemble des mots non vides (W+=W r{ǫ} avecǫ le mot vide).

D´efinition 4.1.6 (Fonction de comptage) La fonction de comptage cest une appli-cation de W ×W+ dans N telle que, pour tout (w, u) ∈ W × W+, c(w, u) donne le nombre de mots u dans le mot w (les recouvrements sont pris en compte).

Pour tout u ∈ W+, c(•, u) est une fonction taille sur W (la taille d’un ´el´ement est alors donn´ee par le nombre de mots u qu’il contient). Ainsi, tout sous-ensemble de W

est une classe combinatoire munie de cette fonction de comptage.

D´efinition 4.1.7 (Ensemble de mots pond´er´es) Un ensemble de mots pond´er´esG = {(w, pw) | w∈ G} est une classe combinatoire pond´er´ee dont la classe associ´ee G est un sous-ensemble de W.

La fonction g´en´eratrice donn´ee par la d´efinition 4.1.5 peut donc ˆetre utilis´ee pour les ensembles de mots pond´er´es munis d’une fonction de comptage. Nous pouvons mˆeme ´etendre cette notion dans le cas o`u l’on s’int´eresse au comptage de plusieurs mots :

D´efinition 4.1.8 (Fonction g´en´eratrice associ´ee `a une famille de mots) Soit G = {(w, pw) | w ∈ G} un ensemble de mots pond´er´es et U = {u1, . . . , ul} une famille de mots deW+. La fonction g´en´eratrice deG associ´ee `aU est la s´erie formelle donn´ee par la forme combinatoire suivante :

Ψ(z1, . . . , zl) = X w∈G pw l Y i=1 zc(w,ui) i .

Structure alg´ebrique

Nous d´efinissons une structure alg´ebrique pour l’ensemble de tous les ensembles de mots pond´er´es W construits `a partir deW :

W ={G ={(w, pw) | w∈G} | G est un ensemble de mots pond´er´es de W}.

Dans cette optique, de nouveaux op´erateurs union et concat´enation sont d´efinis surW.

D´efinition 4.1.9 (Op´erateur union ‘ + ’) Soient G et H deux sous-ensembles de

W. L’union des ensembles de mots pond´er´es G = {(w, pw) | w ∈ G} et H = {(v, qv) | v ∈H} est d´efinie de la fa¸con suivante :

G+H=   [ x∈G\H {(x, px)}  ∪   [ x∈H\G {(x, qx)}  ∪ [ x∈G∩H {(x, px+qx)} ! .

Exemple SoitV ={c, d}un alphabet. SoientG ={(cd, p1),(c, p2)}etH ={(cd, p3),(d, p4)} deux ´el´ements deW. Alors :

G+H ={(c, p2),(d, p4),(cd, p1+p3)}.

N.B. 4.3 Notons que + est diff´erent de l’op´erateur union «standard» ∪. En effet, supposons par exemple queG ∩H 6={}. Il existe alors (w, p)∈ G ∩H. Dans ce cas, (w, p) est un ´el´ement de G ∪ H mais pas n´ecessairement de G+H (voir l’exemple ci-dessus avec le mot cd en prenant p1 = p3 = p : (cd, p) est pr´esent `a la fois dans G et H mais pas dans G+H).

N.B. 4.4 + est une loi de composition interne pourW. Elle est ´egalement associative, commutative et poss`ede l’ensemble vide {} comme ´el´ement neutre.

Par la suite, nous utiliserons la convention de notation suivante : {(w1, pw1)}+{(w2, pw2)}+. . .+{(wn, pwn)}=

n

X

i=1

{(wi, pwi)}.

D´efinition 4.1.10 (Op´erateur concat´enation ‘ . ’ ) SoientGetHdeux sous-ensembles de W. La concat´enation des ensembles de mots pond´er´es G = {(w, pw) | w ∈ G} et H={(v, qv) | v ∈H} est d´efinie de la fa¸con suivante :

G.H= X

(w,v)∈G×H

{(w.v, pwqv)} avec w.v la concatenation (au sens classique) des mots w et v.

4.2. Textes g´en´er´es al´eatoirement par des L-syst`emes stochastiques 71

Exemple SoitV ={c, d}un alphabet. SoientG ={(d, p1),(dc, p2)}etH={(cc, p3),(c, p4)} deux ´el´ements deW. Alors :

G.H ={(dcc, p1p3)}+{(dc, p1p4)}+{(dccc, p2p3)}+{(dcc, p2p4)} ={(dc, p1p4),(dccc, p2p3),(dcc, p1p3+p2p4)}.

Par convention, nous posons F.{} = {}.F = {}. Ainsi, W a une structure de semi-anneau (voir Duchamp et al. (2005) et Klima and Polak (2008) pour des exemples de semi-anneaux en th´eorie des automates et des languages).

D´efinition 4.1.11 (Semi-anneau) (S,+, .,0,1) est un semi-anneau si : • (S,+,0) est un mono¨ıde commutatif avec 0 comme ´el´ement neutre ; • (S, .,1) est un mono¨ıde avec 1 comme ´el´ement neutre ;

• la multiplication est distributive par rapport `a l’addition ;

• 0 est un ´el´ement absorbant de S par rapport `a la multiplication. Dans ce cas, nous avons :

Th´eor`eme 4.1.1 (W, + , . ,{},{(ǫ,1)}) est un semi-anneau. L’ensemble vide {} et {(ǫ,1)} sont respectivement les ´el´ements neutres pour ‘ + ’ et ‘ . ’.

Preuve La preuve est imm´ediate et repose sur des manipulations ´el´ementaires des op´erateurs ‘ + ’ et ‘ . ’. Notons tout de mˆeme que w.ǫ = ǫ.w = w. La quatri`eme propri´et´e de la structure de semi-anneau (voir la d´efinition 4.1.11) est due au fait que, pour toutG ∈ W, G.{}={}.G={}.

4.2 Textes g´en´er´es al´eatoirement par des L-syst`emes