Introduction - Pépite | Méthodes des moments pour l’inférence de systèmes séquentiels linéaires

5.2.1 Algorithme NNSpectral . . . 108 5.2.2 Factorisation en matrices non-négatives . . . 109 5.2.3 Moindres carrés non-négatifs . . . 109

5.3 Expériences . . . 110

5.3.1 Trois ensembles de données . . . 110 5.3.1.1 Compétition PAutomaC . . . 110 5.3.1.2 Corpus Penn-Treebank . . . 110 5.3.1.3 Wikipédia . . . 110 5.3.2 Critères d’évaluation . . . 111 5.3.2.1 Perplexité . . . 111 5.3.2.2 Taux d’erreur de mots . . . 111 5.3.2.3 Vraisemblance conditionnelle . . . 111 5.3.2.4 Nombre moyen de bits par caractère . . . 111 5.3.3 Algorithmes utilisés en comparaison . . . 112

5.4 Implémentation . . . 112

5.4.1 Estimation de séries auxiliaires . . . 112 5.4.2 Choix de la base . . . 113 5.4.3 Normalisation de la variance . . . 114 5.4.4 Taille des modèles . . . 114 5.4.5 Mesure du temps de calcul . . . 115 5.4.6 Apprentissage de processus stochastiques . . . 115

5.5 Résultats . . . 116

5.5.1 PAutomaC . . . 116 5.5.2 Penn-Treebank . . . 121 5.5.3 Wikipédia . . . 122

5.6 Comparaison à l’état de l’art . . . 127 5.7 Conclusions . . . 127

5.1 Introduction

Au chapitre 3, nous avons vu que l’algorithme Spectral et plusieurs de ses variantes étaient consistants pour l’inférence de langages stochastiques rationnels sur IR. De plus, les algorithmes proposés réalisent un apprentissage PAC. Ces garanties s’étendent naturellement aux processus stochastiques. Pour les processus contrôlés, en fonction de la politique utilisée pour générer les exemples d’apprentissage, nous pouvons obtenir le même genre de garanties. Malheureusement, nous avons aussi remarqué que pour ces algorithmes l’apprentissage est impropre. C’est-à-dire que les valeurs retournées par la série apprise ne sont pas forcément positives et ne somment pas à 1 comme pour une distribution de probabilité. Ce défaut, détaillé à la Section 1.4.4, provient du fait qu’il est indécidable de savoir si un IR-MA réalise une série positive. Dans cette introduction, nous allons détailler deux propriétés qui peuvent causer une erreur mal contrôlée dans la série estimée. Nous verrons que la divergence de la série estimée peut causer une erreur absolue exponentiellement grande mais que celle-ci peut être contrôlée par normalisation. Puis, nous expliquerons qu’une erreur relative peut néanmoins subsister à cause de la non-robustesse de la représentation linéaire des IR- MA stochastiques.

Analysons d’abord la probabilité jointe d’une séquence. Celle-ci est un polynôme des coefficients de la représentation linéaire. Lorsque les coefficients sont estimés, l’erreur sur la probabilité d’une séquence de longueur l augmente exponentiellement avec l dans le cas général. Cette propriété est due à la divergence probable de la série estimée. Au Chapitre 3, nous avons expliqué que si le nombre d’exemples servant à l’apprentissage était suffisamment grand, la série estimée était néanmoins absolument convergente avec forte probabilité. Cependant, ces garanties théoriques ne sont pas suffisantes en pratique car l’on ne dispose pas forcément d’un nombre d’exemples suffisants. De plus, ce nombre d’exemples n’est pas toujours calculable.

Pire, dans le cas des distributions conditionnelles, l’erreur peut devenir très grande, dès lors que l’on conditionne par rapport à des évènements très peu probables. Prenons, l’exemple des processus stochastiques ou des processus contrôlés pour lesquels le filtrage bayésien est très utilisé dans les applications. Dans les applications, on souhaite souvent prédire la prochaine observation sachant les observations précédentes (et les actions prises dans le cas des processus contrôlés). Le calcul de la distribution conditionnelle se fait naturellement par la règle de Bayes. Soit o1:t la séquence d’observations jusqu’au temps t, et (α0, A, α∞) une représentation linéaire apprise du processus stochastique observé, alors nous avons

P (ot+1|o1:t) = P (o1:t+1) P (o1:t) , avec P (o1:t+1) = α>0Ao1:t+1α∞ et P (o1:t) = α >

0Ao1:tα∞. Ainsi, les erreurs d’estimation

de la représentation linéaire se répercutant sur l’estimation du dénominateur peuvent causer une forte instabilité dans la distribution conditionnelle. Si P (o1:t) est très faible, l’erreur d’estimation peut facilement rendre le dénominateur négatif ou, pire, nul. Du côté des analyses non-asymptotiques, Hsu et collab. [2012] relèvent des difficultés pour borner l’erreur sur la distribution conditionnelle, en particulier à cause des séquences d’observations peu probables. Afin de minorer le dénominateur, les auteurs font l’hypothèse que les probabilités de transitions sont elles aussi minorées.

Afin d’obtenir des probabilités à partir de valeurs potentiellement négatives et ne sommant pas à 1, plusieurs heuristiques ont été proposées pour obtenir des distributions de probabilités sur des ensembles finis d’événements. On peut, par exemple, remplacer

les valeurs négatives par zéro, ou bien prendre la valeur absolue, puis normaliser localement. Dans la plupart des cas, obtenir des distributions pour des ensembles finis d’événements, par exemple sur le prochain symbole dans la séquence, est suffisant. En fait, cette normalisation locale permet de s’affranchir du problème de la divergence de la série.

Cependant, nous constatons que ces heuristiques ne sont pas entièrement satisfai- santes pour la raison suivante. Pour les IR-MA, comme les coefficients des matrices de transitions peuvent être négatifs ou positifs, une erreur, même très faible, peut causer un changement de signe entrainant, par multiplications et additions successives, une erreur relative très grande entre les probabilités des évènements de la distribution bien que celles-ci soient normalisées. Autrement dit, la représentation n’est pas robuste, comme précisé en Section 1.4.4. Pour résumer, ce n’est pas un problème de divergence car nous effectuons une normalisation locale mais plutôt un problème d’erreur relative. Partant de ce constat, nous proposons de se limiter à l’inférence de langages stochastiques rationnels sur IR+-MA. En proposant, un algorithme d’apprentissage, appelé NNSpectral, retournant uniquement des IR+-MA, nous condamnons tout changement de signe dans les paramètres estimés. De même, nous pouvons alors retrouver des distributions sur des ensembles finis d’événements par normalisation locale. L’espoir est qu’en bannissant les changements de signes des coefficients, l’erreur relative soit quelque peu contrôlée. L’ensemble des IR+-MA, dont fait l’objet ce chapitre, est représenté dans la hiérarchie d’automates établie au Chapitre 1 sur la Figure 5.1.

séries rationnelles positives

p o id s d e la r ep rés_en ta_t_i o

n liné_{aire positifs} langag

es co_m plètement obser vab le c o n tie n t u n sy st èm e c om p_l éte ment_observable IR-MA

IR+-MA PNFA PRFA PDFA S_IRrat(Σ)

Figure 5.1 – Hiérarchie entres les classes d’automates. Dans ce chapitre, nous nous intéressons à la classe d’automate en magenta épais.

Enfin, nous mentionnons ici que l’algorithme NNSpectral est conçu pour apprendre indifféremment tout type de séries formelles rationnelles sur IR+, en particulier les processus stochastiques et les processus contrôlés. Nous limitons l’explication et les expériences aux langages stochastiques mais le principe est strictement le même.

Dans le document Pépite | Méthodes des moments pour l’inférence de systèmes séquentiels linéaires rationnels (Page 123-126)