• Aucun résultat trouvé

V2T Specification. CESI-Rouen. M. Messaadia M.A. Benatia

N/A
N/A
Protected

Academic year: 2022

Partager "V2T Specification. CESI-Rouen. M. Messaadia M.A. Benatia"

Copied!
15
0
0

Texte intégral

(1)

V2T Specification

CESI-Rouen

M. Messaadia

M.A. Benatia

(2)

TABLE DES MATIERES

1 INTRODUCTION ... 3

2 Technologies liees à la reconnaissance de la voix ... 3

2.1 Veille technologique ... 4

2.2 Table de Taguchi pour optimiser le rendement des essais ... 6

3 Implémentation & tests ... 7

3.1 Test de l’application ... 8

4 Résultats et discussion ... 13

5 Conclusion ... 14

6 BIBLIOGRAPHIE ... 15

(3)

1 INTRODUCTION

Dans le cadre du projet VISTA-AR, et spécialement le DPT nous avons besoin d’ajouter une fonctionnalité de reconnaissance vocale permettant la collecte des avis des utilisateurs. Cette fonctionnalité doit permettre à l’utilisateur d’enregistrer un commentaire en fin de visite à l’aide de sa voix. Le support utilisé sera le smartphone ou la tablette, les deux équipés de microphone. Le travail a donc pour objectif d’établir un état de l’art des technologies de reconnaissance vocale existantes, de comparer ces technologies en les testant et de proposer une logique d’intégration du processus à l’application.

Ce travail a été réalisé en collaboration avec l’université d’Exeter qui a permis les tests de transcription en version anglaise.

2 TECHNOLOGIES LIEES A LA RECONNAISSANCE DE LA VOIX

La reconnaissance vocale est une technologie révolutionnaire qui est de plus en plus adoptée pour permettre aux systèmes informatiques de reconnaître la parole humaine et d'y répondre. Cette technologie est actuellement utilisée dans plusieurs milieux pour permettre la saisie vocale dans les appareils pour ensuite l’utiliser que ce soit dans la médecine, le tourisme ou l’industrie.

Pour permettre aux développeurs d'accéder à leurs fonctionnalités et de les intégrer dans les environnements de travail, la plupart des applications de reconnaissance vocale ont exposé leurs API (Application Programming Interfaces). Par conséquent, les développeurs peuvent étendre leurs capacités et construire des systèmes intelligents capables d'identifier la langue parlée.

Figure 1. Processus de capture de la voix

Comme présenté dans la figure (Figure 1) l’analyse vocale suit trois étapes essentielles, la collecte de

la voix de l’utilisateur, filtrage du signal et le rendre numérique, et finalement application des

algorithmes de le Machine Learning pour la génération des mots. Il existe deux méthodes de machines

(4)

learning : Le Pattern Matching qui sera préféré pour des applications qui utilisent des signaux de paroles restreints. Ainsi, le signal sera comparé aux patterns préalablement définis. L’autre méthode, celle utilisée dans le cadre d’un projet comme le nôtre, est le DTW (Déformation temporelle dynamique).

Il s’agit d’un ensemble d’algorithmes qui compareront deux signaux présentant des contraintes de variabilité. HMM : Hidden Markov Model (Modèle Caché de Markov), ANN: Artificial Neural Network, DTW : Dynamic Time Warping (Déformation Temporelle Dynamique).

2.1 Veille technologique

Le premier travail réalisé était de voir les différentes API existantes et regarder les prix, l’OS supporté, la facilité d’utilisation et les langues supportées. Ensuite nous avons retenu celles qui présentaient un intérêt selon les premiers critères (coût, facilité d’usage, disponibilité de communauté, etc.) et surtout pouvaient être implémentées dans notre solutions.

Figure 1. Comparaison d’API [4]

Aussi, nous avons croisé notre veille technologique avec des travaux scientifiques ayant faits l’objet de telles comparaisons [2], [3].

Figure 2. Comparaison entre (sphinx, Google et Microsoft).

API API Features Number of supported Languages Price Ease of Use

Google Speech API

Convert audio to text, enable voice searches, build

voice-controlled cases 120

0-60 minutes free per month. Over 60 minutes priced at $0.006 / 15

seconds Easy

IBM Watson API

Convert audio to text, build voice-controlled cases,

customize the model 7

Free plan and paid plans from $0.002 to $0.01 per

minute Easy

SpeechAPI

Suppress noise backgrounds, classify speech

segments Limited Free Easy

Speech to Text API Convert audio to text 1

Free plan and paid plans from $500 to $1500 per Easy

Text-to-Speech API Convert text to speech 26

Free plan and paid plans from $5 to $300 per Easy

Rev.AI API

Convert speech to text, punctuation and capitalization, timestamp generation, livestreaming

transcription Limited

Free plan and pay-as- you-go pricing Easy

ReadSpeaker API Convert text to speech 20

Free plan and varying

paid plans Easy

Speech2Topics API

Extract topic metadata from audible media for

analysis Limited

Free plan and varying

paid plans Easy

Siri API Build voice-controlled virtual assistant Limited

Free plan and paid plans from $4.99 to $99.99 per

month Easy

Wit API

Provide natural language processing and voice

interface capabilities Limited Free Easy

PocketSphinx Convert Audio to text

English, German, French, Mandarin,

Russian Open Source Easy

(5)

Le résultat de la veille nous a permis d’identifier différentes API et mettre en place les critères d’évaluation. Ainsi, nous avons retenu onze (11) API que nous avons recensé dans la figure ci-dessous et comparé selon les critères (relatifs à l’API et le smartphone) retenus à savoir le coût, l’impact sur la batterie du téléphone ou la tablette, l’OS, la langue supportée, etc.

Figure 3. Tableau croisant les APIs

APICoûtImpact sur la batterieEnvironnementOSFormat deponse de l'APILangues supportéesFormats audios supportésDroits Execution (Cloud / Serveur Applicatif),Connexion Internet requise ? API vocapia0,01 / minC, C++, PHP, JAVA, JavaScriptFichier XMLanglais, arabe, italien, espagnol AAC, AIFF, ASF, FLAC, MS-Wave, MPEG, Ogg/Vorbis, Nist Sphere, SunAU API Google0,02 / min requête maximale (180 minutes, 10000 caracres C#, GO, JAVA, NODE.JS, PHP, PYTHON, RUBYAndroid, iOSFichier JSON toutes les langues repértores dans le BCP 47 de l'IETF Encoding : FLAC, LINEAR16, MULAW, AMR, AMR_WB, OGG_OPUS, SPEEX_WITH_HEADER_BYTEOUI API Nuance en attente deoponsedu service commercialJAVA, KOTLINAndoid Studio n-meilleurssultats avec indice deconfiance toutes les langues repértores dans le BCP 47 de l'IETFWMA, MP3, WAV, DSS or DS2. API AndroidGRATUIT Important lors d'un enregistrement en continuJAVAAndoid StudioArrayList<String> toutes les langues repértores dans le BCP 47 de l'IETF Manifest.permission : RECORD_AUDIO (l'utilisateur doit autorisé l'enregiistrement audio)NON API Amazon0,02 / min requête maximale (2 heures/ 50 kB / 256 caracres) .NET, C++, JAVA, JavaScript,PHP, PYTHON, GO, RUBYUnix, Linux, Windows, iOSFichier JSONAnglais(US), EspagnolAWS Account Root User

CMU SphinxGRATUITC, JAVA, PythonCross-PlateformAnglais, FrançaisNON

HTKCCross-PlateformAnglais JuliusGRATUITCCross-PlateformAnglais, Japonnais KaldiGRATUITC++Cross-PlateformAnglais RWTH ASRC++Linux, macOSAnglais API Microsoft Azure0,003 / transaction C#, JAVASCRIPT, JAVA, OBJECTIVE-CWindows, Android, iOS n-meilleurssultats avec indice deconfiance Anglais (US), Anglais (GB), Chinois, Allemand, Italien, Français, EspagnolKey API AZUREOUI Visiteurs sur siteUtilisation estie APINombre d'appels estis pour l'APIEnvironnementServeur ApplicatifRetour attenduLangage cible Format du fichier audio dans la requête Type d'authentification del'utilisateur2000000,480000UnityWindows ?Français, Anglais

(6)

En tenant compte des API retenues et des critères d’évaluation et les tester sur des hommes et femmes et tenant compte du bruit de fond, nous nous retrouvons avec une explosion de combinaisons, à savoir 128 possibilités à tester. Réaliser un plan d’expérience complet deviendrait long et coûteux. Notons qu’une expérience nécessiterait un test réel faisant intervenir des utilisateurs anglais, français et intermédiaires. Chaque utilisateur devra s’exprimer selon cinq (05) modes, selon des combinaisons entre lent, rapide et bruit de fond. En moyenne une expérimentation avec une seule personne représente une séance de deux (02) heures, ce qui engendrera un volume de 256 heures pour un plan complet. Si nous envisageons des journées de 08 heures ceci reviendra à une expérimentation de 32 jours.

De ce fait nous avons choisi de nous orienter vers la mise en place d’un plan d’expérience (réduit) afin de couvrir le maximum de possibilités et ainsi, gagner en temps et en coût.

2.2 Table de Taguchi pour optimiser le rendement des essais

Le design de solutions est généralement fonction de nombreux paramètres, souvent dépendants les uns des autres. Pour cela, des modèles sont établis et des simulations sont effectuées en tenant compte de la pertinence des résultats. Quand le nombre de paramètres explose, il devient indispensable d’identifier les « bonnes » valeurs à prendre en considération. Pour cela nous devons passer par des études expérimentales, et imposer des valeurs de ces paramètres tout en effectuant des mesurer de résultats de chaque combinaison de paramètres. Comme évoquait, l’explosion des essais implique une explosion de coûts et de temps proportionnels au nombre de paramètres pris en compte. Ainsi, nous nous affrontons à un dilemme qui est la prise en compte de tous les paramètres pour réaliser les essais en temps et coûts réduits.

Les plans d'expériences consistent à définir et organiser des essais afin d'identifier, à moindres coûts et temps, les effets des paramètres sur la solution finale. Il s'agit de méthodes statistiques faisant appel à des notions mathématiques simples. La méthode la plus connue pour la mise en œuvre de plans d’expériences est la méthodologie Taguchi qui reste un des outils de la qualité, les plus utilisés.

La première étape est l’identification des différentes solutions existantes pour ensuite les évaluer. Nous avons identifié quatre API (Azure, Google, pocketSphinx et Android).

Figure 4. Aperçu de résultats de l’application de la méthode Taguchi

Sur la base de cette approche nous avons comparé les 04 API retenues. L’aspect fonctionnel ciblé, notamment le langage (français et anglais) nous a permis de réaliser un premier filtrage dans les APIs utilisant les technologies d’ASR. Nous avons ensuite réalisé des tests qui consistent à lire des textes en anglais et français selon les conditions décrites par la table fractionnaire de Taguchi. Ces tests sont réalisés par différents enseignants du Cesi (hommes et femmes).

API Azure

Variabilité inter-locuteur (homme/femme)

Variabilité intra-locuteur (intonnation mot, mot en début/fin de phrase)

80 homme intonnation classique environnement calme signal continu FR

prise de son dictaphone

(moyenne) 84,15

80 homme intonnation classique environnement bruyant signal saccadé EN

prise de son dictaphone

(bonne) 85,25

80 femme intonnation accentuée environnement calme signal continu EN

prise de son dictaphone

(bonne) 87

80 femme intonnation accentuée environnement bruyant signal saccadé FR

prise de son dictaphone

(moyenne) 87,15

350 homme intonnation accentuée environnement calme signal saccadé FR

prise de son dictaphone

(bonne) 84,3

350 homme intonnation accentuée environnement bruyant signal continu EN

prise de son dictaphone

(moyenne) 83,55

350 femme intonnation classique environnement calme signal saccadé EN

prise de son dictaphone

(moyenne) 84,7

350 femme intonnation classique environnement bruyant signal continu FR

prise de son dictaphone

(bonne) 82,8

Contraintes de variabilité

Taux de correspondance (mots correct/ total) Taille du signal (nombre

d'unités acoustiques)

Prononciation de l'orateur

Environnement acoustique (bruits de fond)

Style d'énonciation (signal continu/saccadé)

Langue ciblée FR/EN

Fiabilité du signal électrique (matériel de

prise de son)

(7)

Les textes en anglais et français ont été testés en amont par des scripts de comptage de phonèmes afin qu’ils soient représentatifs de la fréquence d’apparitions des phonèmes dans ces deux langues (figure ci-dessous).

Figure 5. Aperçu de fréquences utilisées pour l’identification phonèmes en anglais et français

3 IMPLEMENTATION & TESTS

Nous sommes en mesure de tester l’envoi des différents textes sur les API proposées par les structures suivantes : Microsoft Azure, Google et PocketSphynx. Le taux de rendement de PocketSphynx est très éloigné des deux autres API, notamment en français.

Nous observons des rendements très proches pour Azure et Google, notre choix d’intégration se porte ainsi sur Google car l’IDE de développement de notre application est Android Studio et les bibliothèques Google sont natives sous cet IDE. Cela facilitera la maintenabilité de la fonction de reconnaissance vocale en cas de montées de versions de l’application dans le temps.

Figure 6. Intégration de la solution dans l’application

Phonème Exemple Fréquence Phonème Exemple Fréquence

ə cat 11,49 [a] plat 8,1

n net 7,11 [r] rat 6,9

r run 6,94 [l] lait 6,8

t tip, ripped 6,91 [e] dé 6,5

ɪ busy, women 6,32 [s] sac 5,8

s less, pace 4,75 [i] lit 5,6

d dad 4,21 […] cheval 4,9

l live, well 3,96 [t] tas 4,5

i be, key, grief 3,61 [k] cas 4,5

k queen, accent 3,18 [p] pas 4,3

ð leather 2,95 [d] dos 3,5

ɛ bird, burn 2,86 [m] mot 3,4

m summer, palm 2,76 [±] blanc 3,3

z crazy, his 2,76 [n] nid 2,8

p perhaps, trap 2,15 [u] cour 2,7

æ laugh 2,1 [v] vie 2,4

Fréquence phonèmes en anglais Fréquence phonèmes en français

(8)

La solution développée a été testé dans un environnement réel et présente des écarts dans la reconnaissance vocale. Aussi, lors des premiers tests les utilisateurs ne présentaient pas un grand intérêt à la solution à cause de l’environnement de la visite non favorable.

3.1 Test de l’application

Le test a été réalisé sur un échantillon de 46 personnes selon les deux langues Anglais et français. Nous avons attribué deux notes, 1 pour la maîtrise de la langue (voir native) et 2 pour un niveau intermédiaire (Figure 7. ).

Figure 7. Personnes testées

L’échantillon comporte 46 personnes pouvant parler les deux langues avec une maîtrise plus ou moins égale. La Figure 7. montre que nous avons 15 personnes montrant une maîtrise de l’anglais et 44 personnes avec une maîtrise du français. Notre échantillon présente 28 personnes avec un niveau intermédiaire en anglais et 02 personnes n’ayant pas réalisé les tests en français.

Pour tester la précision de l’application nous nous sommes basé sur la transcription vocale d’avis de visites. Pour cela, nous avons collecté 04 avis de visiteurs sur le site Tripadvisor1 que nous avons soumis aux 46 utilisateurs. Ensuite nous avons comparé le texte original avec la transcription de l’application V2T. Pour tester les performances de l’application nous avons utilisé un smartphone assez récent (Samsung A5) et pris en compte (la vitesse d’allocution et l’environnement autour de la personne).

Nous avons proposé à notre échantillon 05 essais pour chaque langue. Les 05 tests sont la combinaison entre vitesse de parole et environnement sonore :

1. Lecture lente et sans bruit de fond 2. Lecture lente avec bruit de fond (vent)

3. Lecture lente avec bruit de fond (ambiance sonore) 4. Lecture normale avec bruit de fond (ambiance sonore) 5. Expression ordinaire avec bruit de fond (ambiance sonore)

Ce qui suit présente des exemples de transcription réalisées selon les 05 essais avec les deux langues.

Essais 1.1 (Français, lecture lente et sans bruit de fond)

Très belle découverte ! Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous seuls. C'était très agréable de le parcourir en unique visiteur : Un privilège ! Très belle

Très belle découverte nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous soeur. C'était très agréable de le parcourir en universitaire un président grand privilège ! Très

1https://www.tripadvisor.fr

(9)

architecture et intérieur très bien restauré. A voir

absolument si vous passez dans le coin. belle architecture et intérieur très bien grâce à restauré. A voir absolument si vous passez dans le coin.

Nous avons visité ce château cet après-midi. Nous avons été enchantés. Un retour dans le passé assuré. des prix très abordables: 6 € !gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres...

Un seul point négatif: nos amis les chiens ne sont pas admis, mais possibilité de se garer à l’ombre . A ne pas rater

Nous avons visité ce château cet après-midi. Nous avons été enchantés un retour dans le passé assuré.

des prix très abordables: 6 € gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres

Un seul point négatif nos amis les chiens ne sont pas admis, mais possibilité de se garer à l’ombre.

Essais 1.2 (Français, lecture lente avec bruit de fond (vent))

Très belle découverte ! Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous seuls. C'était très agréable de le parcourir en unique visiteur : Un privilège ! Très belle architecture et intérieur très bien restauré. A voir absolument si vous passez dans le coin.

Très belle découverte ! Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous seuls. C'était très agréable de ne pas courir en unique visiteur des privilèges Très belle architecture et intérieur très bien restauré. A voir absolument si vous passez dans le coin.

Nous avons visité ce château cet après-midi. Nous avons été enchantés. Un retour dans le passé assuré. des prix très abordables: 6 € !gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres...

Un seul point négatif: nos amis les chiens ne sont pas admis, mais possibilité de se garer à l’ombre . A ne pas rater

Nous avons visité ce château cet après-midi. Nous avons été enchantés un retour dans le passé assuré.

des prix très abordables: 6 € gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres

Un seul point négatif nos amis les chiens ne sont pas admis, mais possibilité de se garer à vendre . A ne pas rater

Essais 1.3 (Français, lecture lente avec bruit de fond (ambiance sonore))

Très belle découverte ! Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous seuls. C'était très agréable de le parcourir en unique visiteur : Un privilège ! Très belle architecture et intérieur très bien restauré. A voir absolument si vous passez dans le coin.

Très belle découverte ??? en fin de journée dans le temps de le visiter. Nous avons échappé sur message c’était très agréable de ne pas pouvoir venir à 18h et si oui vers quelle heure à voir absolument qui va passer dans la sarthe

Nous avons visité ce château cet après-midi. Nous avons été enchantés. Un retour dans le passé assuré. des prix très abordables: 6 € !gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres...

Un seul point négatif: nos amis les chiens ne sont pas admis, mais possibilité de se garer à l’ombre. A ne pas rater

Nous avons visité ce château cet après-midi. Nous avons été enchantés un retour dans le passé assuré.

A ce rêve des prix très abordables: 6 € gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres

Un seul point négatif nos amis les chiens ne sont pas admis, mais possibilité de se garer à vendre . A ne pas rater

(10)

Essais 1.4 (Français, lecture normale avec bruit de fond (ambiance sonore))

Très belle découverte ! Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme il était tard, nous avons eu le château pour nous seuls. C'était très agréable de le parcourir en unique visiteur : Un privilège ! Très belle architecture et intérieur très bien restauré. A voir absolument si vous passez dans le coin.

Très belle des cougars Nous sommes arrivés en fin de journée, donc juste le temps de le visiter.

Comme c’était nous avons eu le château pour 10h.

C'était très agréable de ne pas pleurer en 1018 Un privilège ! Très belle architecture et intérieur très bien restauré. A voir absolument si vous passez dans le coin.

Nous avons visité ce château cet après-midi. Nous avons été enchantés. Un retour dans le passé assuré. Des prix très abordables: 6 € ! gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres...

Un seul point négatif: nos amis les chiens ne sont pas admis, mais possibilité de se garer à l’ombre. A ne pas rater

Nous avons visité ce château cet après-midi. Nous avons été enchantés un retour dans le passé serait prêterai. A portable: 6 € gratuit pour les moins de 26 ans du jamais vu. Un personnel très très sympathique et très attentionné.

Une très belle boutique proposant des produits différents et de beaux livres

Un seul point négatif nos amis les chiens ne sont pas admis, mais possibilité de se garer à nombre. A ne pas rater

Remarque :

Les temps d’arrêts ou les expressions discontinues perturbent considérablement la transcription et mettent souvent fin à la transcription par manque de réception de signal audio. Aussi, les temps d’arrêts permettent aux bruits de fonds de s’insérer dans la transcription de manière considérable.

Essais 1.5 (Français, expression ordinaire avec bruit de fond (ambiance sonore))

Cet essai est le plus proche de la réalité, car l’avis est exprimé de manière spontanée contrairement aux précédents. Les utilisateurs de l’applications faisaient un retour d’une situation sans avoir un écris à lire. Autre message rencontré quand on s’exprime ordinairement et ne pas lire directement du texte:

Je n’ai pas compris veuillez répéter (Figure 8. ).

Figure 8. Expression spontanée

(11)

L’Essai 1.5, la lecture spontanée avec un bruit de fond reflète la situation la plus proche de la réalité.

Malgré que le bruit de fond soit léger, l’application V2T a du mal à faire une transcription. L’analyse de la source du problème peut être la vitesse ou la qualité des composants (microphone).

Essais 2.1 (Anglais, lecture lente et sans bruit de fond)

We stopped here on our way to Chitenay, and it was a gem to see. This small chateau is rich in history.

It's romanesque architecture and the subtle hints about what was once a part of the chateau but is now missing offers an insightful glimpse into daily life there. From slits in the windows through which guards defended the chateau (it's hard to imagine how anyone could see through them), to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

We stopped here on our way to chitenay and it was a gem to see the small chateau is rich in history it’s Romanesque architecture and the subtle hints about what was once a part of the chateau but is now missing offers an insight for glimpse into daily life here from slits in the windows through which guards defended the chateau it’s hard to imagine how anyone could see through them to the grooves on the outside of the door where a drawbridge used to be to the thick cold walls you see a place that served as a home and a bulwark against invaders fascinating what’s more there are very few people there so you’ll enjoy a quiet intimate journey through time.

We visited with our children aged 8 and 11. It is a total contrast to many of the other Loire chateaux.

The gardens and the castle itself are very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

We visited with our children aged 8 and 11. It is a total contrast to many of the other lower Chateau the gardens and the castle itself is very pretty and it’s certainly worth a visit. We enjoyed exploring the passageways and towers and have the price pretty much to ourselves even on a summer’s day even on a summer afternoon it was excellent value for money and made a very pleasant afternoon.

Essais 2.2 (Anglais, lecture lente avec bruit de fond (vent))

We stopped here on our way to Chitenay, and it was a gem to see. This small chateau is rich in history.

It's romanesque architecture and the subtle hints about what was once a part of the chateau but is now missing offers an insightful glimpse into daily life there. From slits in the windows through which guards defended the chateau (it's hard to imagine how anyone could see through them), to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

we stopped here on our way to cheat money and it was a gem to see the small Chateau is rich in history it Romanesque architecture and the subtle hints about what was once a part of the Chateau but is now missing offers an insightful glimpse into daily life there. front flips in the windows through which guards defended the chateau it’s hard to imagine how anyone could see through them to the grooves on the outside of the door where a drawbridge used to be to the thick cold walls you see a place that served as a home and a bulwark against invaders fascinating What’s more there are very few people there so you’ll enjoy a quiet intimate journay Trough time

We visited with our children aged 8 and 11. It is a total contrast to many of the other Loire chateaux.

The gardens and the castle itself are very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

We visited with our children aged 8 and 11 to the total contrast to many of the other lower shutter the Gardens and the Castle itself is very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and have the place pretty much to ourselves even on a summer afternoon it was excellent value for money and made a very pleasant

(12)

Essais 2.3 (Anglais, lecture lente avec bruit de fond (ambiance sonore))

We stopped here on our way to Chitenay, and it was a gem to see. This small chateau is rich in history.

It's romanesque architecture and the subtle hints about what was once a part of the chateau but is now missing offers an insightful glimpse into daily life there. From slits in the windows through which guards defended the chateau (it's hard to imagine how anyone could see through them), to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

We stopped here on our way to chicken and it was jammed to see the small chateau is rich in history it’s Romanesque architecture in the subtle hints about what was once a part of the chateau but is now missing offers an insightful glimpse into daily life there From slits conflicts in the windows through which guards defended the Chateau it’s hard to imagine how anyone could see through them to the grooves on the outside of the door where a drawbridge used to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating

What’s more there are very few people there so you’ll enjoy a quiet intimate journey Through time We visited with our children aged 8 and 11. It is a

total contrast to many of the other Loire chateaux.

The gardens and the castle itself are very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

visited with a children aged 8 and 11 it is a total contrast to many of the other data The gardens and the Castle itself a very pretty and it is certainly worth a visit we enjoyed exploring the passageways and tower and they had the place pretty much to ourselves even on a summer afternoon It was excellent value for money and made a very pleasant afternoon

Essais 2.4 (Anglais, lecture normale avec bruit de fond (ambiance sonore))

We stopped here on our way to Chitenay, and it was a gem to see. This small chateau is rich in history.

It's romanesque architecture and the subtle hints about what was once a part of the chateau but is now missing offers an insightful glimpse into daily life there. From slits in the windows through which guards defended the chateau (it's hard to imagine how anyone could see through them), to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

We stopped here on our way to chimney and it was a German to see the small Chateau is rich and history is Romanesque architecture and the subtle hints about what was once a part of the chateau but is now Stop saying I waited for tonight and it was adjourned to see the small lattoos rich in history is Romanesque architecture and the subtle hints about what was once a part of the Chateau is to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

We visited with our children aged 8 and 11. It is a total contrast to many of the other Loire chateaux.

The gardens and the castle itself are very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

We visited her children aged 8 and 11 it’s a total contrast to many of the welsh at the Gardens and the castle itself and very pretty and it’s certainly worth a visit we enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

Essais 1.5 (Anglais, expression ordinaire avec bruit de fond (ambiance sonore))

We stopped here on our way to Chitenay, and it was a gem to see. This small chateau is rich in history.

It's romanesque architecture and the subtle hints about what was once a part of the chateau but is

(13)

now missing offers an insightful glimpse into daily life there. From slits in the windows through which guards defended the chateau (it's hard to imagine how anyone could see through them), to the grooves on the outside of the door where a drawbridge used to be, to the thick, cold walls, you see a place that served as a home and a bulwark against invaders. Fascinating. What's more, there are very few people there, so you'll enjoy a quiet, intimate journey through time.

We visited with our children aged 8 and 11. It is a total contrast to many of the other Loire chateaux.

The gardens and the castle itself are very pretty and it is certainly worth a visit. We enjoyed exploring the passageways and towers and had the place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

Beavers to the children age 8 and 11 it’s a total contrast to many of the lower Chateau guns and the Castle itself is very pretty and it is certainly worth a visit when do it for the passageways and tiles and have a place pretty much to ourselves, even on a summer afternoon. It was excellent value for money and made a very pleasant afternoon.

4 RÉSULTATS ET DISCUSSION

Les figures suivantes (boîtes à moustaches) montrent les résultats obtenus sur les 5 cas d’études réalisés. A noter que le cas (1.5) qui se rapproche le plus de la réalité présente le plus grand écart où souvent, l’application ne retranscrit pas le texte.

Figure 9. Synthèse des résultats (retranscription en Français)

La Figure 9. , présente la synthèse de la retranscription, en français, avec à gauche (a et c) les deux

figures présentant le texte à 60 mots et les deux diagrammes de droite (b et d) présentant le texte

contenant 77 mots.

(14)

La Figure 9. (a et b) présente la synthèse de tous les cas confondus, ce qui reflète bien l’étude faite et donne des médianes concluantes et assez proches du nombre de mots total. Cependant quand on ne prend que le cas qui se rapproche de la réalité à savoir la Figure 9. (c et d), nous constatons un écart énorme entre l’expression orale et la transcription via l’application V2T. Effectivement, les moyennes respectives de (c) et (d) sont égales à 1,66 et 1.63 ce qui montre des transcriptions avec des fiabilités ne dépassant pas les 3 %.

La figure suivante (Figure 10. ) présente la synthèse des résultats de la transcription en anglais.

Figure 10. Synthèse des résultats (Retranscription en Anglais)

Les deux diagrammes à gauche (« e » et « g ») présentant le texte contenant 123 mots et les deux diagrammes de droite («f » et « h ») présentent le texte contenant 69 mots.

Dans la Figure 10. , les diagrammes (« e » et « f ») présentent la synthèse de tous les cas confondus.

Ainsi, pareil que la transcription en Français, les médianes montrent un résultat assez concluant égale à 63 pour le texte contenant 65 mots, et 103 pour le texte contenant 123 mots. Ainsi la vue globale des essais offre une précision dépassant les 83%.

Cependant quand on ne prend que le cas qui se rapproche de la réalité à savoir la (Figure 10. (« g » et « h »), nous constatons un écart énorme entre l’expression orale et la transcription via l’application V2T. Effectivement, les moyennes respectives de (g) et (h) sont égales à 0.53 et 29.66 ce qui montre des transcriptions avec des fiabilités ne dépassant pas, respectivement, les 0.45% et 43%.

Notons, que le résultat quantitatif ne montre pas en détails les conséquences sur la compréhension du texte. Prenons le résultat du 43% qui se rapproche de la probabilité d’une erreur sur deux. Si on revient sur le test (Essais 1.5 (Anglais, expression ordinaire avec bruit de fond (ambiance sonore)) on s’aperçoit que les derniers 22 mots du texte manquent, ce qui ne permettra pas la compréhension du texte.

5 CONCLUSION

Le travail mené sur la solution V2T s’est réalisé en trois étapes majeures. La première fut l’analyse et

la comparaison des différentes API, la seconde fut le développement de la solution sous Androïde et

la dernière fut le test de la solution développée.

(15)

Lors de la première étape nous avons comparé onze (11) API selon leur utilisation, leur coût, leur impact sur la batterie du téléphone, l’OS et la langue supportée, etc. Au final nous avons obtenus les mêmes résultats pour les deux API : Azure et Google. Nous avons choisi l’API Google sur la base de sa compatibilité et facilité d’implémentation dans l’environnement Androïde.

La seconde étape a été le développement de la solution V2T sous Androïde. La solution suit trois étapes majeurs. (1) la collecte de la voix de l’utilisateur via le microphone du smartphone, (2) le filtrage du signal pour le rendre numérique, et (3) intéraction avec l’API Google pour la transformation du signal (voix) en texte (mots).

Lors de la troisième étape nous avons pu tester les performances de la solution V2T développée.

L’objectif de cette étape et d’évaluer les performances du V2T en tenant compte des contraintes techniques et environnementales. Pour cela nous avons Nous avons réalisé les tests auprès d’un échantillon de 46 personnes pouvant s’exprimer selon les deux langues Anglais et français ou seulement l’une d’entre elles. L’échantillon comporte 46 personnes pouvant parler les deux langues avec une maîtrise plus ou moins égale. Notre échantillon était composé de 15 personnes montrant une maîtrise de l’anglais (Natif) et 44 personnes avec une maîtrise du français. Aussi, notre échantillon présentait 28 personnes avec un niveau intermédiaire en anglais (parlant très bien l’anglais mais non natif).

Pour nous rapprocher les plus de la réalité nous avons pris des avis de visiteurs laissés sur le site Tripadvisor (02 avis en français et 02 avis en Anglais). Nous avons soumis les textes au utilisateurs équipés de smartphone (Samsung A5). Pour chaque langue les utilisateurs avaient 05 essais différents.

Les essais commençaient par (1) une lecture en environnement isolé, (2) lecture lente avec du vent en bruit de fond, (3) lecture lente dans une ambiance sonore, (4) lecture normale (non lente) dans une ambiance sonore et finalement (5) expression spontanée (sans lecture directe de document) dans une ambiance sonore.

La transcription via l’API Google dépend fortement de la procédure de lecture et de l’environnement.

Si elle comporte peu d’erreurs lorsqu’on lit un texte (préparé) de manière continue et lente, elle semble diverger et comporter beaucoup d’erreurs (voir complétement erronée) lorsqu’on s’exprime de manière spontanée avec les temps d’arrêts. Ce point important n’aurait pas été identifié sans les tests réels de l’application V2T.

La solution développée montre des limites en terme de fidélité de transcription et reconnaissance vocale. Aussi, l’utilisation de la voix semble délicate dans les environnements bruyants. Ce travail a permis d’évaluer différentes technologies pour le V2T et développer un prototype pour des tests en environnement réel.

La solution développée sera intégrée dans le DPT comme fonction afin de permettre la transcription dans des environnement clos sans ambiance sonore ou bruit de fond.

6 BIBLIOGRAPHIE

[1] Vista-AR application form, “Innovation concernant l’expérience visiteur au moyen d'une analyse systématique de textes et de la réalité augmentée », (2016).

[2] Këpuska, V., & Bohouta, G. (2017). Comparing speech recognition systems (Microsoft API, Google API and CMU Sphinx). Int. J. Eng. Res. Appl, 7(03), 20-24.

[3] Gaida, C., Lange, P., Petrick, R., Proba, P., Malatawy, A., & Suendermann-Oeft, D. (2014, October). Comparing open-source speech recognition toolkits. In 11th International Workshop on Natural Language Processing and Cognitive Science.

[4] https://blog.api.rakuten.net/top-10-best-speech-recognition-apis-google-speech-ibm-watson-speechapi-and- others/

Références

Documents relatifs

The Pashtun border tribes became outraged at the Pakistani government too for sending troops into the area and allowing Americans to bomb their home- lands in an effort to kill

For example, whereas for a = 2,25 and the exponential distribution as the distribution of claim amounts the largest claim constitutes only 4,3% of the total loss, in the case of

In his writings, Feldenkrais uses a constellation of notions linked together: body image, body schema, self- image, awareness and habits.. Schilder’s book is seminal for it

Fr iday Friday Satu rday.

Unfortunately,  I  left  Lifeline  Malawi  without  a  new  Medical  Director  in  place.  The  clinical  officers  and  nurses  do  a  fantastic  job  of 

L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des

However, South can lie about the amount of the net loss B S (e N ; e S ; t) it will incur by joining the agreement and we assume that the reservation price of the South c,

However, South can lie about the amount of the net loss B S (e N ; e S ; t) it will incur by joining the agreement and we assume that the reservation price of the South c,