• Aucun résultat trouvé

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

N/A
N/A
Protected

Academic year: 2022

Partager "Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique"

Copied!
5
0
0

Texte intégral

(1)

Recherche et développement technologique

Bureau de dépôt Bruxelles X - Mensuel ne paraissant pas en juillet et août - 262 - Juin 2010

Le SMS fait entendre

sa voix...

Énergie solaire,

énergie du futur ?

(2)

Athena 262 / Juin 2010

33

succès comme la correction orthographique automatique, la reconnaissance de la parole, la traduction automatique, la recherche d’informa- tions, la gestion documentaire, etc. On utilise parfois, à la place de l’intitulé «TAL», des appel- lations plus ou moins synonymes comme ingé- nierie linguistique, linguistique informatique ou encore linguistique computationnelle.

Les acteurs de ce domaine sont des «linguistes-informaticiens», c’est-à-dire des linguistes ou des informaticiens qui ont acquis une double compétence en complétant leur formation de base, selon le cas, par l’étude des langues ou des technologies. Des formations spécialisées existent, comme le Master en linguistique spécialisé en «Trai-tement auto- matique du langage» à l’UCL, accessible aux étudiants ayant une formation de base en linguis- tique ou en informatique (www.taln.be).

Deux spécialités

Le Cental, explique son directeur, a deux spécialités. La première consiste dans le traite- ment de l’information. Nous vivons actuel - lement dans une société de l’information, pour- suit le professeur Fairon, et même à l’aire du multimédia, l’information textuelle (que le texte

S

elon l’International Telecommuni - cation Union, le nombre total de lignes mobiles dans le monde devrait dépasser les cinq milliards cette année. Cela signifie que, selon l’ONU, plus d’êtres humains ont aujourd’hui accès à un téléphone portable qu’à des toilettes propres ! Et, parce qu’il permet de communi- quer avec autant de gens, qu’il est toujours disponible, bon marché et facile

à partager, ce petit appareil a ouvert une nouvelle frontière de l’information mondiale.

Au Centre de traitement auto- matique du langage (Cental)de l’Université catholique de Louvain, les travaux du profes- seur Cédrick Fairon et de son équipe d’une quinzaine de cher- cheurs portent, depuis une dizaine d’années, sur une disci- pline souvent mystérieuse pour

le grand public alors qu’elle trouve largement sa place dans la vie quotidienne: l’ingénierie linguistique, c’est-à-dire le traitement automa- tique du langage (TAL) oral ou écrit et que l’on retrouve dans le téléphone portable, le GPS de sa voiture - lorsqu’une voix de synthèse indique la route à suivre - ou encore en introduisant un mot-clé sur Google.

Le TAL s’est fait récemment connaître du grand public au travers d’applications commerciales à

Le SMS

fait entendre sa voix ...

Le Centre de traitement automatique du langage de l’Université catholique de Louvain (UCL) a mis au point un logiciel capable de transposer les messages SMS de manière vocale. Alors que des centaines de milliers de branchés à travers le monde

déballent leur nouvel iPad, un autre avenir s’annonce peut-être grâce au téléphone portable. Des États-Unis à la Corée du Sud, de la Finlande à l’Espagne, on recherche

un emploi par texto, on prélève de l’argent sur son compte bancaire et on effectue des paiements avec ce grand absent du battage médiatique.

Il sert de caméra, de téléviseur, de radio et tout simplement, à se parler

Le professeur Cédrick Fairon, directeur du Cental au sein de la Faculté de philo- sophie, arts et lettres de l’UCL, est docteur en informatique fondamentale et applications de l’Université de Paris 7 (France).

Il est également membre du Conseil de la langue et de la politique linguistique.

Il a déposé, en collaboration avec Richard Beaufort, une demande de brevet le 21 avril 2010 auprès de l’Office européen des brevets.

cedrick.fairon@

uclouvain.be

Photo: Image Source / Reporters

(3)

«sous-ensemble autorisé» de la langue. Par exemple, «si j’aurais su» n’appartient pas à la norme, alors que la langue française peut le produire. Au sein du pôle «norme» du Cental, on traite donc la langue pour elle-même et non parce qu’elle véhicule de l’information: on réalise des applications qui vont corriger l’orthographe et la grammaire, réparer des textes scannés et détériorés par l’âge, ou encore retranscrire, en orthographe conventionnelle, le contenu des messages SMS. Autour de ces deux activités gravitent toute une série de projets de recherche fondamentale et de recherche appliquée

Qu’est-ce qu’un SMS ?

Étant donné que les chercheurs ont travaillé sur l’étude et la normalisation des messages SMS, la traduction vocale des SMSest logiquement ratta- chée au pôle «normes». Le langage Short Message Service (SMS)est un langage écrit qui modifie les caractéristiques orthographiques voire grammaticales de la langue afin d’en réduire la longueur ou d'en accélérer la saisie sur le clavier numérique des téléphones portables.

Ce type de langage est utilisé lors d'échanges d’informations par messagerie ou courrier électronique, sur les forums Internet, les chatset les blogs. Le message écrit sur un téléphone portable (SMS) est couramment appelé «texto»

en France et au Québec. Le langage SMS, apparu avec la banalisation des techno logies de l'infor- mation et de la communication au cours des années 1990, combine plusieurs procédés:

l'abréviation (ludique, comique ou expressive), la phonétique ou le rébus typographique. Le SMS, typiquement limité à 160 caractères (le dépasse- soit parlé ou écrit) en demeure une des sources

principales. Par conséquent, le texte reste le support essentiel de l’information, que ce soit dans les entreprises (sous forme de procès- verbaux, de documentations techniques, de rapports, etc.) ou dans le monde scientifique, dans la presse et même… sur Internet. Du fait de cette dominante incontestée et essentielle du texte, il est très important de pouvoir analyser le langage car il constitue une porte d’entrée pour atteindre l’information. Et lorsqu’on voudra répondre à des questions, sélectionner ou trier des textes, manipuler une information textuelle, il faudra nécessairement faire appel à des logi- ciels intelligents, capables de comprendre les textes afin de pouvoir les traiter.

Le travail du linguiste au Centalconsiste à faire la description des mécanismes de la langue (syntaxe, lexique) de manière formalisée (c’est- à-dire utilisable par l’ordinateur) pour réaliser des analyses qui vont ensuite permettre de

«comprendre» l’information contenue dans le texte. C’est ainsi que nous filtrons les nouvelles produites par l’agence Belgaafin d’en extraire toutes les informations concernant les personnes citées (âge, nationalité, profession, etc.) et nous les mémorisons. Nous créons ainsi une sorte de

«Who is who», un outil qui permet de faire de l’indexation intelligente de textes et que les jour- nalistes pourront consulter et utiliser ultérieu- rement.

Notre seconde activité, poursuit le professeur Fairon, relève de tout ce qui concerne la norme linguistique, fixant, dans la langue, ce qui est considéré comme acceptable et gram- matical. La norme est donc le

Photo: photl.com

(4)

Athena 262 / Juin 2010

35

ment du nombre autorisé de caractères rend l’envoi du message plus cher), est en outre diffi- cile à saisir, au vu des contraintes ergonomiques imposées par les claviers alpha numériques des téléphones portables.

On a parfois exagéré le caractère novateur du langage SMS, explique le professeur Fairon, parce qu’il est mis en œuvre par des jeunes et des adolescents: 80% du trafic SMS serait le fait d’utilisateurs ayant entre 12 et 25 ans (selon le quotidien Le Soirdu 17 avril 2010). En réalité, ce genre de message concerne aujourd’hui tous les âges. On a toujours envisagé le traitement auto- matique du langage à partir d’un texte «normal»

et on concevait des logiciels capables de traiter des textes«standards». Par conséquent, confron- tés aux nouvelles formes de l’écrit (SMS, chat, forum, etc.), ces logiciels se sont retrouvés désorientés (comme beaucoup d’humains d’ailleurs), explique le professeur Fairon. Face à cette situation, nous avons proposé de retrans- crire les messages SMSen un français normalisé, de manière à pouvoir ensuite le traiter automa - tiquement.

Dans le cadre du projet de rechercheVocalise, soutenu par la Région wallonne (First Post-Doc) et parrainé par le centre de recherche Multitelde Mons, nous avons mené un certain nombre de recherches qui ont abouti à la mise au point d’une application de normalisation des SMS.

Intégrée au sein d’un système complet de syn- thèse de la parole à partir de SMS, cette application de normalisation prend un SMSet le retranscrit en français standard, avant de le transmettre à un module de synthèse qui produit la parole correspondante.

Un «corpus» de taille

Pour concevoir un outil capable d’effectuer cette transposition il faut disposer d’uncorpus énorme sur lequel apprendre les règles de fonction nement de ce langage. En 2004, l’UCL a donc lancé, avec le soutien de trois partenai- res privés (Proximus, Ogilvy et NEWAy) et des médias belges, une opération intitulée «Faites don de vos SMS à la science». Cette expé- rience, limitée à la Belgique francophone, a permis de définir une méthodologie pour la collecte des messages et des protocoles pour la préparation des corpus avant leur utilisation pour la recherche (anonymisation, transcrip- tion, annotations). Les partenaires privés ont pris en charge les aspects techniques de la collecte et les médias ont largement diffusé l’annonce de cette enquête, ce qui a permis d’atteindre une large partie de la population. La couverture médiatique a dépassé nos attentes, ce qui atteste de l’intérêt porté par les médias

(et la société) envers ce sujet, explique le professeur Fairon.

Un corpusest un ensemble de documents (textes, images, vidéos, etc.), regroupés dans une optique précise et utilisable dans plusieurs domaines: études littéraires, lin- guistiques, scientifiques, etc. La branche de la linguistique qui s’en préoccupe plus spé- cifiquement s'appelle logiquement la lin- guistique de corpus. Elle est liée au déve- loppement des systèmes informatiques, en particulier à la constitution de bases de don- nées textuelles. En littérature, le corpus regroupe un ensemble de textes ayant une visée commune. Il peut être constitué de documents différents (tableau, extrait de texte...) mais ceux-ci ont en général un point en commun: le thème. Il faut avoir une tech- nique particulière pour le déchiffrer.

Les corpussont des outils indispensables et précieux en traitement automatique du langage naturel. Ils permettent en effet d'extraire un ensemble d'informations utiles pour des traite- ments statistiques. D'un point de vue informatif, ils permettent de détecter des tendances et d'un point de vue méthodologique, ils apportent l’objectivité nécessaire à la validation scienti- fique. L'information n'est plus empirique, elle est vérifiée par le corpus. Il est donc possible de s'appuyer dessus (à condition qu'il soit bien formé) pour formuler et vérifier des hypothèses scientifiques.

Une étude participative

«Nous nous étions rendus compte que dans la communauté scientifique, personne ne disposait de suffisamment de SMS pour réaliser des études linguistiques du genre de celle que nous projetions», explique le professeur Fairon. Le centre a donc fait appel au grand public en demandant de donner des SMS. Le succès a dépassé leurs espérances puisqu’ils ont reçu pas moins de 75 000 messages venant de 3 200 personnes en deux mois. 30 000 ont finalement été retenus, anonymisés puis retranscrits en français normaliséselon un protocole très parti- culier. Ce corpusrépondait donc à un réel besoin et l’on peut dire que cet appel a atteint non seulement toutes les régions francophones du pays, mais aussi toutes les tranches d’âge puisqu’il se situe entre 12 et 73 ans (dont 76%

ont moins de 25 ans) et toutes les couches de la population. Aujourd’hui, la méthodologie du Cental constitue une véritable référence. Avec l’accord de l’UCL, elle s’est exportée vers différents pays: la France, le Québec, l’Espagne, l’Italie, la Suisse, l’Allemagne, la Grande- Bretagne, etc. Certains résultats sont assez

Le docteur de Sciences (orientation informatique) Richard Beaufort est passionné de linguistique (spécialement en médiévistique).

Il a mis au point un logiciel, qui traite depuis plus d'un an les articles de trois journaux en ligne:

Le Soir, La Libre Belgique et La Dernière Heure. Ce logiciel, appelé Recto/Verso, applique les règles de la réforme de l'orthographe de 1990 sur des textes écrits en orthographe conventionnelle.

Le logiciel traite environ un million de pages par semaine, soit 52 millions sur une

année!

tél.: 010/47 37 73 richard.beaufort@

uclouvain.be

(5)

curieux, notamment pour l’Île de la Réunion où l’on retrouve un mélange de créole, de fran- çais et… de langage SMS. Actuellement des contacts ont été pris avec l’Université de New-York mais un sponsor est encore néces- saire ppour avancer.

Les 30 000 messages du corpus«SMSpour la science» avaient été retranscrits à la main par des linguistes mais, dans le cadre du pro- jet Vocalise, le docteur en informatique et romaniste Richard Beaufort a construit un programme capable de réaliser cette tâche automatiquement; programme désormais capable de prendre n’importe quel message et de le retranscrire dans un français norma- lisé. Pour illustrer l’efficacité de cette tech-

nique, il a conçu une application de vocali- sation automatique de SMS.

Il a bénéficié, dans sa tâche, de l’aide du centre de recherche Multitel, qui a prêté le logi- ciel de synthèse (c’est-à-dire la voix que l’on entend) pour réaliser les expérimentations.

C’est ainsi qu’aujourd’hui, très schématique- ment, la technique mise au point par le Cental peut se résumer de la manière suivante: une personne reçoit un SMS, qui est retranscrit en français «standardisé» avant d’être envoyé dans le synthétiseur vocal pour être écouté par le destinataire. Tout ceci en quelques milli- secondes !

Un outil utile pour tous

L’utilité de cette technologie est évidente puisqu’elle s’adresse à tous ceux dont les deux mains sont occupées et qui reçoivent des instructions par SMS: l’ouvrier devant sa machine-outil, le cuistot au fourneau ou le délégué commercial au volant de sa voiture.

Elle vient aussi au secours de ceux qui ne peuvent pas lire un message SMS(les person- nes aveugles ou malvoyantes par exemple) ou à ceux qui ne parviennent pas à se faire à ce langage et donc incapables de déchiffrer le message reçu (les personnes du troisième âge notamment). En ce qui concerne l’avenir, l’UCL est en train de mettre sur pied une spin- off baptisée Normalis, histoire de valoriser au mieux cette nouvelle technologie du langage.

Tout ceci suggère une approche nouvelle de l’innovation dans la société, non pas dans la conception du matériel mais dans son utili- sation et on peut souhaiter, qu’à côté de la révolution d’Internet, les consommateurs qui privilégient la simplicité puissent bientôt entendre une voix leur prononcer le SMSqu’ils ne peuvent lire eux-mêmes directement.

Paul DEVUYST

Pour en savoir plus:

L’

ouvrage: Étude d'un corpus informatisé à partir de l’enquête «Faites don de vos sms à la science»par Cédrick Fairon, Jean René KLEIN, Sébastien PAUMIER aux Presses universitaires de Louvain • Cahiers du CENTAL.

Ce livre entraîne le lecteur dans les coulisses du projet scientifique «Faites don de vos SMS à la science» avant de lui faire découvrir les trésors d’inventivité linguistique dont font preuve les usagers du SMS. (ISBN-10 2874630489, ISBN-13 9782874630484, Année de publication: janvier 2007, 136 pages, format 160 x 240 cm), Prix: 16,40 euros.

(www.i6doc.com/doc/sms) .

Un exemple concret ?

S

ur le site www. uclouvain.be/316175,une première démonstration dévoile la voca- lisation d’un SMS sans traduction (incompréhensible). Une deuxième fait entendre le SMS, après passage du logiciel, en français standardisé.

Une prouesse réalisée avec l’aide d’un synthétiseur vocal mis à la disposition du Cental par le centre de recherche Multitel et grâce à un budget de la Région wallonne.

Pour en savoir plus:

www.uclouvain.be /centa , www.sms4science.org

et www.taln.be

Photo: Pascal Broze / Reporters

Références

Documents relatifs

Flux de carbone pour la forêt.. Le mode de fonctionnement dynamique des écosystèmes forestiers leur permet de recycler le carbone. Ils jouent donc un rôle important dans le

Ceux-ci, en raison m~me de leur puissance economique, de la complexite de leur systeme industriel et Qe la r~sistance aux reconversions de oe systeme, n'ont prati"uement pas

Elle peut être utilisée directement pour le chauffage et, quand l’eau est suffisamment chaude, pour la production d’électricité.. L’eau chaude géothermique était déjà

Depuis le début des années 2000, le paysage de la recherche française en éner- gie solaire a connu plusieurs étapes dans un vaste mouvement visant à la structurer autour de

microentreprises ainsi qu’aux petites et moyennes entreprises (PME); demande, à cet égard, de prévoir un financement suffisant pour soutenir les PME, les microentreprises et

Une telle chimie redox anionique réversible dans les cathodes « Li-riche » peut offrir une capacité de stockage de charge supplémentaire au-delà du redox cationique, permettant

Pour conclure, je voudrais souligner ici qu’alors que la France et l’Europe privilégient essentiellement le photovoltaïque inorganique, les États-Unis – sans même parler du

• Le premier d'entre eux dont je voulais vous parler, c'est le concept de la conversion de photons, c'est-à-dire que le photovoltaïque, on fait de la photonique et on convertit des