• Aucun résultat trouvé

La fouille de textes ou extraction de connaissances dans les textes est une spécialisation de la fouille de données et fait partie du domaine de l'intelligence artificielle. Cette technique est généralement désignée sous l'anglicisme text mining. C'est un ensemble de traitements informatiques consistant à extraire des connaissances selon un critère de nouveauté ou de similarité dans des textes produits par des humains pour des humains. Dans la pratique, cela revient à mettre en algorithmes un modèle simplifié des théories linguistiques dans des systèmes informatiques d'apprentissage et de statistiques. Les disciplines impliquées sont donc la linguistique calculatoire, l'ingénierie du langage, l'apprentissage artificiel, les statistiques et bien sûr l'informatique. Le domaine du text mining reste à l’heure actuelle un domaine nouveau, qui s’inscrit dans le cadre des technologies du Web sémantique, et dont la maturité est insuffisante pour que les éditeurs de logiciel qui l’ont investi atteignent des niveaux de rentabilité élevés.

Un des premiers secteurs marchands à s’être approprié la technologie du text mining, et ce depuis quelques années, est celui de l'industrie pharmaceutique, dont les services de recherche et de développement utilisent le text mining pour faire de la veille scientifique. Mais les laboratoires utilisent également ces technologies à des fins de marketing. Lors du lancement d'une nouvelle molécule, il peut être intéressant d'étudier les réactions des clients à travers l'étude de blogs. Le laboratoire Pfizer a, par exemple, investi dans une solution de veille de l’éditeur Temis, chargée de surveiller les blogs de patients : si un blogueur évoque des effets secondaires inédits suite à la prise d'une nouvelle molécule, l'application envoie une alerte. Autres habitués du text mining, les fournisseurs d'informations payantes, Factiva ou Thomson, qui intègrent progressivement ces technologies dans leurs offres.

Chapitre 1 : L’industrie du logiciel __________________________________________________________________________________________

Par ailleurs, les applications du text mining sont potentiellement très nombreuses. L’une d’entre elles est la gestion de la relation client : prenons l’exemple des réclamations rédigées à l’attention d’un opérateur de télécommunications par ses clients : « Ma connexion à internet est rompue depuis des

semaines, j'ai essayé de vous joindre vingt fois, en vain, je résilie mon contrat. » Ce message posté sur le site

d'un opérateur ne sera pas exploité à des fins d'analyse. En effet, une telle analyse ne s’applique actuellement qu'aux données structurées stockées dans un entrepôt (ou datawarehouse) : référence client, nom, type d'équipement... Les entreprises gagneraient pourtant à ordonner et exploiter ce gisement d'informations. Un outil de text mining, permet d’extraire l’information de documents non structurés, comme des textes officiels, documents, messages, ou autres articles de presse, par exemple. Les outils de text-mining ont donc pour vocation d’automatiser la structuration des

documents peu ou faiblement structurés. Ainsi, à partir d’un document texte, un outil de text mining va générer de l’information sur le contenu du document. Cette information n’était pas

présente, ou explicite, dans le document sous sa forme initiale, elle va être rajoutée, et donc enrichir le document. Cela peut servir à classifier automatiquement des documents, à avoir un aperçu du contenu d’un document sans le lire, à alimenter automatiquement des bases de données ou de connaissance, à faire de la veille sur des corpus documentaires importants, ou encore à enrichir l’index d’un moteur de recherche pour améliorer la consultation des documents.

L’intérêt des grandes entreprises et la consolidation du secteur :

Le secteur du text mining était jusqu’à une période récente, uniquement occupé par de petits éditeurs de logiciel, dont les produits ont été conçus à partir de travaux de recherche menés au sein de centres de recherche publics ou privés. Ainsi, les recherches conduites dans des centres de recherche américains (Xerox PARC) et européens (XRCE) de Xerox, ont abouti après essaimage à la création de deux sociétés concurrentes, l’une InXight basée aux Etats-Unis qui fournit son logiciel à de nombreuses agences gouvernementales de renseignements ou à des services de l'armée pour faire de la veille et traquer leurs cibles en analysant les textes publiés sur le réseau, l’autre Temis en France qui s’est initialement orientée vers le domaine de l’intelligence économique et de la veille technologique pour les grands laboratoires pharmaceutiques. Ces deux acteurs de référence du marché des logiciels de text mining, sont loin d’être seuls, et de nombreuses entreprises concurrentes ont ainsi vu le jour depuis le début des années 2000, chacune prétendant détenir un positionnement original par rapport à l’ensemble de ses concurrentes, ce qui n’est que partiellement vrai.

Chapitre 1 : L’industrie du logiciel __________________________________________________________________________________________

Mais si les technologies gagnent en maturité, les clients sont encore assez rares. Chacun de ces éditeurs n'en compte au mieux que quelques dizaines, car la priorité pour les entreprises clientes porte encore sur l'analyse des données stockées dans des bases. Néanmoins le potentiel commercial de ses logiciels d’application a fini par attirer la convoitise de grands acteurs du marché du logiciel, persuadés que l’analyse textuelle allait devenir une technologie incontournable, et que le capital de connaissances d’une entreprise se situait plus dans les documents textuels que dans les champs d’une base de données. Cela a entraîné depuis 2005, une série de rachats s’inscrivant dans un contexte de plus en plus évident de consolidation du secteur. Ainsi en témoignent les récents rachats d'InXight (120 personnes et 25 millions de dollars de chiffre d’affaires en 2006), de ClearForest, et de Fast. Désireux d’investir le marché de l’analyse et de la recherche de données non structurées, Business Objects a racheté InXight en mai 2007, Reuters a acquis ClearForest toujours en 2007, et Microsoft s’est emparé de Fast en 2008, pour 1,2 milliards de dollars. En ce qui concerne Business Objects, l’éditeur de logiciel franco- américain spécialisé dans le décisionnel, veut intégrer la solution d’analyse, de recherche, et de visualisation de données non structurées conçue par InXight, qui va enrichir sa plate forme de business intelligence Business Objects XI : « La recherche assistée, l'analyse de texte et l'accès aux données

non structurées font partie intégrante de la business intelligence (mais) représentent une source de connaissances dont la plupart des entreprises ne cherchent pas encore à profiter. Or, qu'elle ait pour but la détection des fraudes, le respect de la réglementation, la connaissance des clients ou le renseignement et la lutte contre le terrorisme, l'analyse de texte peut aider à prévoir des événements importants, à détecter des opportunités », a souligné John Schwarz,

directeur général de Business Objects, en cette occasion. Microsoft, pour sa part, désire ne pas se laisser distancer et a préféré réagir vite en rachetant le leader du secteur, Fast, sans pour autant avoir la garantie de réaliser une solution résolvant effectivement les besoins de recherche des grandes entreprises, car la digestion de cette acquisition sur le plan commercial, technique et opérationnel peut prendre du temps.

IBM : un acteur majeur, une stratégie différente :

Par rapport à autres poids lourds de l’industrie logicielle, IBM a choisi une stratégie différente. Il faut dire que la firme est présente sur le marché depuis plusieurs années avec son framework UIMA, une plate-forme susceptible d’intégrer tous les logiciels moteurs d’analyse (dont les logiciels de text mining) qui choisiront d’être compatibles avec ce standard, et avec son moteur de recherche OmniFind, qui est capable d’exploiter les métadonnées fournies par ces différents logiciel (UIMA signifiant Unstrucured Information Management Application, i.e. application de gestion

Chapitre 1 : L’industrie du logiciel __________________________________________________________________________________________

d’information non structurée). IBM a quand même lui aussi procédé à des rachats, mais d’acteurs de plus petite taille, comme iPhrase en novembre 2005. Grâce à cela, le moteur de recherche OmniFind exploite les données provenant du module Content Discovery Server, moteur d'interprétation d'iPhrase qui extrait des informations contextuelles relatives aux requêtes des utilisateurs.

L'architecture UIMA peut être vue comme un bus composé d'une série de moteurs d'analyse et alimenté en entrée par un document ou une collection de documents. Lorsque le premier moteur achève son traitement, il conserve le résultat de ses analyses dans un système commun d'analyse (ou CAS) sous forme de métadonnées. Le CAS est défini par un modèle de données et un index, qui rend accessible au second moteur d'analyse les métadonnées générées par le premier. Quant aux moteurs (les composants UIMA), ils peuvent être développés par n'importe quel adhérent à UIMA (éditeurs, universitaires, scientifique...). Le framework ou environnement UIMA vise donc à favoriser l'interopérabilité des résultats d'analyse de données non structurées : text mining, catégorisation, moteur de recherche, indexation audio, vidéo... Jusqu’à présent, les métadonnées récoltées à l'issue des traitements restaient exprimées dans un format spécifique au logiciel. Difficile alors pour le moteur d'analyse d'un éditeur de récupérer et de traiter à son tour les résultats d'un autre éditeur. C'est pour pallier cette limite du monde non structuré qu'IBM a lancé et « ouvert » UIMA. Ce framework de développement gère notamment l'interopérabilité des métadonnées entre les moteurs d'analyse, et en 2007 une quinzaine d'acteurs s'y étaient ralliés, dont ClearForest, Cognos, Factiva, InXight, SPSS, ou Temis. Ainsi la solution de text-mining de Temis, Luxid, est “UIMA compliant”, c’est-à-dire qu’elle est compatible avec ce standard, et qu’elle peut être “pluggée”, i.e. connectée, au bus UIMA d’IBM.

A l'issue des traitements successifs, UIMA compose des CAS « prêts à l'emploi », dont les données structurées sont envoyées dans des bases relationnelles, ou dans des moteurs de recherche pour enrichir leur propre index. C'est d'ailleurs ce que fera l'outil de recherche d'IBM : OmniFind dépassera ainsi l'approche par mots clés pour s'ouvrir à la sémantique via les moteurs d'analyse de texte.

En conclusion, à propos d’IBM, comme UIMA est une architecture ouverte et libre, le géant américain souhaite s’imposer, non pas comme éditeur de logiciel de text mining, mais comme développeur de l’architecture qui permet d’accueillir divers outils de text mining tiers. La question se pose de savoir si, au bout de la chaîne UIMA, le moteur de recherche qui va exploiter toute

Chapitre 1 : L’industrie du logiciel __________________________________________________________________________________________

cette chaîne de traitement peut être autre chose que le moteur OmniFind d’IBM. En somme, IBM, acteur reconnu du middleware (logiciels situés entre les couches basses, comme le système d’exploitation, et les couches hautes, logiciels d’application, d’un système informatique), a choisi la stratégie qui consiste à se positionner comme le middleware ouvert du monde du traitement des informations non-structurées. Mais pour qu'UIMA devienne le standard du non structuré, SAP, Microsoft, Oracle, Verity, Autonomy devront s’y rallier.

Le secteur du text mining rentre donc dans une phase de consolidation, phase au cours de laquelle des standards devraient émerger, ainsi que de véritables leaders, susceptibles à la fois de développer le marché et d’y occuper une position dominante.

Chapitre 2 : Apports de la littérature : de la modularisation à l’innovation par les utilisateurs __________________________________________________________________________________________

Chapitre 2 :

Apports de la littérature : de la

modularisation à l’innovation