Détecter l’innovant sur le web par des techniques non booléennes :
méthode, outils, application
Eric Boutin, USTV, [email protected]
Gabriel Gallezot, UNS, [email protected]
Luc Quoniam, USTV, [email protected]
Le cycle de vie de l’information
émergence croissance maturité déclin temps
Qté d’information perceptible
Notre objet d’étude : l’émergent KD
Capacité à agir sur son environnement
L’organisation doit subir des contraintes exogènes
Le KDD ( Knowledge Discovery in Databases ):
Etat de l’art et perspective
Principales
caractéristiques Etat de l’art Perspective de ce travail
Source d’information privilégiée
BDD bibliographique Information provenant du web
Traitement de
l’information utilisée Techniques non booléennes (logique transitive, …) Champ d’application
privilégié
médical généralisation
Plan
Etat de l’art (domaine médical)
Méthode proposée
Illustration expérimentale
identifier des indicateurs de pertinence innovants dans le domaine des moteurs de recherche
Phases de recherche et
développement d’un médicament
Un processus :
coûteux : 820 millions US$ par médicament (18% du chiffre d’affaires consacré à la R&D)
risqué : 1 molécule sur 10.000 deviendra un médicament
long : 10 ans d’efforts pour créer un médicament
Nouvelle cible Nouvelle molécule
Médicament sur le marché Changement d’indication Cible connue
Nouvelle molécule
Développement Recherche
KDD
Utilisations possibles du KDD dans la création de nouveaux
traitements
D’après Pierret (2005)
Innovation mise en perspective historique
Temps
Connaissances disponibles
Compartimentation des savoirs
D’après Swanson (1986)
Principe de logique non booléenne : le modèle de Swanson
l’huile de poisson est connue pour réduire la viscosité sanguine
et l’agrégation plaquettaire la maladie de Raynaud
est caractérisée par une grande viscosité sanguine et une forte agrégation plaquettaire
Jusqu’en 1985, ces deux données n’étaient pas liées
A
huile de poisson
B
agrégation plaquettaire viscosité du sang
C
Maladie de Raynaud Maladie
Effet physiologique
Médicament
Modèle proposé : C
ontextP
roblemS
olutionContexte A
Etude de fonctions en mathématiques
Solution A
Algorithmes génétiques
Contexte B solution B
Problème
optimisation
Une dimension pivot
Connu Ouverture
Détecter une solution nouvelle ?
Détecter un domaine applicatif nouveau ?
Transitivité Potentielle
Transitivité Potentielle
Étapes du traitement de l’information
S
P
P1 P2 … Pn Liste de mots clés
THESAURUS (ex : Rameau)
P1 P2 Pn Pa Pb Pc
Réseau
Pn Pb
Métamoteur Classificateur (Clusterisation)
1
2
3
4 5
Connexion latente
identification de plusieurs P
Généralisation et abstraction
Exploration : parents, enfants, frères
Choix de termes et combinaisons possibles
Génération de possibles
Détection
Validation expérimentale :
nouvel indicateur de pertinence de moteur de recherche ?
Contexte
Moteurs de recherche
Problème
Pertinence, Évaluation
…
Ranking criteria Relevance indicator
…
Solution
Indicateurs content centric Indicateur business centric Indicateur link centric
Indicateur user centric
…
Le recours au thésaurus
Repérage des CFC :
Analyse de réseau
Recherche opérationnelle
=> Pistes à suivre ?
+
Génération de nveaux mots clés :
Hypergraphes Sociométrie
Topologie floue
Le recours au méta moteur classificateur ou moteur qui clusterise
« sociometric network »
« sociometric measures »
« centrality measures »
degree centrality, closeness centrality, information centrality
Pistes potentielles
En guise de conclusion
Démarche de suggestion des possibles à un expert
Subjectivité : biais des outils, biais de la langue (traduction), biais expert …
Parallèle possible avec la méthodologie de la recherche documentaire : mais non booléen + introduction de la serendipity