Comment ES permet d’organiser le flux de mégadonnées d’une cellule de veille ?
17.06
Nicolas BOMBOURG – Findout
Que voyez-vous ?
De nouvelles technologies au service de la veille
• Analytics
• Modeling
• Learning Algorithm
• Big data infrastructure (Index, NoSQL…)
• Parallele Computing
• Data Processing
• Market Research
Market Intelligence Data Science
IT Big Data
Exemple d’utilisation d’ES
Permettre aux Cellule de Veille d’identifier, annoter et partager
les statistiques et rapports publiés par les Sources Officielles
Filtre
Contextualisation Index
200M documents Crawl
3M rapports
40M tableaux & graphs 300M séries Statistiques 250 K+ sources
2 M urls
ES couvre 3 besoins
1. Construire des index 2. Classer des résultats
3. Assurer Performance, Stabilité, Disponibilité, et
Scalabilité
Quels sont nos challenges ?
• Insertions et suppressions d’information en continu
• Mises à jour régulières
– Métadonnées recalculées tous les trimestres – Nouvelles métadonnées crées en permanence
• Formats hétérogènes
– Rapports entiers vs Chapitres vs News – Tableaux Pdf vs Statistiques vs Datasets
SOLUTION
4 raisons de choisir ES
1. Pour la gestion du volume de données 2. Pour gagner en agilité au niveau de
l’infrastructure
3. Pour la finesse du mapping et du requêtage
4. Pour ses avantages face à SolR
IMPLEMENTATION
2 phases d’intégration…..
• Déploiement
– Difficulté : Compétences
• Croissance
– Difficulté : Volume
…..4 étapes
1er Définir les environnements
● Qu’est-ce qu’un environnement ?
● Quels sont les environnements autour d’ES ?
○ Cluster de développement
○ Cluster de Test
○ Cluster de recherche de nos outils et de nos clients (Production)
2 ème Affiner les algos de classement
• Qu’est-ce que le ranking selon ES ?
• Que permet ES ?
– Exposer le fonds documentaire – Diversifier les résultats
– Faire découvrir les nouveautés
⇒ Nous avons monté un projet Search UX en interne
3 ème Mettre à jour les index
• Qu’est-ce que les index selon ES ?
• Pourquoi faut-il les mettre à jour ?
• Combien de temps faut-il pour mettre à jour un index ?
– Etudes de marché, 3M de rapports, 1TB, 3 jours
4 ème Mettre à jour les versions
● Comment fonctionne le versioning d’ES ?
● Pourquoi faut-il les mettre à jour ?
- Améliorer les temps de réponses qui peuvent s’allonger
- Mieux comprendre les raisons d’un crash
- Identifier plus facilement les requêtes fautives - Bénéficier du support le plus en pointe
⇒ Choisir à partir de l’ES 2.x pour éviter les incompatibilités avec les versions 1.7 et précédentes
Nos utilisateurs ne veulent que la dernière info, peu importe le format
• …nous devons relever 2 nouveaux challenges 1. Anticiper les changements sur la longue traine
est difficile
2. Le nombre d’utilisateurs utilisant notre solution
BONUS
Vision
« Utiliser les technologies d’intelligence artificielle
sur des mégadonnées permet de détecter mieux
que jamais les signaux faibles d’un marché »
De nouvelles compétences au service des veilleurs
Ingénieurs Statisticiens
Analystes
UX Designers Taxonomistes
Gestionnaires
données Economistes
Lct Reportlinker
• My SQL
• Big data to the masses
Apache Solr
• Utilisation Apache SolR
• 1st Iphone Release
Generalisation ES
• Version 1 ES disponible
• Rise of Mobile Devices
1er test ES 0.20
• Creation ES Bv
• Big Data Initiative
ES accélère
• Montée en puissance
2007 2008 2012 2013 2016