© 2012 Affini-Tech - Diffusion restreinte 1
BIG DATA et DONNéES SEO
Vincent Heuschling vhe@affini-tech.com
@vhe74
© 2013 Affini-Tech - Diffusion restreinte 2
Agenda
• Affini-Tech
• SEO ?
• Application
• Généralisation
© 2012 Affini-Tech - Diffusion restreinte 3
Société
© 2013 Affini-Tech - Diffusion restreinte 4
3 Piliers
Une démarche intégrée de bout en bout
Intégration, Mise en Oeuvre, Conseil et Formation Business
&
Analyses
Technos Sciences BigData
Hadoop NoSQL Cloud
Méthodes projets Outils de reporting
& Data- visualisation
Modélisation
Statistiques (R)
Machine Learning
© 2012 Affini-Tech - Diffusion restreinte 5
BigData Data-
Science Data-Viz Collecter
Stocker Traiter
Analyser Valoriser
Présenter Organiser
Votre infrastructure Notre Cloud
© 2012 Affini-Tech - Diffusion restreinte 6
Métiers
Applications
Infrastructures Mktg &
Ventes Finance Production
Stats Apps Data-Viz
Partenaires sectoriels
Partenaires technologiques
© 2012 Affini-Tech - Diffusion restreinte 7
Métiers
Applications
Infrastructures
Opportunité Bigdata Data-Mining
Applications
Data-visualisations Hybridation
Infrastructures
© 2012 Affini-Tech - Diffusion restreinte 8
Code
Agile Data
POC Sprint Sprint
Code Code
D3.j s
COLLECTER | STOCKER | ANALYSER | PARTAGER
© 2013 Affini-Tech - Diffusion restreinte
© 2012 Affini-Tech - Diffusion restreinte 10
SEO ?
© 2013 Affini-Tech - Diffusion restreinte 11
Définir quels éléments du site sont à forte valeur
Les promouvoir vers les moteurs de recherches (linking, etc...)
Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa
concurrence
Obtenir les meilleures
positions dans la page de
réponse de Google.
© 2013 Affini-Tech - Diffusion restreinte 12
CRAWL et VISITES
Organiser le contenu des pages (Pagerank) Faire Crawler les pages par Google
Augmentation
directe du trafic
© 2013 Affini-Tech - Diffusion restreinte 13
Cercle VERTUEUX de la DATA
Collecter
Analyser Produire
Mesurer
© 2013 Affini-Tech - Diffusion restreinte 14
RésUltats
© 2012 Affini-Tech - Diffusion restreinte 15
Application
© 2013 Affini-Tech - Diffusion restreinte 16
ANNUAIRE
• 2000 Professions
• 40000 Communes
• 100 M de requêtes par mois
• Small data : SEO = env 100 Go /an
© 2013 Affini-Tech - Diffusion restreinte 17
Combien ?
10 visites SEO (hors marque) 30 visites SEO (marque)
90 visites non SEO 20 crawl
x7 à x10 au total (pages + ressources)
Nécessité de filtrer à la source
© 2012 Affini-Tech - Diffusion restreinte 18
Similarités et Classifications Recommandation &
intelligence collective OpenData
TROUVER 400K NOUVELLES URLS À
PROMOUVOIR PARMI 84M ?
© 2013 Affini-Tech - Diffusion restreinte 19
Professions
Communes
Grandes catégories, segments et
moyennes
Analyse à la
granularité la plus
fine
© 2013 Affini-Tech - Diffusion restreinte 20
Professions
Communes
RECOMMANDATIONS
© 2013 Affini-Tech - Diffusion restreinte
AUGMENTER LA DONNÉE
a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
Data
a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
m n n
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
+ Insee
a b c
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
~~~ ~~~ ~~~
m n n
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
x y z
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
~ ~ ~
+ Opendata
Une information plus riche
Un ciblage plus pertinent
© 2013 Affini-Tech - Diffusion restreinte 22
OUTILS
Collecter
Pig
Traiter Analyser
© 2013 Affini-Tech - Diffusion restreinte 23
TYPES de REQUETES
Analyse par zones de géographique Données socio-économiques
Recherches de similarités
Analyse au niveau Url (granularité fine)
Impact du Crawl sur les visites
© 2013 Affini-Tech - Diffusion restreinte 24
Pipeline
Logs Visites seo
Data géo-éco Insee
Crawl seo
Similarit. Urls.
© 2013 Affini-Tech - Diffusion restreinte 25
Long TAIL
• Très grosses concentrations
d’activités sur certaines localités.
1: 3003 2: 399 10: 243 50: 100 100: 54 500: 4
Map/Reduce !!
PIG Skewed joins
© 2013 Affini-Tech - Diffusion restreinte 26
HEATMAPS
Activités (10500)
Départements (96)
Volume de
visites
© 2013 Affini-Tech - Diffusion restreinte 27
MEsurer : Rankings
Collecte des réponses Google (30x par recherche = dizaines de millions par mois)
Forte croissance de la volumétrie
Classifier et Segmenter par produit,
par thématiques.
© 2013 Affini-Tech - Diffusion restreinte 28
© 2012 Affini-Tech - Diffusion restreinte 29
OUTILS
Collecter
Pig Traiter
D3.js
Visualiser Stocker
Analyser
© 2012 Affini-Tech - Diffusion restreinte 31
GENERALISATION
© 2013 Affini-Tech - Diffusion restreinte 32
• Applicable à toute transaction
• Des données brutes
• Augmenter la donnée
• Similarités et Classifications
• Recommandations
© 2013 Affini-Tech - Diffusion restreinte 33
Lecture
Nettoyage
Machine Learning Open-
data
Data-
Visualisation
Agrégation Croisement
DAta-PIPELINE
© 2013 Affini-Tech - Diffusion restreinte 34
: ETL & DW
Transactionnel DataMarts BI Applications Non-Structuré
ETL & DW
© 2013 Affini-Tech - Diffusion restreinte 35
: EDW
Transactionnel BI Applications
Non-Structuré
ETL & DW & DataMarts
© 2013 Affini-Tech - Diffusion restreinte 36
Applications
& Machine Learning
Visualisations Tableau & JS Opendata
Plateformes
© 2013 Affini-Tech - Diffusion restreinte 37
• "With data collection, 'the sooner the better' is always the best answer"
• Marissa Mayer, Yahoo CEO
© 2013 Affini-Tech - Diffusion restreinte 38