• Aucun résultat trouvé

BIG DATA et DONNéES SEO

N/A
N/A
Protected

Academic year: 2022

Partager "BIG DATA et DONNéES SEO"

Copied!
37
0
0

Texte intégral

(1)

© 2012 Affini-Tech - Diffusion restreinte 1

BIG DATA et DONNéES SEO

Vincent Heuschling vhe@affini-tech.com

@vhe74

(2)

© 2013 Affini-Tech - Diffusion restreinte 2

Agenda

Affini-Tech

SEO ?

Application

Généralisation

(3)

© 2012 Affini-Tech - Diffusion restreinte 3

Société

(4)

© 2013 Affini-Tech - Diffusion restreinte 4

3 Piliers

Une démarche intégrée de bout en bout

Intégration, Mise en Oeuvre, Conseil et Formation Business

&

Analyses

Technos Sciences BigData

Hadoop NoSQL Cloud

Méthodes projets Outils de reporting

& Data- visualisation

Modélisation

Statistiques (R)

Machine Learning

(5)

© 2012 Affini-Tech - Diffusion restreinte 5

BigData Data-

Science Data-Viz Collecter

Stocker Traiter

Analyser Valoriser

Présenter Organiser

Votre infrastructure Notre Cloud

(6)

© 2012 Affini-Tech - Diffusion restreinte 6

Métiers

Applications

Infrastructures Mktg &

Ventes Finance Production

Stats Apps Data-Viz

Partenaires sectoriels

Partenaires technologiques

(7)

© 2012 Affini-Tech - Diffusion restreinte 7

Métiers

Applications

Infrastructures

Opportunité Bigdata Data-Mining

Applications

Data-visualisations Hybridation

Infrastructures

(8)

© 2012 Affini-Tech - Diffusion restreinte 8

Code

Agile Data

POC Sprint Sprint

Code Code

(9)

D3.j s

COLLECTER | STOCKER | ANALYSER | PARTAGER

© 2013 Affini-Tech - Diffusion restreinte

(10)

© 2012 Affini-Tech - Diffusion restreinte 10

SEO ?

(11)

© 2013 Affini-Tech - Diffusion restreinte 11

Définir quels éléments du site sont à forte valeur

Les promouvoir vers les moteurs de recherches (linking, etc...)

Mesurer et étudier le positionnement du site sur des recherches vis à vis de sa

concurrence

Obtenir les meilleures

positions dans la page de

réponse de Google.

(12)

© 2013 Affini-Tech - Diffusion restreinte 12

CRAWL et VISITES

Organiser le contenu des pages (Pagerank) Faire Crawler les pages par Google

Augmentation

directe du trafic

(13)

© 2013 Affini-Tech - Diffusion restreinte 13

Cercle VERTUEUX de la DATA

Collecter

Analyser Produire

Mesurer

(14)

© 2013 Affini-Tech - Diffusion restreinte 14

RésUltats

(15)

© 2012 Affini-Tech - Diffusion restreinte 15

Application

(16)

© 2013 Affini-Tech - Diffusion restreinte 16

ANNUAIRE

2000 Professions

40000 Communes

100 M de requêtes par mois

Small data : SEO = env 100 Go /an

(17)

© 2013 Affini-Tech - Diffusion restreinte 17

Combien ?

10 visites SEO (hors marque) 30 visites SEO (marque)

90 visites non SEO 20 crawl

x7 à x10 au total (pages + ressources)

Nécessité de filtrer à la source

(18)

© 2012 Affini-Tech - Diffusion restreinte 18

Similarités et Classifications Recommandation &

intelligence collective OpenData

TROUVER 400K NOUVELLES URLS À

PROMOUVOIR PARMI 84M ?

(19)

© 2013 Affini-Tech - Diffusion restreinte 19

Professions

Communes

Grandes catégories, segments et

moyennes

Analyse à la

granularité la plus

fine

(20)

© 2013 Affini-Tech - Diffusion restreinte 20

Professions

Communes

RECOMMANDATIONS

(21)

© 2013 Affini-Tech - Diffusion restreinte

AUGMENTER LA DONNÉE

a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

Data

a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

m n n

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

+ Insee

a b c

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

~~~ ~~~ ~~~

m n n

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

x y z

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

~ ~ ~

+ Opendata

Une information plus riche

Un ciblage plus pertinent

(22)

© 2013 Affini-Tech - Diffusion restreinte 22

OUTILS

Collecter

Pig

Traiter Analyser

(23)

© 2013 Affini-Tech - Diffusion restreinte 23

TYPES de REQUETES

Analyse par zones de géographique Données socio-économiques

Recherches de similarités

Analyse au niveau Url (granularité fine)

Impact du Crawl sur les visites

(24)

© 2013 Affini-Tech - Diffusion restreinte 24

Pipeline

Logs Visites seo

Data géo-éco Insee

Crawl seo

Similarit. Urls.

(25)

© 2013 Affini-Tech - Diffusion restreinte 25

Long TAIL

• Très grosses concentrations

d’activités sur certaines localités.

1: 3003 2: 399 10: 243 50: 100 100: 54 500: 4

Map/Reduce !!

PIG Skewed joins

(26)

© 2013 Affini-Tech - Diffusion restreinte 26

HEATMAPS

Activités (10500)

Départements (96)

Volume de

visites

(27)

© 2013 Affini-Tech - Diffusion restreinte 27

MEsurer : Rankings

Collecte des réponses Google (30x par recherche = dizaines de millions par mois)

Forte croissance de la volumétrie

Classifier et Segmenter par produit,

par thématiques.

(28)

© 2013 Affini-Tech - Diffusion restreinte 28

(29)

© 2012 Affini-Tech - Diffusion restreinte 29

OUTILS

Collecter

Pig Traiter

D3.js

Visualiser Stocker

Analyser

(30)

© 2012 Affini-Tech - Diffusion restreinte 31

GENERALISATION

(31)

© 2013 Affini-Tech - Diffusion restreinte 32

Applicable à toute transaction

Des données brutes

Augmenter la donnée

Similarités et Classifications

Recommandations

(32)

© 2013 Affini-Tech - Diffusion restreinte 33

Lecture

Nettoyage

Machine Learning Open-

data

Data-

Visualisation

Agrégation Croisement

DAta-PIPELINE

(33)

© 2013 Affini-Tech - Diffusion restreinte 34

: ETL & DW

Transactionnel DataMarts BI Applications Non-Structuré

ETL & DW

(34)

© 2013 Affini-Tech - Diffusion restreinte 35

: EDW

Transactionnel BI Applications

Non-Structuré

ETL & DW & DataMarts

(35)

© 2013 Affini-Tech - Diffusion restreinte 36

Applications

& Machine Learning

Visualisations Tableau & JS Opendata

Plateformes

(36)

© 2013 Affini-Tech - Diffusion restreinte 37

"With data collection, 'the sooner the better' is always the best answer"

Marissa Mayer, Yahoo CEO

(37)

© 2013 Affini-Tech - Diffusion restreinte 38

Merci !

Vincent Heuschling

Gsm : 06 61 88 76 71

Email : vhe@affini-tech.com

Web : http://www.affini-tech.com

Twitter : @affinitech & @vhe74

Références

Documents relatifs

Les spécialistes des métadonnées (big data) et d’autres entreprises ont simplement bien compris que l’agriculture, l’alimentation et la santé sont déjà et seront encore plus

Increasing access by integrating the media archives with European on-line digital portals in a digital preservation framework. O1 To research and develop means of ensuring

The examples provided in this Section show that having simply more data is not always helpful in training reliable models, as the data sets used may be biased.. In the

15-janv IS 30 septembre 2021 Date limite de télépaiement du solde de l’impôt sur les sociétés (IS) et de la contribution sociale sur l’IS de 3,3 %, à l'aide du relevé de solde

Les clients de Qlik utilisent nos solutions pour permettre à toutes les équipes de l'entreprise d'avoir accès au Big Data, afin de leur offrir des informations

Ce programme est fourni à titre indicatif, il peut être modifié sans préavis en fonction de l'actualité des moteurs de recherche.!. Il ne nous reste plus qu'à vous souhaiter

Les expérimentateurs ont noté que, lors de la plupart des essais, une force horizontale d’amplitude équivalente à environ 10% du pic de force horizontale de

• Conception et mise en place de solutions distribuées pour différents types de Machine Learning tels que l’apprentissage supervisé et l’apprentissage non-supervisé. • La