• Aucun résultat trouvé

Apprentissage automatique – cas d’usage de la

N/A
N/A
Protected

Academic year: 2022

Partager "Apprentissage automatique – cas d’usage de la"

Copied!
17
0
0

Texte intégral

(1)

Apprentissage automatique – cas d’usage de la recommendation de contenu

Présentation [email protected] 24/02/2017

(2)

A propos de cette présentation

On parle de modèles prédictifs

Le sens des mots, des documents

Le comportement des gens

Les liens entre entités

Cas d’usage

Exploration documentaire

Recommandation d’auteurs

Tagging

(3)

Petite histoire

2009 : découverte d’une méthode d’analyse (NCISC)

2009-2010 : expérimentations, améliorations, extensions

2011 : création d’eXenSa sur recommandation e-commerce

Fin 2013 : R&D sur moteur d’analyse eXenGine

Texte

Relations (hyperliens, par exemple)

Comportements

2014 : premier client (Augure : marketing d’influence)

2016 : Version Online – analyse de CommonCrawl

(4)

Modèles prédictifs

Objectif :

Donner des documents similaires

Classifier / Segmenter

Recommander des produits

Prédire des personnes intéressantes

Moyen :

Créer une synthèse numérique des données

(5)

Modèles prédictifs

Données :

Matrices de co-occurrence (mots, evénéments). Par ex: 2 produits ont été achetés par la même personne

Matrices de mots/documents (modèle Bag of Words) : un document est représenté par un vecteur des mots contenus.

Matrice d’adjacence pour un graphe

Note : ces matrices peuvent être explicites ou implicites (dans ce cas on a les données brutes qui arrivent en flux)

(6)

Factorisation de matrice

En entrée, une grosse matrice creuse M issue d’un échantillonnage

Le but est de trouver U et V tel que U*V’ ≈ M

M V'

U

(7)

Factorisation de matrice

Au final, on passe

d’une representation creuse en très haute dimension : doc1(0,0,0,0,…,1,….,4,…) ou les valeurs non

nulles représentent les occurrences d’un mot particulier dans le document

à une representation dense avec quelques centaines de dimensions: doc1(0.14329,0.0871,-0.1889,…) où les dimensions représentent une direction

synthétique

(8)

NCISC

Propriétés intéressantes

Très rapide (5x plus rapide que LSA optimisé, 50x plus rapide que Doc2Vec, plus de 500x plus rapide que LDA)

Scalable (distribuable)

Robuste (peu de préparation nécessaire)

Excellente qualité

Propriété rare

Permet d’injecter des connaissances externes

(9)

20 newsgroups (forums)

(10)

RCV1 (reuters)

Ohsumed (abstract médicaux)

(11)

Cas d’usage

Exploration documentaire

Grande quantité de documents

On cherche des informations

Cas business dans le domaine juridique

Autres cas d’usage

E-commerce

Marketing réseaux sociaux

(12)

Détail d’un cas d’usage

Moteur d’exploration Wikipedia

4.5M articles

1M categories

113M links

2M words

(13)

Détail d’un cas d’usage

Dans Wikipedia, actuellement:

Se promener dans le graphe des pages (très gros)

Trouver la liste des contributeurs, catégories

Une autre vision :

Utiliser les similarités prédites entre pages,

catégories, etc. basées sur le contenu texte, les liens, les categories, …

(14)

Workflow

XML DUMPS Dictionaries

Compressed Docs Word i/Word i+1

Word i /Word i+2

Word i /Word i+(3,4)

Word i /Word i+(5-10) Doc/Doc (links)

Doc/Word

Doc/Cat Cat/Cat

Word i/Word i+1 Word i /Word i+2 Word i /Word i+[3,4]

Word i /Word i+[5,10]

Doc/Doc (links)

Doc/Word Doc/Cat

Cat/Cat

Word i/Word i±[1,10]

Doc(DC) Cat(DC') Doc(DD)

Doc(DD') Cat(CC)

Cat(CC')

Word(WW) Doc(DW) Word(DW')

Doc/Doc (links)

Doc/Word Doc/Cat

Doc(DC)

Cat(DC2')

Doc(DD2) Doc(DD2') Word(WW)

Doc(DW2) Word(DW2') Doc(DC2) Doc(DW)

Cat(CC)

Doc(DC)

Doc(DC) Doc(DW)

Doc(DW)

Cat/Cat neighbours

Doc(DW2) Doc(DC2) Cat(DC2)

Doc/Cat neighbours

Doc(DD2)

Doc/Doc neighbours (w/category)

Doc/Doc neighbours (w/words)

Doc/Doc neighbours (w/links)

(15)

wikinsights.org

(16)

Pour terminer

Deep learning ?

Des avantages sur certaines tâches :

Analogies

Reconnaissance d’image

Classification de sentiment

Des gros inconvénients sur d’autres :

Lent, beaucoup de paramètres

D’autres méthodes font mieux et plus vite

(17)

Pour terminer

L’IA/ML a énormément de potentiel, mais

Le Deep Learning est une toute petite partie, il ne faut surtout pas s’y restreindre

L’industrie a différents besoins :

Passage à l’echelle

Robustesse

Vitesse

Références

Documents relatifs

Whether your requirement is for on-line access to your data resource ; for interactive program development, research or analysis ; for traditional batch or remote-batch

Define the environment variable VAXLISP to refer to the directory containing the suspended system. Make sure you have enough virtual memory and an equivalent

• Objects that translate text into displayable form: WINDOWS The subsystem also contains EDITOR VARIABLES and LISP global variables, as well as functions that

O that are appropriate for many operations. To modify an attribute block, use the SET-ATTRIBUTE function. This function takes an attribute block and copies its

• Chapter 1, Preparing for the Installation, describes the prerequisites for installing and verifying VAX LISP.. • Chapter 2, Installation and Verification,

The one chosen is the most recently enabled (globally or locally) generalized print function for which the predicate specified with

SUBSTITUTION TOTALE OU PARTIELLE DU TOURTEAU DE SOJA CUIT DANS DES RATIONS A BASE DE

[r]