Utilisation des réseaux sociaux dans la lutte contre la fraude
Françoise Soulié Fogelman VP Innovation francoise@kxen.com
2 2
Agenda
1.
La fraude à la carte bancaire
2.La question des volumes
3.
La création de nouvelles variables
4.L’apport des réseaux sociaux
5.L’investigation de la fraude
6.Conclusion
La fraude à la carte bancaire
4
La fraude à la carte bancaire sur Internet
• Le commerce en ligne augmentepartout
–Exemple : US
http://www.comscore.com/Press_Events/Presentations_Whitepapers/2011/2010_US_Digital _Year_in_Review
• Et donc la fraude aussi –En taux & en montant –Exemple : France
• Carte absente = poste / téléphone/ en ligne
http://www.banque-france.fr/observatoire/telechar/gb/2009/rapport-annuel-OSCP-2009-gb-fraud- statistics-for-2009.pdf
Taux Montant
M€
5 5
La fraude à la carte bancaire sur Internet
•
Le commerce électronique en France (2009)
D’après la FEVAD
–Réglé à 90% par carte bancaire
–Taux de tentatives de fraude 2,82 % (+5 % / 2008)
• Montant des tentatives de fraude > 705 millions € en 2009
• Montant total détourné > 36 millions € Estimation Fia-Net
• À la charge des commerçants en France –Fraude réalisée par le grand banditisme
• Vol de numéros de cartes
•
En France, le GIE Cartes Bancaires gère le processus d’autorisation des transactions
6 6
La fraude à la carte bancaire sur Internet L’analyse de la fraude a donc un double objectif couvert par deux types d’analyse
–Éviter les pertes financières : détection –Identifier les gangs responsables : investigation
•
Pour cela, on exploite les données disponibles
–Données de transactions–Données clients & Données produits –Données Banques & Données Marchands …
•
Projet ANR eFraudBox
–Avec Thales, Altic, GIE CB, LIP6 et LIPN
LIPN-UMR 7030
7 7
La fraude à la carte bancaire sur Internet
•
Détecter la fraude
En temps réel–Bloquer une transaction au moment de la demande d’autorisation : bloquer la transaction qu’on soupçonne d’être frauduleuse (sans perturber l’achat normal) A posteriori
–Constater qu’une transaction passée (la veille) était frauduleuse: éviter la fraude future sur la même carte Les transactions « en alerte » sont signalées à la banque
• Pour inspection par un agent
•
Investiguer la fraude
–Extraire d’un ensemble de transactions frauduleuses des sous-ensembles attribuables à un même groupe criminel
8 8
Évaluation des performances de détection
On utilise deux indicateurs
• Couverture (ouRappel)
–C’est le taux de cas de fraude identifiés –On veut peu de Faux Négatifs
•Ces fraudeurs ne seront pas investigués
• Pertinence (ouPrécision)
–C’est le taux d’alertes réellement frauduleuses –On veut peu de Faux Positifs
•Ces dossiers seront investigués pour rien
Difficultés
–Le taux de fraude est très faible –Le taux d’alertes doit être très faible –Et les volumétries sont très fortes
( ) s
VPFCouv =
( ) s
VPAert
P =
9 9
•
Données de transaction cartes
–Incluant l’information de fraude (si elle est disponible)
Le processus de détection
Historique des transactions de la carte X
Fraude 0 0 0 0 1 1 0 0 1 0 1
1èretransaction frauduleuse
Opposition Détection
4èmetransaction frauduleuse, détectée
10 10
Le processus de détection
Historique des transactions de la carte X
Fraude 0 0 0 0 1 1 0 0 1 0 1
Opposition
Fraude évitée
1 0 1
Modèle 0 0 0 0 0 0 0 1
1ère fraude scorée positive
Faux négatif
Faux
positif Détection
•
Construire un modèle prédictif
–Analyser à j+1 et prévoir si la transaction i est frauduleuse
La question des volumes
12 12
Les données du e-commerce
•
Les volumes sont massifs
–Plus de 300 M de transactions par an en France –Plus de 40 M de cartes bancaires en France –Le commerce électronique est mondial
•
La fraude change rapidement
–Un modèle doit être produit•Tous les mois / ans ?
•Sur un grand volume (1 mois de transactions ?) –Un modèle doit être appliqué
•À chaque transaction
•
On a donc des contraintes fortes de temps de
calcul liées aux volumes
13 13
Construire un modèle de détection
•
Sur un mois (par exemple)
–30 M de transactions –3% de fraude (Fia-Net, 2010)•
Deux problèmes pour les techniques de data mining
–Nombre de transactions–Classe Fraude très sous-représentée
14 14
Modèle baseline
•
Modèle entraîné sur avril et testé en mai
–Avec KXEN InfiniteInsightTM6.0•Sur toutes les transactions du mois
•AUC
•
Loin du but !
Pertinence : 70%Couverture : 30 %
15 15
Échantillonner
•
Comparaison de méthodes
–Stabilité –Performance
•
Échantillon stratifié sous- échantillonné
–Simple –Rapide –Performant –Stable
Couverture
La création de nouvelles variables
17 17
La détection de la fraude
•
Pour améliorer les performances de détection, on génère des variables supplémentaires …
•
Profils
–Carte –Marchand•
Agrégats glissants
–Jour, semaine, mois –Nombre / montant• Transactions, fraudes … –Moyenne, taux, déviation
•
+ environ 700 variables
18 18
Résultats
•
Sur un échantillon à 1%
•
Rappel baseline
–8,19%–1,41%
•
Mieux, mais encore loin !
Pertinence : 70%
Couverture : 30 %
L’apport des réseaux sociaux
20 20
Marchan dMarchan dMarchan dMarchan d Carte
Carte Carte Carte
KM=2 Kc=1
Carte
Carte
Marchand
Marchand Marchand Carte
La fraude à la carte bancaire sur Internet Détection
•
On construit des réseaux bipartites
–Sur un mois de transactions–Différentes sémantiques de liens 1.Toutes les transactions ou 2.Transactions acceptées …
•
On projette
–2 Marchands sont connectés s’ils
ont vu au moins Kccartes
–2 Cartes sont connectées si elles
ont acheté chez au moins KM marchands
•
On extrait les variables sociales
dans chaque graphe –Degré, communauté, agrégats dans le cercle/ communauté –Agrégats sociauxglissants dans la communauté21 21
Modèle de classification
•
On utilise toutes les données disponibles
•
On a donc
– 304 agrégats cartes &17 scores et agrégats scores cartes
– 370 agrégats marchands & 17 scores et agrégats scores marchands – 38 scores OCSVM – 140 variables sociales cartes – 41 variables sociales marchands – 964 variables
22 22
Performances
•
Mieux, mais pas encore assez
•
Rappel baseline
–8,19%–1,41%
•
Avec agrégats
–10,53%–11,04%
Pertinence : 70%
Couverture : 30 %
23 23
Variables Contribution des variables
24 24
Segmentation
•
Il y a beaucoup de types de fraude
–Faire une segmentation cartes, avec les agrégats cartes
⇒19 segments
•Différents types de fraude
25 25
Segmentation
•
Faire un modèle par segment
•
Cible
• Pertinence : 70%
• Couverture : 30 %
L’investigation de la
fraude
27
Banque
Investigation
•
On construit le réseau bipartite Cartes-Marchands
– À partir du fichier des transactions acceptées d’un mois donné
• On récupère la liste de toutes les cartes qui ont été fraudées
• Pour chacune de ces cartes on extrait l’intégralité de ses transactions
•
On projette côté Marchands
– On obtient à la fois des marchands fraudés et non fraudés
– Reliés entre eux quand ils ont des cartes en commun
•
On détecte les communautés
– Les groupes de marchands plus connectés entre eux qu’avec le reste du graphe
• Ils sont visités par les mêmes cartes
28 28
Banque
•
Zoom sur une communauté
La taille d’un nœud correspond au nombre de transactions traitées par le marchand
Rouge : fraude Vert : pas fraude
L’épaisseur des liens correspond au nombre de cartes en commun dans le graphe bipartite
29 29
Banque
•
Voisinage complet du marchand dans sa communauté
30 30
La fraude à la carte bancaire sur Internet Sous-réseau autour du marchand
–Communauté 4, seuil à 30 QuintileMontantFraude QuintileTauxFraudeTransactions
0 1 2 3 4 5
Échelle de couleurs