La fraude à la carte bancaire

(1)

Utilisation des réseaux sociaux dans la lutte contre la fraude

Françoise Soulié Fogelman VP Innovation francoise@kxen.com

2 2

Agenda

1.

La fraude à la carte bancaire

2.

La question des volumes

3.

La création de nouvelles variables

4.

L’apport des réseaux sociaux

5.

L’investigation de la fraude

6.

Conclusion

La fraude à la carte bancaire

4

La fraude à la carte bancaire sur Internet

• Le commerce en ligne augmentepartout

–Exemple : US

http://www.comscore.com/Press_Events/Presentations_Whitepapers/2011/2010_US_Digital _Year_in_Review

• Et donc la fraude aussi –En taux & en montant –Exemple : France

• Carte absente = poste / téléphone/ en ligne

http://www.banque-france.fr/observatoire/telechar/gb/2009/rapport-annuel-OSCP-2009-gb-fraud- statistics-for-2009.pdf

Taux Montant

M€

5 5

La fraude à la carte bancaire sur Internet

•

Le commerce électronique en France (2009)

D’après la FEVAD

–Réglé à 90% par carte bancaire

–Taux de tentatives de fraude 2,82 % (+5 % / 2008)

• Montant des tentatives de fraude > 705 millions € en 2009

• Montant total détourné > 36 millions € Estimation Fia-Net

• À la charge des commerçants en France –Fraude réalisée par le grand banditisme

• Vol de numéros de cartes

•

En France, le GIE Cartes Bancaires gère le processus d’autorisation des transactions

6 6

La fraude à la carte bancaire sur Internet L’analyse de la fraude a donc un double objectif couvert par deux types d’analyse

–Éviter les pertes financières : détection –Identifier les gangs responsables : investigation

•

Pour cela, on exploite les données disponibles

–Données de transactions

–Données clients & Données produits –Données Banques & Données Marchands …

•

Projet ANR eFraudBox

–Avec Thales, Altic, GIE CB, LIP6 et LIPN

LIPN-UMR 7030

(2)

7 7

La fraude à la carte bancaire sur Internet

•

Détecter la fraude

En temps réel

–Bloquer une transaction au moment de la demande d’autorisation : bloquer la transaction qu’on soupçonne d’être frauduleuse (sans perturber l’achat normal) A posteriori

–Constater qu’une transaction passée (la veille) était frauduleuse: éviter la fraude future sur la même carte Les transactions « en alerte » sont signalées à la banque

• Pour inspection par un agent

•

Investiguer la fraude

–Extraire d’un ensemble de transactions frauduleuses des sous-ensembles attribuables à un même groupe criminel

8 8

Évaluation des performances de détection

On utilise deux indicateurs

• Couverture (ouRappel)

–C’est le taux de cas de fraude identifiés –On veut peu de Faux Négatifs

•Ces fraudeurs ne seront pas investigués

• Pertinence (ouPrécision)

–C’est le taux d’alertes réellement frauduleuses –On veut peu de Faux Positifs

•Ces dossiers seront investigués pour rien

Difficultés

–Le taux de fraude est très faible –Le taux d’alertes doit être très faible –Et les volumétries sont très fortes

( ) s

VPF

Couv =

( ) s

VPA

ert

P =

9 9

•

Données de transaction cartes

–Incluant l’information de fraude (si elle est disponible)

Le processus de détection

Historique des transactions de la carte X

Fraude 0 0 0 0 1 1 0 0 1 0 1

1^èretransaction frauduleuse

Opposition Détection

4^èmetransaction frauduleuse, détectée

10 10

Le processus de détection

Historique des transactions de la carte X

Fraude 0 0 0 0 1 1 0 0 1 0 1

Opposition

Fraude évitée

1 0 1

Modèle 0 0 0 0 0 0 0 1

1ère fraude scorée positive

Faux négatif

Faux

positif Détection

•

Construire un modèle prédictif

–Analyser à j+1 et prévoir si la transaction i est frauduleuse

La question des volumes

12 12

Les données du e-commerce

•

Les volumes sont massifs

–Plus de 300 M de transactions par an en France –Plus de 40 M de cartes bancaires en France –Le commerce électronique est mondial

•

La fraude change rapidement

–Un modèle doit être produit

•Tous les mois / ans ?

•Sur un grand volume (1 mois de transactions ?) –Un modèle doit être appliqué

•À chaque transaction

•

On a donc des contraintes fortes de temps de

calcul liées aux volumes

(3)

13 13

Construire un modèle de détection

•

Sur un mois (par exemple)

–30 M de transactions –3% de fraude (Fia-Net, 2010)

•

Deux problèmes pour les techniques de data mining

–Nombre de transactions

–Classe Fraude très sous-représentée

14 14

Modèle baseline

•

Modèle entraîné sur avril et testé en mai

–Avec KXEN InfiniteInsight^TM6.0

•Sur toutes les transactions du mois

•AUC

•

Loin du but !

Pertinence : 70%

Couverture : 30 %

15 15

Échantillonner

•

Comparaison de méthodes

–Stabilité –Performance

•

Échantillon stratifié sous- échantillonné

–Simple –Rapide –Performant –Stable

Couverture

La création de nouvelles variables

17 17

La détection de la fraude

•

Pour améliorer les performances de détection, on génère des variables supplémentaires …

•

Profils

–Carte –Marchand

•

Agrégats glissants

–Jour, semaine, mois –Nombre / montant

• Transactions, fraudes … –Moyenne, taux, déviation

•

+ environ 700 variables

18 18

Résultats

•

Sur un échantillon à 1%

•

Rappel baseline

–8,19%

–1,41%

•

Mieux, mais encore loin !

(4)

L’apport des réseaux sociaux

20 20

Marchan dMarchan dMarchan dMarchan d Carte

Carte Carte Carte

KM=2 Kc=1

Carte

Marchand

Marchand Marchand Carte

La fraude à la carte bancaire sur Internet Détection

•

On construit des réseaux bipartites

–Sur un mois de transactions

–Différentes sémantiques de liens 1.Toutes les transactions ou 2.Transactions acceptées …

•

On projette

–2 Marchands sont connectés s’ils

ont vu au moins K_ccartes

–2 Cartes sont connectées si elles

ont acheté chez au moins KM marchands

•

On extrait les variables sociales

dans chaque graphe –Degré, communauté, agrégats dans le cercle/ communauté –Agrégats sociauxglissants dans la communauté

21 21

Modèle de classification

•

On utilise toutes les données disponibles

•

On a donc

– 304 agrégats cartes &17 scores et agrégats scores cartes

– 370 agrégats marchands & 17 scores et agrégats scores marchands – 38 scores OCSVM – 140 variables sociales cartes – 41 variables sociales marchands – 964 variables

22 22

Performances

•

Mieux, mais pas encore assez

•

Rappel baseline

–8,19%

–1,41%

•

Avec agrégats

–10,53%

–11,04%

23 23

Variables Contribution des variables

24 24

Segmentation

•

Il y a beaucoup de types de fraude

–Faire une segmentation cartes, avec les agrégats cartes

⇒19 segments

•Différents types de fraude

(5)

25 25

Segmentation

•

Faire un modèle par segment

•

Cible

• Pertinence : 70%

• Couverture : 30 %

L’investigation de la

fraude

27

Banque

Investigation

•

On construit le réseau bipartite Cartes-Marchands

– À partir du fichier des transactions acceptées d’un mois donné

• On récupère la liste de toutes les cartes qui ont été fraudées

• Pour chacune de ces cartes on extrait l’intégralité de ses transactions

•

On projette côté Marchands

– On obtient à la fois des marchands fraudés et non fraudés

– Reliés entre eux quand ils ont des cartes en commun

•

On détecte les communautés

– Les groupes de marchands plus connectés entre eux qu’avec le reste du graphe

• Ils sont visités par les mêmes cartes

28 28

Banque

•

Zoom sur une communauté

La taille d’un nœud correspond au nombre de transactions traitées par le marchand

Rouge : fraude Vert : pas fraude

L’épaisseur des liens correspond au nombre de cartes en commun dans le graphe bipartite

29 29

Banque

•

Voisinage complet du marchand dans sa communauté

30 30

La fraude à la carte bancaire sur Internet Sous-réseau autour du marchand

–Communauté 4, seuil à 30 QuintileMontantFraude QuintileTauxFraudeTransactions

0 1 2 3 4 5

Échelle de couleurs

(6)