• Aucun résultat trouvé

Business-Insight Company Presentation

N/A
N/A
Protected

Academic year: 2022

Partager "Business-Insight Company Presentation"

Copied!
5
0
0

Texte intégral

(1)

Business-Insight SPRL E-mail: frank@business-insight.com Company headquarters:

Business-Insight Company Presentation

The Business-Insight company creates the latest state-of-the-art softwares in the domain of predictive datamining.

Predictive datamining techniques are mainly used in the field of Business-Intelligence, to predict the behavior of customers. Our principal customers include Banks, Telecommunication operators, Insurance, E-Commerce companies, Bio-Genetics Companies. Typical applications include:

 For Banks: predict of a company will go bankrupt in a delay of 6 monthes.

 For Telecommunication: predict if a customer will change from mobile phone operator in the next forecoming 3 monthes.

 For Insurance: predict the risk linked to insuring a specific customer.

 E-Commerce: predict what’s the most “likely to be bough” product for a specific customer.

 Bio-Genetics: predict if a woman will have Ovarian Cancer, based on its DNA code.

Business-Insight is on the leading edge of the research in “Predictive Datamining” as demonstrated by our excellent results at the main “Predictive Datamining Competitions”.

Indeed, Business-Insight is always inside the TOP WINNERS at Worldwide “Predictive Datamining Competitions”, such as the world-famous “KDD cup 2009” (KDD stands for “Knowledge Discovery in Database”) and “AUDSM cup 2009” (Australian Dataming cup): see the whole stories here:

http://www.business-insight.com/forum/viewforum.php?f=12

We are proud to create the “Softwares of Tomorrow”. Our mission is to be the technology leader in the field of predictive analytics and datamining for Business Intelligence.

For more information about the Business-Insight company, please visit our website:

http://www.business-insight.com

To still improve our “datamining suite”, we offer to ULB students the opportunity to take part in the development of our “next-generation” softwares.

It’s one unique opportunity to shape the future of Business-Intelligence!

You will find hereafter some projects descriptions that are in the leading edge of predictive datamining techniques. I hope that you will enjoy them!

Brussel, March 1, 2013

(2)

Business-Insight SPRL E-mail: frank@business-insight.com Company headquarters:

Project 2: Predictive Datamining: segmentation tool:

Segmentation visualization.

Un second outil très important en terme de « Business-Intelligence » est l’outil de segmentation ou encore appelé “clustering” de Business-Insight. Un outil de segmentation permet de « découper » la base de données des clients en plusieurs segments, de façon à pouvoir réaliser des campagnes marketing adaptées à chaque segment de clientèle. Par exemple, un obtient souvent les segments suivants :

 les jeunes, sans argent

 les vieux, plein de thunes.

 Les « mid-ages »

L’outil de segmentation de Business-Insight est appelé « StarDust ».

Dans "StarDust", le dataset (la population) à segmenter est représenté par un nuage de points en 3D.

Chaque point représente un individu. Ces points sont texturés. Par exemple, les individus qui sont dans le segment des « bons clients » sont représentés par des "petit coeurs". Le logiciel actuel utilise des VBO (vertex buffer objects) de OpenGL pour afficher en temps réel 1 millions d'individus à l'écran (à 60 frames/sec). Il y a donc tellement de points affichés qu'il est pratiquement impossible d'évaluer

"à l'oeil nu" la densité des points sur certaines parties de l'écran. Or la "densité des points" est une information très importante pour une étude de segmentation.

Voici une illustration de « StarDust » sur la base de données « Census-Income » (200.000 individus):

La visualisation des résultats de la segmentation est une partie importante (si pas la plus importante) d’un logiciel de Segmentation. En effet, il n’existe pas de critère objectif qui permette de déterminer qu’une « segmentation est meilleure qu’une autre ». Donc, seule la visualisation efficace des résultats permet de « valider & comparer » d’un point de vue « business » les segments obtenus. C’est pourquoi le moteur d’affichage 3D et d’exploration 3D de « starDust » est très important.

Stardust est le seul logiciel au monde qui permette de visualiser et de segmenter en temps réel des populations de plusieurs millions d’individus (Le logiciel concurrent le plus proche (SPAD) « plante » lamentablement sur une base de données de plus de 10.000 individus. et nécessite plus de 10 minutes pour afficher en 2D les segments sur une population ridicule de 2.000 individus).

L’objectif du TFE est de réaliser un code en "OpenGL shading language" qui permet d'ajouter un effet de transparence aux textures (aux points) affichés dans "StarDust". En effet, grâce à un effet de transparence, il est possible d'évaluer facilement la densité des points. La technique utilisée pour réaliser la transparence sera basée sur du "order independent transparency" et codée en "OpenGL shading language" (car c'est la seule technique qui permet d'atteindre des performances d'affichage satisfaisante sur des bases de données de plusieurs millions d’individus). Le code s'intégrera à

"StarDust" qui est une application en C/C++ exploitant le framework Qt.

Le candidat devra avoir à disposition une machine avec une carte accélératrice 3D permettant de coder du "order independent transparency" en "OpenGL shading language" (une carte accélératrice 3D récente est nécessaire). C’est un projet vraiment cool à faire car il implique l’utilisation des dernières innovations en matière de programmation de carte accélératrice 3D. En effet, le "order independent transparency" est encore, à l’heure actuelle, un sujet de recherche très actif dans le domaine de la 3D temps-réel.

Example of volumetric transparency effect rendered with a stencil routed k-buffer with 16 fragments per pixel.

Segment 1 Segment 2 Segment 3

outliers

(3)

Business-Insight SPRL E-mail: frank@business-insight.com Company headquarters:

Project 3: Predictive Datamining: classification tool:

ETL toolbox for social network analysis.

Outil d’analyse de réseaux sociaux : Pour une firme de télécommunication (comme proximus, base ou mobistar), l’étude des phénomènes de « churn » est très important. Lorsqu’un abonné de chez Proximus décide de résilier son abonnement chez Proximus et de prendre un abonnement chez Base, cela s’appelle du « churn » : l’abonné en question vient de « churner ». Il est intéressant (et très lucratif !) de faire des modèles prédictifs qui prédisent si un abonné va bientôt « churner ». Ces modèles prédictifs utilisent comme indicateur de « churn » différentes variables : proportion du nombre d’appels vers l’extérieur du réseau, évolution de la valeur de la facture à la fin du mois, etc.

Une variable très importante pour un abonné X est le « nombre de personnes ayant churné dans le voisinage de X ». Il faut ici définir la notion de « voisinage » : 2 abonnés sont « voisins » si on constate, lors de l’analyse de leur « coups de téléphone », qu’ils se téléphonent souvent de l’un à l’autre. Deux abonnés qui se téléphonent directement de l’un à l’autre sont à une distance de 1. Deux abonnés qui téléphonent tous les deux à la même personne « intermédiaire » sont à une distance de 2, etc.

L’objectif est d’extraire différents indicateurs hors du « réseau social » (extrait du réseau des « coups de téléphones ») pour chaque personne. Ces indicateurs sont ajoutés aux données déjà disponibles sur les clients pour améliorer (substantiellement) la qualité des prédictions (pour le « churn », principalement)(voyez le projet « 1 » pour plus d’information sur les techniques prédictives).

L’hypothèse sous-jacente qui doit être vérifiée pour que ce type d’analyse fonctionne est que le

« réseau des coups de téléphone » (qui est le seul que nous avons à disposition) est égal au « réseau social » (qui est le seul à influencer le « churn »). Pour extraire le « réseau social » à partir du « réseau des coups de téléphone », il est nécessaire de « filter » hors de l’analyse les appels à caractère non- social (les appels de type « commerciaux », par exemple). Ces filtres ad-hoc, qui sont très importants, sont déjà disponibles dans le logiciel de Business-Insight nommé « Anatella ». Anatella est un ETL : (ETL= « Extract-Transform-load »): c’est un outil de manipulation de donnée conçu pour les larges volumes.

Anatella est un environnement de développement de scripts de manipulation des données extrêmement simple, intuitif & versatile. Cet environnement est basé sur une technologie hybride :

1. Les transformations simples sont décrites à l’aide de « petites boîtes » (qui est la façon la plus intuitive de représenter des transformations de données et qui est un standard « de facto » dans tous les ETL modernes).

2. Les transformations complexes sont programmées à l’aide d’un langage de scripting basé sur javascript (standard ECMA-262) qui est simple, complet et très versatile.

Anatella intègre aussi un « debugger » qui possède une interface similaire au debugger de Visual Studio (pour « debugger » les scripts javascript/ECMA-262): possibilité de mettre des « break points », de mettre des « watch » sur des variables, de voir le « stack », … Voici un screenshot de Anatella :

L’objectif est de réaliser un opérateur dans Anatella (« une petite boite ») qui permet d’analyser le réseau, tel qu’il a été défini grâce aux différents filtres définis avec Anatella par l’utilisateur: par exemple il est intéressant de calculer de nouvelles variables telles que : distance par rapport au plus proche « churner », proportion de « churners » dans un voisinage de 1,2,3, indice de centralité des

« churner » dans le cluster, etc.

Les algorithmes seront appliqués à des réseaux sociaux construits à partir de réseaux de « coups de téléphones ». La taille des réseaux analysés est donc très grande : plusieurs millions de nœuds et plusieurs centaines de millions d’arcs sont des choses courantes.

Ce projet est parfait pour tout étudiant intéressé dans l’« optimisation de code C++ » et l’algorithme de haut vol. En effet, un mauvais choix algorithmique peut provoquer une « complexité algorithmique

» telle qu’il est impossible que cela fonctionne pour des réseaux de plusieurs millions d’individus!

(4)

Business-Insight SPRL E-mail: frank@business-insight.com Company headquarters:

Address: Chemin des 2 Villers, 11 - 7812 Ath (V.N.D.) - Belgium

Project 4: Predictive Datamining: segmentation tool:

database exploration.

Grâce à Stardust, il est possible d’explorer en 3D des nuages de points qui représentent des bases de données de plusieurs millions d’individus. On peut, par exemple, se « déplacer » à l’aide de la souris dans un espace 3D représentant, de façon multivariée, la base de données. La "densité des points"

dans l’espace est une information très importante pour une étude de segmentation. Pour pouvoir illustrer cette « densité », il serait intéressant de pouvoir utiliser, non pas une souris, mais un

« pointeur 3D haptique ». Le terme « haptique » est un terme qui désigne une interface utilisateur qui oppose une certaine « résistance programmable au déplacement » (aussi appelé « retour de force »). Typiquement, les « pointeurs 3D haptiques » sont utilisés par des chirurgiens lorsqu’ils opèrent à l’aide de micro-scapels, pour avoir un « retour de force », quand ils commencent à

« couper ». Ce genre d’appareil est assez couteux mais Business-Insight en possède un (avec les librairies qui permettent de le programmer : le Falcon3D). Nous aimerions pouvoir exploiter notre

« pointeur 3D haptique » dans StarDust. Le « retour de force » serait proportionnel à la "densité locale des points" dans l’espace. C’est un projet vraiment cool à faire car il implique de programmer le « retour de force » d’un appareil « haptique » de dernière génération.

pointeur 3D haptique mis à disposition : le NovInt Falcon 3D

(5)

5

Business-Insight SPRL E-mail: frank@business-insight.com Company headquarters:

Address: Chemin des 2 Villers, 11 - 7812 Ath (V.N.D.) - Belgium

Project 7: Predictive Datamining: segmentation tool:

Dimensionality reduction.

Dans "StarDust", le dataset à segmenter est représenté par un nuage de points en 3D. Chaque point représente un individu. Pour obtenir la coordonnée des points en 3D, il est nécessaire de réaliser une PCA, qui "projette" dans un espace 3D des points qui, au départ, sont dans un espace bien plus large à "d" dimension (d>>3). Dans "StarDust", le code qui réalise la PCA est très primitif et fonctionne de façon satisfaisante sur des dimensions de départ "d"<300.

L'objectif du TFE est d'intégrer un code dans "Stardust" qui calcule la projection lorsque de d>300. Il faudra investiguer plusieurs librairies informatiques disponibles sur internet pour calculer la PCA et

"benchmarker" chacune. Note: La PCA est réalisée sur une matrice pleine (et donc la matrice n’est pas "creuse").

C’est un Project à forte composante mathématique et il devrait intéresser tout étudiant avec un

penchant pour les mathématiques très avancées appliquées à des cas concrets.

Références

Documents relatifs

Le plus récent de ces modes est l’ECP (Extended Capacity Port). Il a été conçu par Hewlett Packard et Microsoft [16]. Il dérive fortement d’ailleurs du mode EPP et en possède

est le logiciel phare de La Solution Crypto dédié au métier de la Gérance. LE

C’est en ce sens que nous déploierons nos richesses pour faire d’un SSV d’origine, un engin capable d’aller au bout des 2000 kms de pistes marocaines.... Un soutien

I Temps-r´eel: syst`emes temps r´eel `a criticit´e mixte pour la coexistance d’applications critiques et non critiques sur une mˆeme plateforme: respect de contraintes de

• Proposer une explication à partir de schémas des gestes et posi- tions correctes à rechercher (à adapter en fonction des activités de la personne) et une démonstration

- Le rectangle de sélection : Cet outil vous permet de sélectionner une partie de l’image dans un rectangle.. Si vous maintenez

3 / Lors d'une capture d'image, celle ci sera transférée sur l'interface principal Motic image 3.0 (1 ère fenêtre ouverte) vous trouverez les différentes. fonctions qui

Nous revenons devant le calendrier chaque début de mois pour faire le bilan du temps écoulé et du temps à partager encore ensemble, pour annon - cer les