Proposition de stages chez KXEN

(1)

Sujet 1:

--- JDM 2

KXEN, éditeur dans le domaine des composants logiciels de l'analyse des données, propose un stage de 6 mois pour écrire la seconde version de la Reference Implementation (RI) du standard Java Data Mining (JDM). Cette implémentation de référence est nécessaire pour finaliser la seconde version de ce standard. Ce développement sera mené en parallèle avec l'implémentation de la version KXEN de JDM 2.

Ce développement est en Java uniquement (une tres bonne connaissance de Java est necessaire), le code doit contenir de nombreux commentaires en Anglais. Il sera livre avec des procédures de tests, et un tutorial. Les connaissances en XML/Web Services sont souhaitées mais pas

nécessaires.

Ce stage suscitera de nombreux contacts internationaux, puisque la personne sera le représentant de KXEN aux conference-call hebdomadaires du comite d'experts (comprenant des personnes de SAS/SPSS/IBM/Oracle/...).

Sujet 2:

---

Demonstrateur

Utilisation des composants KXEN pour un faire un demonstrateur de 'Product Recommandation'.

Le but de ce stage est de demontrer plusieurs techniques de recommandation de produit basee sur plusieurs techniques selon le nombre de produits a recommander.

Ce demonstrateur sera developpe en VB .Net ou en C# .Net, ou en Java.

Il permettra de se connecter a une base de donnees contenant des informations sur les clients et de fichiers de transactions correspondants a des achats.

Il mettra en oeuvre trois modules au choix:

* Un module a utiliser lorsque le nombre de produits est faible (< 20) base sur des composants de classifications.

* Un module a utiliser lorsque le nombre de produits est moyen (20 < nb produits < 200) base sur des composants de clustering associe a des profils.

* Un module a utiliser lorsque le nombre de produits est grand (> 200) base sur des regles d'associations.

Le systeme devra demontrer la phase d'apprentissage et la phase d'utilisation en temps reel qui pourrait utiliser des Web Services).

Subject 3:

---

Evaluate Multithreading Strategies for Data Mining Parallelization

(2)

The goal is to evaluate how multithreading can be used in KXEN data mining engine C++ kernel to improve performances on multi-processor machines. We do not want to adress large scale parallel algorithms (grid,...), but instead the target architecture is nowadays common bi- or quadri-processor machines. In such a situation, the idea is generally to have a few numbers of threads dedicated to concurrent tasks (for example, when applying a data mining model, one thread can feed and pre-process the data while the other can compute results).

In other cases, some loops can actually be parallelized safely (when the outcome of each iterations does not depends on other iterations results).

Tasks identified

- Integrate first simple threading strategy in data reading component - Design a C++ component to ease loops parallelization

- Integrate loop parallelization in different places in C++ kernel

- evaluate algorithm performance (speed) on single and multi-processor machines (Windows, Unix).

Technical domains:

- C++, STL, mutlithreading

Contact :

Erik Marcadé - CTO

25 Quai Gallieni - 92158 Suresnes Cedex -FRANCE Tel: +33 (0)1 41 44 88 41 Fax: +33 (0)1 41 44 88 40 Email : Erik.Marcade@KXEN.com