• Aucun résultat trouvé

Proposition de stages chez KXEN

N/A
N/A
Protected

Academic year: 2022

Partager "Proposition de stages chez KXEN"

Copied!
2
0
0

Texte intégral

(1)

Proposition de stages chez KXEN

Sujet 1:

--- JDM 2

KXEN, éditeur dans le domaine des composants logiciels de l'analyse des données, propose un stage de 6 mois pour écrire la seconde version de la Reference Implementation (RI) du standard Java Data Mining (JDM). Cette implémentation de référence est nécessaire pour finaliser la seconde version de ce standard. Ce développement sera mené en parallèle avec l'implémentation de la version KXEN de JDM 2.

Ce développement est en Java uniquement (une tres bonne connaissance de Java est necessaire), le code doit contenir de nombreux commentaires en Anglais. Il sera livre avec des procédures de tests, et un tutorial. Les connaissances en XML/Web Services sont souhaitées mais pas

nécessaires.

Ce stage suscitera de nombreux contacts internationaux, puisque la personne sera le représentant de KXEN aux conference-call hebdomadaires du comite d'experts (comprenant des personnes de SAS/SPSS/IBM/Oracle/...).

Sujet 2:

---

Demonstrateur

Utilisation des composants KXEN pour un faire un demonstrateur de 'Product Recommandation'.

Le but de ce stage est de demontrer plusieurs techniques de recommandation de produit basee sur plusieurs techniques selon le nombre de produits a recommander.

Ce demonstrateur sera developpe en VB .Net ou en C# .Net, ou en Java.

Il permettra de se connecter a une base de donnees contenant des informations sur les clients et de fichiers de transactions correspondants a des achats.

Il mettra en oeuvre trois modules au choix:

* Un module a utiliser lorsque le nombre de produits est faible (< 20) base sur des composants de classifications.

* Un module a utiliser lorsque le nombre de produits est moyen (20 < nb produits < 200) base sur des composants de clustering associe a des profils.

* Un module a utiliser lorsque le nombre de produits est grand (> 200) base sur des regles d'associations.

Le systeme devra demontrer la phase d'apprentissage et la phase d'utilisation en temps reel qui pourrait utiliser des Web Services).

Subject 3:

---

Evaluate Multithreading Strategies for Data Mining Parallelization

(2)

The goal is to evaluate how multithreading can be used in KXEN data mining engine C++ kernel to improve performances on multi-processor machines. We do not want to adress large scale parallel algorithms (grid,...), but instead the target architecture is nowadays common bi- or quadri-processor machines. In such a situation, the idea is generally to have a few numbers of threads dedicated to concurrent tasks (for example, when applying a data mining model, one thread can feed and pre-process the data while the other can compute results).

In other cases, some loops can actually be parallelized safely (when the outcome of each iterations does not depends on other iterations results).

Tasks identified

- Integrate first simple threading strategy in data reading component - Design a C++ component to ease loops parallelization

- Integrate loop parallelization in different places in C++ kernel

- evaluate algorithm performance (speed) on single and multi-processor machines (Windows, Unix).

Technical domains:

- C++, STL, mutlithreading

Contact :

Erik Marcadé - CTO

25 Quai Gallieni - 92158 Suresnes Cedex -FRANCE Tel: +33 (0)1 41 44 88 41 Fax: +33 (0)1 41 44 88 40 Email : Erik.Marcade@KXEN.com

Références

Documents relatifs

Sélection des variables Préparation des données Préparation des données Construction du modèle Construction du modèle Test du modèle Test du modèle. KXEN Consistent Coder

Dépendances explicites (expression des ressources fournies et requises) Composition hiérarchique (un assemblage de composants est un composant).. Que doit fournir un modèle

Pour constituer l’échantillon des pluies cumulées sur k jours (avec méthode AMS ou POT), les données journalières sont cumulées et moyennées sur k jours par fenêtre

Des méthodes spécifiques doivent être mises en place pour traiter ce problème d’optimisation multi -objectif de codes numériques coûteux dépendant de variables

La construction de ce métamodèle et la stratégie de recherche des points optimaux sont rendues encore plus complexes s’il y a plus d’un objectif à optimiser, et

Dans le cas de sorties temporelles, l’utilisation de codes multifidélité dans la construction de métamodèle serait une avancée intéressante, toujours dans l’objec tif

La modélisation de la ressource en vent nécessite entre autres un traitement statistique de mesures de la vitesse et de la direction du vent, qui ne

– tu veux dire qu’il est bon ?… En Afrique, nous sommes tous parents, mais nous pouvons mourir sans jamais nous rencontrer.. Si la mer se soumet au vent, les