Stage : Création, mise en place et déploiement d’application de données textuelles sur GCP H/F

Saint-Quentin en Yvelines, Montigny-le-Bretonneux, France
ASSYSTEM Technologies
Vous êtes intégré(e) au sein du département Data Science, une équipe d’une vingtaine de personnes spécialisée dans les activités de la Data Science (Text Mining, Machine Learning, Deep Learning, Data engineering, Data Visualisation, …). Le département Data Science intervient dans tous les secteurs industriels, notamment l’Aéronautique, l’Automobile, le Ferroviaire, sur des systèmes complexes tels que la maintenance prédictive, les aides à la conduite, véhicule autonome, …

Expleo travaille pour un constructeur automobile français au sein du département qualité sur des sujets autour du Text Mining.
Nos data scientist implémentent en python des algorithmes de Deep Learning et Machine learning pour réaliser de la classification de verbatim (prédiction du type de panne selon les commentaires rédigés par les techniciens).

L’infrastructure permet de déployer une API en intra ou sur le Cloud. Différentes étapes seront possibles pendant la période de stage :
Récolte de données (Spark, ElsticSearch), en local et dans le Cloud computing (GCP).
Création de bases de données intermédiaires et mises en place de fichiers de config nécessaires.
Dockerisation des applications.
Déploiement d’application et monitoring.
Avant même de réaliser les algorithmes, une étape de récupération et nettoyage de données textuelles est nécessaire.
D’un point de vue métier, les verbatims sont issus d’échangent entre les garagistes et des techniciens. Ces dialogues comportent donc beaucoup de problèmes et nécessitent un pre-processing particulier sur un volume important de données comme par exemple :
Anonymisation (remplacer les noms des techniciens, le numéro des références des pièces, …)
Suppressions de doublons (beaucoup de phrases sont similaires).
Suppressions des phrases ne comportant aucunes informations spécifiques à la problématique.
Nous attendons des propositions techniques pour répondre aux deux derniers points (analyse des mots, utilisation d’une API pour réaliser des comparaisons, …)
D’autres règles seront à mettre en place en fonction des résultats.

Vous allez également être contraint à l’environnement GCP (Google Cloud Platform). L’objectif du stage est donc double :
Implémenter un module de récupération & preprocessing des données textuelles
Déployer et industrialiser ce module dans le worflow déjà existant du projet dans l’environnement GCP.

 Le livrable attendu pourrait être une API Cloud (utilisant les technos de GCP)

Valeurs ajoutées techniques :
Monter en compétences en programmation : Python, scala, ElasticSearch, outils de Big Data ;
Bénéficier d’un environnement Big Data (GCP)
Bénéficier de l’expérience d’une équipe de data scientists dynamique et diversifiée ;

Environnement technique :
Software : Hadoop, GCP, Docker, ElasticSearch
Langage : Python, SQL, Hive, scala

Niveau de formation : Bac +5, formation ingénieur (INSA, ENSAI, UT, …) ou universitaire
Domaine de spécialisation : Data Engineer/Big Data
Logiciels : Windows/Linux, Server, virtual machine
Langue : Anglais opérationnel obligatoire
Compétences particulières :  GCP (Google Kubernete Engine, Google Container Registry, Cloud Function, Cloud Run, App Engine, Cloud tasks), ElasticSearch, Hadoop, Kafka, Python. La connaissance de NLP et Text Mining sera appréciée.
Qualités : Autonome et dynamique, vous avez un esprit d’initiative et de bonnes capacités de raisonnement et d’analyse. Votre esprit de synthèse, votre curiosité ainsi que votre bon relationnel seront fortement appréciés.

Consultez l’offre de stage –

Stage : Création, mise en place et déploiement d’application de données textuelles sur GCP H/F

Tags: , , , , , , , , , ,