Data Scientist

Data
PACKAGE MOYEN
0 à 2 ans : 40 à 50k€
2 à 4 ans : 51 à 55k€
>4 ans : 60k€

Qu'est ce qu'un / une Data Scientist ?

La data science est une discipline relativement jeune née avec l‘apparition du Big Data et le développement de technologies récentes. Un data scientist est un ingénieur ayant réalisé une spécialisation en mathématiques appliquées, intelligence artificielle ou en machine learning. Les algorithmes de machine learning sont des algorithmes qui apprennent avec les données qu’on leur donne. Ce sont des algorithmes intelligents. Le rôle du data scientist est d’utiliser ces fameux modèles pour répondre à des problématiques posées. Il peut s’agir de problématiques business concrètes ou de sujets de R&D plus complexes.
Voici les use case les plus connus utilisant les techniques de machine learning :

  • Système de recommandations / Moteur de recherche
  • Connaissances clients (segmentation / Scoring )
  • Prédictions via les séries temporelles. (La prédiction de ventes par exemple)
  • NLP (analyse de sentiments, extraction de mots clés etc …)
  • Computer vision (Détection d’objets, reconnaissance d’images, classification d’images etc ..)

Tout comme le Data Analyst, le Data Scientist doit avoir une sensibilité et une compréhension business. En effet en premier lieu sa mission est de comprendre le problème business afin de choisir le meilleur modèle pour y répondre. 

Quelle est la journée type d'un Data Scientist ?

Voici l’ensemble des missions possibles du Data Scientist :

  • Discuter avec les équipes métier pour comprendre et cadrer un besoin business
  • Effectuer une veille scientifique sur l’état de l’art. C’est à dire se renseigner sur les derniers algorithmes répondant le mieux aux problèmes
  • Explorer la donnée pour la comprendre
  • Tester différents modèles pour identifier celui ou ceux qui marcheront le mieux.
  • Travailler sur une stratégie de feature engineering. C’est à dire sélectionner les paramètres pour avoir un modèle optimal.

Une fois que le modèle est codé correctement il y a deux options :

  • Soit on s'arrête au stade de POC (proof of concept)
  • Soit on choisit d’aller plus loin et de pousser le modèle en production en collaborant avec des data engineers et des développeurs.

Nous distinguons aujourd’hui 2 types de Data Scientists :

  • Les Data Scientists orientés développement et production. Ils vont plus loin que le POC et travaillent sur le déploiement de leurs modèles en production. Ils montent ainsi en compétences sur la partie développement et data engineering.
  • Les Data Scientists orientés R&D. Ils travaillent sur des thématiques plus “early stage” notamment le deep learning et le reinforcment learning. Leur rôle est plus scientifique. Ils travaillent sur la création de nouveaux algorithmes pour des sujets toujours plus innovants. Leurs rôles est de lire des papiers de recherche, d’aller à des conférences, de publier leurs travaux. Ces types de profils travaillent plus dans le cadre de Lab de R&D.

Quels sont les compétences clés requises ?

  • Tu dois être issu d’une école d’ingénieur avec un fort background en mathématiques.
  • Une bonne connaissance théorique des modèles classiques de machine learning : SVM, Random Forest, Gradient Boosting / XG Boost etc …
  • Une excellente maîtrise de python.
  • Une maitrise d’un framework de deep learning : Tensorflow ou Pytorch.
  • Une connaissance des technologies de mise en production : Spark, Kubernettes, Docker etc…
  • Une première expérience dans l’utilisation de ces technologies est un gros plus. (C’est à dire que tu as déjà participé au déploiement d’un modèle)
  • Une bonne compréhension business et une appétence produit
  • Enfin une capacité à vulgariser ce que tu fais sera un gros avantage ;)

Quelle formation pour devenir Data Scientist ?

Le plus simple est de faire une école d’ingénieur  proposant un master spécialisé en intelligence artificielle ou mathématiques appliquées et Machine learning. Ces formations te permettront d’acquérir des connaissances solides en mathématiques pour comprendre les modèles et les utiliser correctement. Une reconversion est aussi possible grâce aux formations en ligne comme OpenClassrooms ou Udacity, cependant il te faudra muscler ton jeu avec des projets personnels et des stages pour palier à ton manque de connaissance dans l’informatique en général. 


Nous serions ravis
d'échanger avec vous  

nous contacter