Bien préparer le recrutement de profils Data
C’est un fait souvent ignoré … Le Data Scientist n’a pas le monopole de la donnée. D’autres professions évoluent à ses côtés comme celles de Data Analyst et de Data Engineer.
Pour naviguer parmi ces spécialisations, il faut d’abord comprendre l’utilisation faite de la donnée en entreprise.
Comprendre les usages de la donnée en entreprise
La Data Science, c’est quoi exactement ? Il s’agit tout simplement de l’ensemble des stratégies pour étudier, comprendre et utiliser la donnée au sein d’une organisation.
Prenons quelques exemples sectoriels d’utilisation de la Data Science dans :
- L’industrie financière, pour prédire les fluctuations des marchés ;
- La logistique, pour calculer les chemins les plus rapides et rentables pour les transporteurs ;
- La publicité, pour cibler une audience de façon très précise (démographie, habitudes de consommation…) ;
- La recherche médicale pour construire des modèles variés à des fins de tests ;
- La traduction automatique de médias grâce à l’intelligence artificielle et à des bases de données disponibles de nombreuses langues ;
- Les places de marché avec la création de moteurs de recommandation, se basant sur les comportements des utilisateurs (comme Malt).
Pour mener à bien leurs missions, les professionnels de la donnée (Data Scientist, Data Engineer ou Data Analyst) doivent détenir un bagage technique fort en statistiques, programmation (code), machine learning et/ou intelligence artificielle.
Une des branches de la Data Science permet de traiter un volume très large de données : il s’agit du Big Data.
Vous avez certainement entendu parlé de ce terme, qui désigne une donnée d’un certain genre (répondant aux “5 V”) :
#1 : Volume
La quantité de données doit être très élevée pour que l’on puisse parler de Big Data.
On peut penser aux requêtes sur les réseaux sociaux par exemple. Imaginez la quantité d’actions opérées par les utilisateurs qui aiment, commentent et partagent des contenus sur Facebook, Instagram ou encore YouTube. Ces interactions sont autant de données à traiter côté serveur !
#2 : Vélocité
Les données de la Big Data sont nombreuses sur de très courtes périodes de temps.
Reprenons l’exemple de YouTube. Plus de 500 heures de vidéos sont mises en ligne, sur la plateforme, chaque minute !
#3 : Variété
Les données de la Big Data sont variées : ainsi, les images, textes, fichiers, vidéos, requêtes … proviennent d’une multitude d’utilisateurs.
#4 : Véracité
Au regard du large volume d’information qui compose le Big Data, les données ne sont pas toujours exactes ni propres. Il faut accepter cette imperfection, et tenter de travailler en connaissance des biais potentiels.
#5 : Valeur
La donnée doit avoir une valeur : elle doit être exploitable pour répondre à des objectifs d’optimisation, de prédiction ou d’analyse et trouver des usages spécifiques.
La Big Data peut sembler intimidante, surtout si votre organisation traite un faible volume de données au quotidien. Pour autant, il ne faut pas faire l’amalgame avec la Data Science, dont les usages sont plus accessibles.
Si vous n’avez pas encore d’idées sur l’utilisation des données par votre équipe, pensez à recruter un consultant spécialiste de la donnée afin de créer un plan d’action.
Le recrutement d’un Data Scientist, Data Analyst ou Data Engineer ne sera pertinent que lorsque vous aurez un plan d’action concret !
Préparer sa donnée en amont de l’arrivée d’un Data Scientist
Voici le parcours de la donnée, au sein d’une démarche de Data Science :
Data Acquisition : les données sont collectées et stockées (via des serveurs, bases de données, APIs, logs et repositories)
Data Preparation : cette étape consiste à nettoyer et à préparer la donnée. Cela prend du temps (typographies des attributs, inconsistance des “datatypes”, valeurs dupliquées). Puis, ces ensembles de données (dataset) sont transformés (avec des logiciels comme Talend ou Informatica)
Data Analysis : à ce stade, l’équipe s’accorde sur les variables et types de données à utiliser pour répondre à un problème ou à un objectif spécifique.
Data Modeling : le Data Scientist va ensuite construire un ou plusieurs modèles en utilisant les statistiques (tels que des arbres à décision) le machine learning (avec des algorithmes) et l’intelligence artificielle. La maîtrise de Python ou R est recommandée.
Visualization et Communication : les résultats de la modélisation des données sont présentés dans des rapports, tableaux ou dashboards. Il est ainsi plus facile – pour des profils non techniques – de se servir de la Data.
Déploiement : en dernier lieu, le modèle qui a fait ses preuves en pré-production est déployé (connecté au reste des applications) pour pouvoir traiter et analyser les données en temps réel.
S’en suivent des tâches de maintenance, analyse des performances et itérations du modèle. La démarche de Data Science est continue !
Le Data Scientist n’a pas le monopole de ces différentes tâches, qu’il convient d’ailleurs de séparer. Il faut donc prévoir une équipe diversifiée, étant donnée l’ampleur du travail :
- le Data Engineer sera chargé de la manipulation et du traitement des données ;
- le Data Analyse réalisera l’analyse descriptive et exploratoire des données ;
- le Data Scientist s’occupera de la modélisation des données et du déploiement d’algorithmes de machine learning.