Nous vous partageons régulièrement des articles, vidéos, retours d’expérience Data sur de nombreux sujets (retrouvez-les tous sur le site de la Data Factory). Aujourd’hui, nous souhaitons faire un focus sur les obstacles à anticiper dans un projet Data Science.
La Data Science est par nature un domaine extrêmement exploratoire, où il est nécessaire de confronter ses hypothèses à la donnée afin de pouvoir avancer vers la création de systèmes performants. Mais cette partie d’un projet Data Science n’est que la face émergée de l’iceberg. Les développements à réaliser pour mettre en production ces travaux sont tout aussi conséquents, et ont leurs spécificités pour la Data Science en comparaison à un développement logiciel classique.
Quels sont les obstacles de la mise en production d’un projet Data Science ?
Avant de parler théorie et bonnes pratiques pour la réalisation de produits Data Science de bout en bout, plongeons-nous dans un cas de figure assez classique de réalisation de projet, afin de visualiser les principaux obstacles de la Data Science en production.
D’après la rumeur, une image vaudrait mille mots. Nous avons donc décidé de pousser le vice un cran plus loin et de réaliser une courte vidéo mettant en lumière ces principales difficultés. Bienvenue dans le monde de Gaston.
Résumons en quelques phrases ce que nous avons vu ici.
Pour qu’un projet de Data Science puisse aller au-delà de la simple étape du Proof of Concept, il est nécessaire de penser au plus tôt à sa mise en production, c’est à dire penser au cycle de vie complet du développement : Exploration <-> Industrialisation <-> Mise en Production. Nous parlons bien ici de cycle, et pas d’un workflow unique.
Il ne faut notamment pas tomber dans le piège d’une phase exploratoire interminable, sans aucun objectif préalable de mise en production. De trop nombreux projets s’enferment dans un tunnel de plusieurs mois d’exploration pour trouver le modèle le plus performant qui soit et, lorsque (ou plutôt si) l’équipe est satisfaite, décide de le mettre en production, pour finalement se rendre compte que cette étape est impossible ou trop coûteuse en termes de librairies à disposition ou de temps de calcul.
Penser à une mise en production au plus tôt, c’est s’assurer qu’une chaîne de traitement complète est mise en place dès les premières étapes d’un projet, afin de valider sa faisabilité et l’automatisation de nombreuses parties. C’est aussi s’assurer que tout ce qui est fait en phase exploratoire se fasse avec des contraintes qui permettent une industrialisation à moindre coûts. C’est enfin mener des analyses d’erreurs et des boucles de feedback efficaces afin de repartir sur une phase exploratoire contrôlée qui se focalise sur ce qui permettra d’améliorer au mieux les performances globales du produit (et pas seulement du modèle).
La Data Science en production, ce sont des bonnes pratiques issues du Software Craftsmanship et du développement agile, adaptées aux problématiques spécifiques à ce type de projet. C’est aussi une organisation d’équipe mêlant plusieurs profils différents, et une vision produit claire dès les premières étapes d’un projet pour s’assurer de sa bonne utilisation par la suite.
Pour aller encore plus loin
![]() |
Afin de rendre concrète la démarche de création de produits Data Science, nous avons rédigé un nouveau TechTrends « Data Science Products – Data Science, de l’idée à la production », qui arrive très prochainement.
Pré-commandez votre exemplaire dès maintenant ici. En attendant, vous pouvez d’ores et déjà aller plus loin en visionnant la vidéo conférence « Data Science Done Wrong« , donnée à la XebiCon en novembre 2018. |