webleads-tracker

Le traitement des données prend 50% du temps des data scientists

Le traitement des données prend 50% du temps des data scientists

Le traitement des données prend 50% du temps des data scientists

Nettoyer et préparer des données sont des tâches particulièrement chronophages pour les professionnels qui en ont la charge.

Les data scientists et les ingénieurs logiciels, premiers acteurs de la gestion pluridisciplinaire des données doivent relever plusieurs grands défis. D’une part, ils doivent composer avec des problématiques liées à la saisie et au nettoyage des données, d’autre part avec des difficultés liées à la confidentialité des données. Ces défis sont d’autant plus difficiles à relever, que les professionnels expérimentés en la matière et dotés des compétences techniques ad hoc sont des denrées rares. Tels sont les résultats de l’étude réalisée récemment par le cabinet Anaconda. Pour ce rapport sur l’état du data scientisme 2020 Anaconda a sondé 2 300 professionnels officiant dans une centaine de pays, dont un peu moins de 50% travaillent aux USA.

Les tâches de nettoyage et de préparation des données représentent une part importante du temps de travail d’un data scientist.

Le nettoyage des données est chronophage

Bien que les technologies afférentes à la collecte et au traitement des données aient récemment beaucoup progressé ces dernières années, les tâches de nettoyage et de préparation des données représentent une part importante du temps de travail d’un data scientist. Selon l’étude, les opérations de saisie et le nettoyage des données prennent respectivement 19 % et 26 % de leur temps, soit quasiment une 1/2 journée de travail.

En ce qui concerne la mise en oeuvre de ce travail de préparation, respecter les normes de sécurité IT de leur organisation est souvent problématique, tant pour les data scientists que pour les développeurs et administrateurs systèmes. Toutefois, le cycle de vie des applications de machine learning et science de la donnée génère des défis spécifiques, comme celui du maintien et de la correction des vulnérabilités de plusieurs piles d’applications open source.

Mais les organisations sont surtout clientes de compétences en gestion de données

Des formations inadéquates

L’inadéquation entre l’enseignement prodigué dans les cursus d’éducation et les compétences dont les organisations ont besoin est un autre souci mentionné par les professionnels questionnés. En effet, La grande majorité des universités enseigne les sciences statistiques, de machine learning et les techniques de programmation en Python, et la plupart des étudiants suivent ces cours. Mais les organisations sont surtout clientes de compétences en gestion de données, lesquelles ne sont que trop peu ou pas du tout enseignées, et de compétences avancées en mathématiques qui ne sont trop rarement proposées aux étudiants. Ces derniers estimant d’ailleurs que le déficit d’expérience (45 %) et de compétences techniques (25 %) sont les principales raisons à leurs difficultés pour trouver un emploi dans ce domaine ; des manques de compétences qui, selon les auteurs de l’étude, pourraient être compensés par des stages appropriés, ne servant pas uniquement à l’enrichissement de leur CV mais aussi et surtout à l’acquisition des compétences techniques nécessaires à l’exercice de leur nouveau métier.

L’une des conclusions de l’étude est sans surprise : Python reste sur le haut du podium des langages utilisés dans le domaine du data scientisme. Le langage R monte sur la deuxième marche, alors que JavaScript, Java, C/C++ et C# sont loin derrière.