Le Data Scientist : enjeux du profil, impacts sur les organisations

Please download to get full document.

View again

All materials on our website are shared by users. If you have any questions about copyright issues, please report us to resolve them. We are always happy to assist you.
 13
 
  Non Confidentiel Confidentiel Le Data Scientist : enjeux du profil, impacts sur les organisations Programme : MASTERE Grenoble ( ) Année : EA - Session de programme : Mission
Related documents
Share
Transcript
Non Confidentiel Confidentiel Le Data Scientist : enjeux du profil, impacts sur les organisations Programme : MASTERE Grenoble ( ) Année : EA - Session de programme : Mission Thèse Nom de l'étudiant : Pougnard Raphaël Nom du tuteur / évaluateur : Pigni Federico A renseigner s'il s'agit d'une alternance: Nom de l'entreprise : CGI Ville : Grenoble Pays : France Fonction occupée durant le stage : Consultant en Business Intelligence Résumé informatif de la mission : Les données sont des actifs que les organisations devront recentrer dans les processus décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux connaitre leur marché et mieux se connaitre ellesmêmes. Ces activités nouvelles font appel à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur l avenir de l entreprise. Quelles missions rentrent dans son champ d action? Quelles compétences techniques, business et humaines doit il avoir? Quel est son rôle vis-à-vis du reste de l entreprise? Où se place-t-il dans l organisation? A quel moment les entreprises devraient-elle le recruter? Quel management adopter pour des projets si transverses? Par une analyse lexicale d offres d emploi, des entretiens avec des professionnels du secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le recueil d informations selon six axes, son analyse, et les conclusions nous ont permis de tirer des recommandations pratiques sur les missions stratégiques qu il aura à mener ; à mieux définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et savoirs-être qu il devra avoir; à décider d un modèle de placement selon la chaine de valeur de l organisation ; à préciser le tempo dans lequel l entreprise doit investir ; et à émettre des conseils sur les méthodologies à utiliser. Mots-clés principaux décrivant la mission INFORMATIQUE - ANALYSE INFORMATIQUE SCIENCE DU MANAGEMENT - AIDE A LA DECISION MANAGEMENT - MANAGEMENT TECHNOLOGIQUE TRAITEMENT DE L'INFORMATION - ANALYSE DE L'INFORMATION CGI & GRENOBLE ECOLE DE MANAGEMENT Etude de cas : TOTAL MARKETING & SERVICES Le Data Scientist : enjeux du profil, impacts sur les organisations Thèse Professionnelle de Mastère spécialisé en Management Technologique et Innovation Raphaël Pougnard 04/12/2014 2 INTRODUCTION RESUME Les données sont des actifs que les organisations devront recentrer dans les processus décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux connaitre leur marché et mieux se connaitre elles-mêmes. Ces activités nouvelles font appel à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur l avenir de l entreprise. Quelles missions rentrent dans son champ d action? Quelles compétences techniques, business et humaines doit il avoir? Quel est son rôle vis-à-vis du reste de l entreprise? Où se place-t-il dans l organisation? A quel moment les entreprises devraient-elle le recruter? Quel management adopter pour des projets si transverses? Par une analyse lexicale d offres d emploi, des entretiens avec des professionnels du secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le recueil d informations selon six axes, son analyse, et les conclusions nous ont permis de tirer des recommandations pratiques sur les missions stratégiques qu il aura à mener ; à mieux définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et savoirs-être qu il devra avoir; à décider d un modèle de placement selon la chaine de valeur de l organisation ; à préciser le tempo dans lequel l entreprise doit investir ; et à émettre des conseils sur les méthodologies à utiliser. 3 REMERCIEMENTS Je tiens tout d abord à remercier Federico Pigni, directeur de cette thèse. Par sa passion et son dévouement, il m a permis de prendre la hauteur nécessaire à la rédaction de ce document tout en m alimentant par sa méthode, son savoir pour ne pas me laisser dérailler. Je tiens aussi particulièrement à remercier François Blondel, mon manager, qui a su me lancer, me faire réfléchir, m aiguiller et m encourager, tout en me laissant libre de développer ma pensée, ma maturité et la confiance nécessaire à l accomplissement d un tel travail. Je tiens à remercier mes responsables, Renaud Cochet et Thibaut Reboullet qui m ont permis de travailler à CGI, et d évoluer dans un environnement propice au développement des compétences managériales, et de l esprit d innovation nécessaire dans ce monde extrêmement mouvant. Sans compter leurs encouragements et leur participation à cette thèse qui m ont permis de capitaliser autour de la valeur qui y est injectée. Je voudrais également remercier mon client, Arnaud Thomas, pour sa participation, ses encouragements et son énergie. Merci de m avoir laissé libre de participer à des sujets sur lesquels je n étais pas nécessairement impliqué. Je tiens à remercier chacun des membres, un par un, des équipes TOTAL à Grenoble et Lyon qui m ont entouré depuis plus d un an. Ils m ont permis de m intégrer et d apprendre dans la bonne humeur et m ont laissé prendre le temps de bien faire les choses. En particulier Chloé, pour son aide dans l alimentation de la revue de littérature, et Gaël, qui a su m éclairer dans l obscurité des soirées de travail. Enfin, je remercie ma famille et mes amis pour leur aide et leur soutien indéfectible. 4 TABLE DES MATIERES TABLE DES MATIERES Introduction... 3 Résumé... 3 Remerciements... 4 Table des matières... 5 Introduction (Thématique)... 7 Un nouveau paradigme à saisir pour le business... 7 Les difficultés techniques connues et adressées... 7 Des difficultés managériales encore floues... 8 Lien entre le sujet choisi et la mission en entreprise... 9 Partie Thèse...10 Methodologie...10 Présentation de la méthodologie...10 Le modèle...10 Recueil d informations Pour alimentation du modèle...13 Offres d emploi...13 Entretiens...19 Etudes de cas...26 Vue globale...31 Analyse...33 Synthèse du recueil d informations...33 Missions...33 Caractéristiques...34 Rôle...35 Placement...36 Quand...37 Comment...38 Partie conclusive Discussion / Conclusion...40 Apports théoriques...40 Limites théoriques...41 Limites méthodologiques...41 Pistes de prolongement...41 Annexes...43 Analyse lexicale complète...43 Interviews...47 Renaud Cochet...47 Thibaut Reboullet...50 Arnaud Thomas...53 Références INTRODUCTION (THEMATIQUE) UN NOUVEAU PARADIGME A SAISIR POUR LE BUSINESS La révolution des données est en marche : avec 12 Milliards d objets connectés et une augmentation de 90% de la quantité de données stockées ces deux dernières années 1, le monde entier est en passe d être mis en données. Ces objets et enregistrements ne sont rien d autres que des représentations de l activité humaine. On sous-estime certainement encore les possibilités offertes par leur analyse, afin de comprendre, cerner, détecter et prévoir les comportements d un groupe ou d un individu en particulier. D un autre côté, les progrès quasi exponentiels des capacités informatiques de stockage, de calcul et de mise à disposition permettent de traiter ces données et de les restituer aussi bien à un consommateur, qu à un professionnel n importe où, n importe quand, en quasi temps-réel. Vu au travers du prisme de l entreprise, cette révolution est un point d inflexion stratégique qui créé des risques, menaces, mais surtout qui produit des opportunités semblables à celles des innovations de rupture les plus importantes. Quatre types de stratégies clients «datadriven» sont exacerbés par cette nouvelle donne : réduire les coûts ; recruter des clients ; récompenser la fidélité ; personnaliser l expérience 2. Recruter des clients par une stratégie data-driven, c est le service qu offre Google avec Adwords à toutes les entreprises. En parallèle, quatre axes de valorisation en temps réel pour l entreprise sont maintenant accessibles : détection; visibilité de masse; expérimentation ; coordination 3. Par exemple, Starbucks, lors du lancement d un nouveau produit, a pu analyser l accueil que lui ont réservé ses consommateurs sur Twitter. Ainsi, il a pu être détecté un désamour du consommateur pour le nouveau café, et cerné que ce problème venait du prix. Dès le lendemain, Starbucks a adapté ce prix et le lancement fut un succès. 4 Chez ThyssenKrupp, avec l aide de CGI, la décision de connecter et d analyser l ensemble de l activité de leurs ascenseurs a été prise. Grâce à des modèles prédictifs d usure de leurs pièces, ils peuvent mettre en relief l utilisation de n importe quel ascenseur et prévoir les pannes ; ou bien encore, connaitre le problème dès qu il se produit. Ainsi ThyssenKrupp peut proposer un niveau de service d une valeur ajoutée supérieure par rapport à ses concurrents et peut optimiser son service de maintenance en réduisant les coûts engendrés. LES DIFFICULTES TECHNIQUES CONNUES ET ADRESSEES Pour atteindre ces possibilités, la réalité est remplie de défis. Des défis techniques et technologiques d abord. En effet, récupérer, stocker, transformer une quantité de données aussi grande qu hétérogène et déstructurée n est pas sans mal. Les schémas historiques du stockage ont été remis en cause et de nouvelles solutions ont été imaginées (Solutions NoSQL : MongoDB, Cassandra ou Redis). Il en va de même pour les transformations et traitements (Infrastructures distribuées ; Memtables). 5 7 Il a fallu sortir des schémas historiques des bases de données, dites relationnelles, afin de pouvoir distribuer le stockage et le traitement de ces données. La quantité n est d ailleurs pas le seul défi à gérer dans l approche, il y a aussi et surtout la richesse et l hétérogénéité des sources qui nous mettent face à des données déstructurées comme des textes, de la vidéo, des données sonores, en provenance du milieu de la santé, d un appareil mobile, ou d une caméra de vidéosurveillance 6 L approche centralisée du stockage doit maintenant faire de la place à un modèle de stockage qui s adapte au cycle de vie de la donnée et à sa complexité 7. Et même si aujourd hui il s agit de manager du contenu déstructuré, les plus avancées des entreprises aux stratégies data-driven font face à l étape suivante : quelles données tirer de ces milliards d appareils mobiles ou senseurs en général qui feront la valeur de nouveaux services, et nouvelles analyses, demain. DES DIFFICULTES MANAGERIALES ENCORE FLOUES Mais qui dit nouvelles techniques et technologies pose alors la question des nouveaux savoirs et savoir-faire nécessaires pour les mettre en place, les exploiter. Ce changement de paradigme demande aux professionnels de gérer le chaos avec de nouveaux profils et de nouvelles expertises 8, là où auparavant nous avions un milieu organisé. Comme énoncé plus haut, c est d abord un défi technique qu il faudra traiter avec le recrutement de profils experts. Bien que les solutions créées soient d une richesse et complexité importantes, les éditeurs et fournisseurs sont au rendez-vous. Reste alors à former des professionnels aux compétences adéquates. Mais la question n est pas seulement technique. Le traitement des données affecte directement la stratégie de l entreprise. Le problème de management est donc transverse et chamboule les modèles établis : une DSI et un métier travaillant avec des interfaces ; des projets souvent menés en cycle en V ; des compétences techniques et métiers imperméables entre les collaborateurs. On entrevoit alors le problème de management sur lequel il faudra que l entreprise tranche pour prendre le meilleur du point d inflexion stratégique le plus important depuis internet : Le Data Scientist est le nouveau métier consacré, central, et pivot d une révolution business en marche 9. Quelles compétences techniques, business, méthodologiques et humaines doitil avoir? Face à une problématique aussi technique que business, où doit-on placer ces compétences dans l entreprise? De quelle typologie de management, de gestion des interactions, et de quels processus doiton entourer ces compétences pour optimiser leur création de valeur et impact business? La structure et la culture de l entreprise devrait-elle être conduite vers le changement afin de mieux s adapter à cette donne? 8 LIEN ENTRE LE SUJET CHOISI ET LA MISSION EN ENTREPRISE TOTAL, 1 ère entreprise française du CAC40, 25 ème compagnie mondiale (Forbes) tous secteurs confondus, se divise en trois entités : une branche extraction ; une branche raffinage et chimie ; et une branche marketing et services. Cette dernière est un retailer de produits pétroliers et de services associés. Comme tout retailer, elle fait face aux enjeux de la fidélisation et de la montée en valeur des services fournis aux clients. Employé chez CGI depuis plus d un an, je fais parti d une structure innovante accolée à une TMA historique prenant en charge la maintenance du data warehouse de TOTAL Marketing & Service. Cette structure, BING (BI Next Generation) a pour objectif d accompagner TOTAL M&S dans le virage vers l entreprise numérique de demain assouplissant le cadre d une relation client fournisseur qui parfois peut entraver une agilité nécessaire dans le milieu incertain de l innovation. BING a été créé comme un laboratoire d innovation, un bac à sable permissif pour les expérimentations potentiellement créatrices de valeur. Dans ce cadre, j ai pu m intéresser à chacun des chaînons de la Business Intelligence générique : acquisition ; transformation ; restitution. Naturellement, l objectif était de coller aux besoins des métiers et d aller au-delà dans la montée en valeur lorsque c était possible. Un projet de segmentation client a permis d effleurer les problématiques qu un Data Scientist rencontrerait dans son installation et l exploitation des données dans une grande entreprise. 9 PARTIE THESE METHODOLOGIE PRESENTATION DE LA METHODOLOGIE Centrée sur le Data Scientist, il est nécessaire de comprendre l ensemble des facteurs influençant son action dans l environnement complexe de l entreprise. Le recueil d informations, l analyse, l émission d hypothèses et de réponses aux questions précédemment énoncées se font en mettant en perspective chacune de ces étapes avec la complexité de ce système. La première étape est donc de définir cet environnement en caractérisant chacun des éléments participants. Cette étape est en fait le choix d un modèle sur lequel est basée l étude. Ensuite, il est nécessaire de placer le Data Scientist dans ce système afin de comprendre quelles sont les influences autour de lui. Grâce à cela, il sera possible de construire un modèle centré sur le Data Scientist, entouré des éléments qui l influencent. D autre part, une des étapes cruciales de cette thèse est dans le recueil de données et informations tant qualitatives que quantitatives. Ces informations nécessitent d être organisées et classées pour faciliter leur analyse et leur réutilisation lors de l écriture d un recueil de recommandations. C est pour cette raison qu un système de classement en accord avec le premier modèle est réalisé. Cela permet, une fois le recueil terminé de revenir au premier système qui tient compte de toute la complexité de l environnement de l entreprise. LE MODELE Le Data Scientist, par sa technicité et les ressources qu il utilise, est fortement emprunté d un rôle IT tant par son champ d action que par ses compétences et les ressources dont il a besoin pour évoluer. De plus, le bouleversement des pratiques et des business models expliqué dans l introduction nécessitent des évolutions culturelles importantes qui vont de pair avec des contraintes sociales et sociologiques qu il faut donc intégrer. C est pour cette raison que le modèle de base retenu pour cette étude est celui proposé de manière générique dans le manuel «MIS Problems and Failures: A Socio-Technical Perspective» de Robert P. Bostrom and J. Stephen Heinen. 10 Process People Strategy Technology Structure Technical System Social Figure 1 : «MIS Problems and Failures: A Socio-Technical Perspective», Robert P. Bostrom and J. Stephen Heinen Ce système, centré sur la stratégie de l organisation, se divise en deux sous-parties dépendantes qui se différencient par leur nature. En effet le sous-système technique comprend les appareils, les outils et les techniques qui permettent de transformer de l entrée vers la sortie en améliorant la performance économique de l entreprise le plus efficacement possible. Le sous-système social quant à lui comprend tous les employés, les connaissances, les compétences, les attitudes, les valeurs et les besoins qu ils apportent au système. Cet axiome, nous permet d isoler le Data Scientist en son sein. Celui-ci est considéré comme une «Personne». Afin d étudier l entité «Data Scientist» il est nécessaire d en tirer un nouveau modèle centré sur lui, en l entourant des éléments du sous-système qui l alimentent ou le modifient. Structure People Strategic Goal Process Data Scientist Technology 11 Ce modèle d étude est donc une réinterprétation dérivée utilisant les mêmes éléments que le modèle retenu plus haut. Enfin, comme expliquer plus haut, l analyse du Data Scientist permet d alimenter le modèle ci-dessus. Ainsi, six axes d analyse du DS sont retenus : Missions Comment Caractéristiques Data Scientist Quand Rôles Placement 12 RECUEIL D INFORMATIONS POUR ALIMENTATION DU MODELE Comme expliqué dans l introduction, le Data Scientist est un nouveau métier. Son actualité et les écrits de valeur restent pauvres. Afin de mettre en lumière toutes les faces du prisme du sujet, le recueil d information fait appel à quatre sources : - Etude d offres d emploi - Interview - Etude de cas - Revue de littérature Ces quatre sources d informations permettent de mêler un recueil d informations qualitatives par les interviews, les études de cas, et la revue de littérature, avec un recueil d informations quantitatives grâce à l analyse des offres d emploi. De part la récence du sujet et la spéculation qui s est installée autour de celui-ci, il est important de récupérer les deux types d informations afin d éviter le piège d une mauvaise interprétation qualitative. Pour classer et analyser plus facilement les informations recueillies, voici la grille retenue pour alimenter les six axes d évaluation du Data Scientist : Axes de recherche Analyse Lexicale Interview 1 Interview 2 Interview 3 Etude de cas 1 Etude de cas 2 Missions Caractéristiques Rôle Placement Quand Comment Ces six axes se logeront ensuite dans un modèle logique basé sur le premier présenté et enrichi si besoin. OFFRES D EMPLOI Afin de mieux cerner les éléments qui constituent un Data Scientist, une analyse des offres d emploi proposées permet un recueil d information efficace et de mieux cerner les attentes des entreprises confrontées à ce nouveau rôle. Trois types de sources d offres sont retenus : - Sites de recherche d emploi généralistes 13 - Sites de recherche d emploi spécialisés dans les technologies de l information - Sites institutionnels d entreprises spécialisées dans l analyse de données Le mot clé cherché est «Data Scientist». En effet, il convient de faire la distinction entre le poste de Data Scientist, Data Miner ou BI Analyst. Type Sites retenus Nombre d annonces Sites de r
Related Search
Similar documents
View more
We Need Your Support
Thank you for visiting our website and your interest in our free products and services. We are nonprofit website to share and download documents. To the running of this website, we need your help to support us.

Thanks to everyone for your continued support.

No, Thanks