Matériel de référence
Panorama des métiers de la science des données
Introduction
« Il faut tout un village pour transformer les données en valeur. »
Dans cette présentation nous allons découvrir qui compose ce village et comment chaque rôle contribue au cycle d’un projet de science des données.
Le cycle d’un projet en science des données
Inspiré de Hadley Wickham, R for Data Science 2e éd. (https://r4ds.hadley.nz/whole-game.html).
Import
Charger les données brutes depuis leurs sources dans l’environnement de travail.Tidy
Réorganiser les données pour qu’une ligne corresponde à une observation et une colonne à une variable.Transform
Filtrer, agréger et créer de nouvelles variables afin de préparer l’information à l’analyse.Visualize
Explorer les données par des graphiques pour faire émerger tendances, relations et anomalies.Model
Construire des modèles statistiques ou d’apprentissage automatique pour expliquer ou prédire.Communicate
Présenter résultats, limites et recommandations de façon claire et actionnable aux parties prenantes.
Cartographie des rôles
| Phase du cycle | Rôles clés | Objectif principal |
|---|---|---|
| Programmer (Infrastructure) | Data Engineer | Construire et maintenir les pipelines de données. |
| Importer → Ranger | Data Owner | Détenir la donnée, assurer sa qualité, sécurité et gouvernance. |
| Comprendre (Tidy → Transform → Visualize ↔︎ Model) | Statisticien · Data Scientist · Data Analyst | Extraire des connaissances par analyses et modèles. |
| Communiquer | Data Journalist · Freelancer | Raconter l’histoire des données, vulgariser et livrer de la valeur aux parties‑prenantes. |
Data Engineer 🛠️
Mission : Mettre à disposition des données fiables, accessibles et bien structurées.
À l’œuvre :
- Conçoit des architectures de données.
- Automatise l’import (Import), la mise au propre (Tidy) et la diffusion.
- Collabore étroitement avec le Data Owner et prépare le terrain pour les analystes.
Lien avec le cycle : Principalement dans la zone « Program » et au début de « Understand » (Import → Tidy).
Data Owner 🔑
Mission : Garantir la gouvernance, la conformité et la qualité des données.
Responsabilités :
- Définit les métadonnées, accès et politiques de vie privée.
- Valide la source et supervise les mises à jour.
- Est le point de contact légal et organisationnel.
Lien avec le cycle : Fournit la matière première et valide chaque changement avant diffusion.
Statisticien 📐
Mission : Modéliser les phénomènes et quantifier l’incertitude.
À l’œuvre :
- Choisit les bonnes méthodes (inférence, échantillonnage, expérimentation).
- Évalue les hypothèses, construit et interprète les modèles.
- Garantie la robustesse et la validité des conclusions.
Lien avec le cycle : Au cœur de Model, avec une forte boucle vers Visualize pour diagnostiquer et expliquer.
Data Scientist 🔬
Mission : Transformer les données en produits et recommandations à haute valeur ajoutée.
À l’œuvre :
- Combine programmation, statistique et domaine métier.
- Itère rapidement entre Transform, Visualize et Model.
- Met en production des solutions.
Data Analyst 📊
Mission : Fournir des insights opérationnels et soutenir la prise de décision au jour le jour.
À l’œuvre :
- Prépare des rapports, indice de performance et tableaux de bord.
- Interroge les bases, agrège, crée des visualisations claires.
- Collabore avec le Data Engineer pour assurer la validité des données.
Lien avec le cycle : Exploite surtout Transform et Visualize, communique dans la phase finale.
Data Journalist 📰
Mission : Raconter des histoires engageantes basées sur des données vérifiables.
À l’œuvre :
- Fouille des bases de données publiques, vérifie les faits.
- Crée des visualisations interactives et des narrations.
- Vulgarise pour un large public et défend la transparence.
Lien avec le cycle : Met l’accent sur Communicate, s’appuie sur le travail des autres rôles pour la partie technique.
Freelancer 💼
Mission : Offrir une expertise ponctuelle et adaptable sur tout ou partie du cycle.
Particularités :
- Polyvalence : doit comprendre chaque rôle pour intervenir efficacement.
- Gestion de projet, relation client et veille technologique.
- Peut combler les manques dans une équipe interne.
Conclusion
- Chaque rôle apporte une expertise unique mais aucun ne suffit seul.
- La communication et la gouvernance assurent la cohérence.
- Dans ce cours, vous endosserez différents chapeaux pour expérimenter tout le cycle !
Comment rechercher et obtenir de l’aide efficacement ?
Contenu à ajouter.
🎯 Introduction
Un bon scientifique des données ne connaît pas tout par cœur… mais sait où chercher et comment demander de l’aide intelligemment. Ce guide vous accompagne pour apprendre à le faire efficacement et sans stress.
🤖 GPT STT-1100 : votre assistant personnalisé
Nous avons conçu un assistant GPT sur mesure pour ce cours : GPT STT-1100
Attention : il ne remplace pas la réflexion critique ! Mais c’est un outil précieux pour progresser à votre rythme.
🧭 Où chercher de l’aide ?
📌 Aide intégrée dans RStudio
?fonctionouhelp(fonction)dans la console.example(fonction)pour obtenir un exemple prêt à l’emploi.args(fonction)pour voir les arguments attendus.🌍 Recherche sur le Web
Des milliards de réponses vous attendent ! Voici quelques conseils pour bien formuler vos recherches :
Formulez vos questions comme un·e pro :
ça marche pas avec ggplotggplot2 how to add color by group in scatterplotSites recommandés :
📘 Ressources du cours
Livres et guides conseillés
Traduire et comprendre en français
Si l’anglais vous freine :
👩🏫 Demander de l’aide efficacement
🤔 Avant de poser votre question
🗣️ Poser une bonne question (à GPT STT-1100, à un·e assistant·e ou sur le forum)
Exemple :
🚨 Ne restez pas bloqué·e seul·e !
🎁 Bonus : les réflexes à adopter
✅ Cherchez l’information par vous-même en premier
✅ Documentez ce que vous apprenez (notes personnelles ou fichier
.qmd)✅ Osez poser des questions !
✅ Apprenez de vos erreurs (et de celles des autres)