Projet de session — Votre première mission en tant que scientifique de données
STT-1100 Introduction à la science des données
Votre mission
Vous réaliserez une analyse complète à partir d’un jeu de données réel ou réaliste, choisi par votre équipe et validé au besoin.
Votre mandat est de formuler une question pertinente, d’explorer les données de manière reproductible, de produire des visualisations utiles et de communiquer des résultats interprétables pour un public non spécialiste.
Objectif du projet
Le projet final vous permet de démontrer que vous êtes capable de :
- Poser des questions de recherche claire et pertinente.
- Explorer et analyser un jeu de données à l’aide des outils appris (RStudio, tidyverse, Quarto).
- Produire des visualisations pertinentes.
- Rédiger un rapport reproductible.
- Présenter vos résultats de manière claire et structurée.
- Collaborer efficacement dans un dépôt GitHub.
Ce projet est volontairement ouvert : vous avez la liberté de choisir vos données, vos angles d’analyse, vos outils, vos méthodes.
Jeu de données
Choisissez un jeu de données gérable, c’est-à-dire :
- Au moins 50 observations
- Entre 10 et 20 variables (des exceptions sont possibles sur approbation)
- Incluant des variables numériques continues, discrètes et catégorielles
- Format lisible par R (CSV, RDS, etc.)
Évitez les jeux de données vus en classe.
Quelques ressources utiles :
- Québec données
- TidyTuesday
- NHS Scotland Open Data - Edinburgh Open Data
- Open access to Scotland’s official statistics
- Bikeshare data portal - UK Gov Data
- Kaggle datasets - OpenIntro datasets
- Awesome public datasets
- Youth Risk Behavior Surveillance System (YRBSS)
- PRISM Data Archive Project
- Harvard Dataverse
- Google Dataset Search
- Données ouvertes du gouvernement du Canada
- Awesome Public Datasets
Déroulement du projet
1. Proposition — date à confirmer dans MonPortail
Contenu :
Section 1 : Introduction
Présentez vos questions de recherche, votre jeu de données, sa provenance, son format, les observations et les variables.Section 2 : Données
Placez vos données dans le dossier/data, mettez à jour leREADME, et incluez unglimpse()ouskim().Section 3 : Plan d’analyse
- Variables réponses et explicatives
- Groupes de comparaison (si applicable)
- Premiers graphiques ou stats descriptives
- Méthodes envisagées
- Résultats attendus
Note: Il s’agit ici seulement d’un plan. Vous allez apprendre dans les prochains modules de nouvelles méthodes pour analyser votre jeu de données.
Max. 1 page par section (hors graphiques).
Barème (10 points)
| Critère | Points |
|---|---|
| Données | 4 |
| Contenu de la proposition | 4 |
| Qualité du code, structure du dépôt | 2 |
2. Présentation — date à confirmer dans MonPortail
Faites une présentation de 15 minutes maximum, où chaque membre parle. Utilisez xaringan pour créer vos diapositives. La date de présentation sera confirmée dans MonPortail.
Ce que vous devez présenter :
- Vos questions et pourquoi elles sont intéressantes
- Vos choix méthodologiques
- Vos résultats principaux
- Les limites de votre approche
Code caché (
echo = FALSE) sauf si vous voulez en montrer une partie.
Barème (50 points)
| Critère | Points |
|---|---|
| Gestion du temps | 4 |
| Clarté de la question et pertinence des données | 5 |
| Professionnalisme et qualité de la présentation orale | 5 |
| Cohérence du travail d’équipe | 6 |
| Qualité méthodologique | 10 |
| Créativité et pensée critique | 10 |
| Qualité visuelle des diapositives | 10 |
3. Rapport final (README) — date à confirmer dans MonPortail
Fournissez un résumé exécutif de votre projet :
- Jeu de données utilisé
- Objectif et questions de recherche
- Méthodologie
- Résultats clés
Ce résumé remplace un rapport écrit classique. Il doit être clair, structuré, mais concis.
Barème
| Critère | Points |
|---|---|
| Contenu et clarté | 15 |
Organisation du dépôt GitHub
Structure attendue :
projet/
data/ # Jeu de données et dictionnaire des données
proposition/ # Proposition de projet
presentation/ # Diapositives xaringan et HTML généré
README.Rmd # Résumé final reproductible
README.md # Résumé final rendu sur GitHub
Le dépôt doit être propre, bien structuré, et refléter une démarche reproductible.
Travail d’équipe
- Travail en équipe obligatoire
- Répartition équitable du travail
- Contribution visible dans l’historique Git
Vous remplirez une évaluation par les pairs à la fin du projet. Si une personne est jugée inactive (moins de 10 % de contribution), elle pourra recevoir une note ajustée.
Évaluation finale
| Composante | Points |
|---|---|
| Proposition | 10 |
| Présentation | 50 |
| Résumé (README) | 15 |
| Reproductibilité, organisation | 10 |
| Évaluation par les pairs | 10 |
| Évaluation par les camarades | 5 |
| Total | 100 |
Ce qu’on évalue
- Qualité des questions et des données
- Pertinence des méthodes statistiques
- Clarté de la rédaction et des graphiques
- Créativité et esprit critique
- Respect des bonnes pratiques (éthique, reproductibilité, style)
Conseils pratiques
- Commencez tôt, testez votre accès aux données.
- Commitez souvent, poussez régulièrement.
- Gardez le code visible dans les documents d’analyse, sauf dans les diapositives finales lorsque cela améliore la lisibilité.
- Planifiez des rencontres d’équipe.
- Posez des questions !
Bonne aventure scientifique !