Projet de session — Votre première mission en tant que scientifique de données
STT-1100 Introduction à la science des données
🎯 Votre mission
Choisissez un jeu de données, n’importe lequel…
…et faites quelque chose avec.
Voilà, en un mot, votre projet final.
📚 Objectif du projet
Le projet final vous permet de démontrer que vous êtes capable de :
- Poser des questions de recherche claire et pertinente.
- Explorer et analyser un jeu de données à l’aide des outils appris (RStudio, tidyverse, Quarto).
- Produire des visualisations pertinentes.
- Rédiger un rapport reproductible.
- Présenter vos résultats de manière claire et structurée.
- Collaborer efficacement dans un dépôt GitHub.
Ce projet est volontairement ouvert : vous avez la liberté de choisir vos données, vos angles d’analyse, vos outils, vos méthodes.
🗃️ Jeu de données
Choisissez un jeu de données gérable, c’est-à-dire :
- Au moins 50 observations
- Entre 10 et 20 variables (des exceptions sont possibles sur approbation)
- Incluant des variables numériques continues, discrètes et catégorielles
- Format lisible par R (CSV, RDS, etc.)
⚠️ Évitez les jeux de données vus en classe.
Quelques ressources utiles :
- Québec données
- TidyTuesday
- NHS Scotland Open Data - Edinburgh Open Data
- Open access to Scotland’s official statistics
- Bikeshare data portal - UK Gov Data
- Kaggle datasets - OpenIntro datasets
- Awesome public datasets
- Youth Risk Behavior Surveillance System (YRBSS)
- PRISM Data Archive Project
- Harvard Dataverse
- Google Dataset Search
- Canadien govt open data
- Github Public Dataset
📦 Déroulement du projet
1. Proposition — à remettre le dimanche 9 novembre à 23h59
Contenu :
Section 1 : Introduction
Présentez vos questions de recherche, votre jeu de données, sa provenance, son format, les observations et les variables.Section 2 : Données
Placez vos données dans le dossier/data, mettez à jour leREADME, et incluez unglimpse()ouskim().Section 3 : Plan d’analyse
- Variables réponses et explicatives
- Groupes de comparaison (si applicable)
- Premiers graphiques ou stats descriptives
- Méthodes envisagées
- Résultats attendus
Note: Il s’agit ici seulement d’un plan. Vous allez apprendre dans les prochains modules de nouvelles méthodes pour analyser votre jeu de données.
📏 Max. 1 page par section (hors graphiques).
Barème (15 points)
| Critère | Points |
|---|---|
| Données | 5 |
| Contenu de la proposition | 8 |
| Qualité du code, structure du dépôt | 2 |
2. Présentation — à soumettre le 15 décembre
Faites une présentation de 15 minutes maximum, où chaque membre parle. Utilisez xaringan pour créer vos diapositives. La présentation aura lieu en classe le 15 décembre.
Ce que vous devez présenter :
- Vos questions et pourquoi elles sont intéressante
- Vos choix méthodologiques
- Vos résultats principaux
- Les limites de votre approche
Code caché (
echo = FALSE) sauf si vous voulez en montrer une partie.
Barème (50 points)
| Critère | Points |
|---|---|
| Gestion du temps | 4 |
| Clarté de la question et pertinence des données | 5 |
| Professionnalisme et qualité de la présentation orale | 5 |
| Cohérence du travail d’équipe | 6 |
| Qualité méthodologique | 10 |
| Créativité et pensée critique | 10 |
| Qualité visuelle des diapositives | 10 |
3. Rapport final (README) — à soumettre le 15 décembre 2025 à 23h59
Fournissez un résumé exécutif de votre projet :
- Jeu de données utilisé
- Objectif et questions de recherche
- Méthodologie
- Résultats clés
💡 Ce résumé remplace un rapport écrit classique. Il doit être clair, structuré, mais concis.
Barème
| Critère | Points |
|---|---|
| Contenu et clarté | 15 |
📁 Organisation du dépôt GitHub
Structure attendue :
/data <- Jeu de données et dictionnaire des données
/proposition <- Proposition de projet presentation.Rmd
<- Présentation (xaringan) presentation.html
<- Présentation HTML README.Rmd + .md
<- Résumé final
Le dépôt doit être propre, bien structuré, et refléter une démarche reproductible.
🤝 Travail d’équipe
- Travail en équipe obligatoire
- Répartition équitable du travail
- Contribution visible dans l’historique Git
Vous remplirez une évaluation par les pairs à la fin du projet. Si une personne est jugée inactive (moins de 10 % de contribution), elle pourra recevoir une note ajustée.
🧠 Évaluation finale
| Composante | Points |
|---|---|
| Proposition | 10 |
| Présentation | 50 |
| Résumé (README) | 15 |
| Reproductibilité, organisation | 10 |
| Évaluation par les pairs | 10 |
| Évaluation par les camarades | 5 |
| Total | 100 |
✅ Ce qu’on évalue
- Qualité des questions et des données
- Pertinence des méthodes statistiques
- Clarté de la rédaction et des graphiques
- Créativité et esprit critique
- Respect des bonnes pratiques (éthique, reproductibilité, style)
💡 Conseils pratiques
- Commencez tôt, testez votre accès aux données.
- Commitez souvent, poussez régulièrement.
- Ne cachez pas votre code dans le
.qmd, sauf dans la présentation finale. - Planifiez des rencontres d’équipe.
- Posez des questions !
Bonne aventure scientifique !