Projet de session — Votre première mission en tant que scientifique de données

STT-1100 Introduction à la science des données

Votre mission

Vous réaliserez une analyse complète à partir d’un jeu de données réel ou réaliste, choisi par votre équipe et validé au besoin.

Votre mandat est de formuler une question pertinente, d’explorer les données de manière reproductible, de produire des visualisations utiles et de communiquer des résultats interprétables pour un public non spécialiste.

Objectif du projet

Le projet final vous permet de démontrer que vous êtes capable de :

  • Poser des questions de recherche claire et pertinente.
  • Explorer et analyser un jeu de données à l’aide des outils appris (RStudio, tidyverse, Quarto).
  • Produire des visualisations pertinentes.
  • Rédiger un rapport reproductible.
  • Présenter vos résultats de manière claire et structurée.
  • Collaborer efficacement dans un dépôt GitHub.

Ce projet est volontairement ouvert : vous avez la liberté de choisir vos données, vos angles d’analyse, vos outils, vos méthodes.

Jeu de données

Choisissez un jeu de données gérable, c’est-à-dire :

  • Au moins 50 observations
  • Entre 10 et 20 variables (des exceptions sont possibles sur approbation)
  • Incluant des variables numériques continues, discrètes et catégorielles
  • Format lisible par R (CSV, RDS, etc.)

Évitez les jeux de données vus en classe.

Quelques ressources utiles :

Déroulement du projet

1. Proposition — date à confirmer dans MonPortail

Contenu :

  • Section 1 : Introduction
    Présentez vos questions de recherche, votre jeu de données, sa provenance, son format, les observations et les variables.

  • Section 2 : Données
    Placez vos données dans le dossier /data, mettez à jour le README, et incluez un glimpse() ou skim().

  • Section 3 : Plan d’analyse

    • Variables réponses et explicatives
    • Groupes de comparaison (si applicable)
    • Premiers graphiques ou stats descriptives
    • Méthodes envisagées
    • Résultats attendus

    Note: Il s’agit ici seulement d’un plan. Vous allez apprendre dans les prochains modules de nouvelles méthodes pour analyser votre jeu de données.

Max. 1 page par section (hors graphiques).

Barème (10 points)

Critère Points
Données 4
Contenu de la proposition 4
Qualité du code, structure du dépôt 2

2. Présentation — date à confirmer dans MonPortail

Faites une présentation de 15 minutes maximum, où chaque membre parle. Utilisez xaringan pour créer vos diapositives. La date de présentation sera confirmée dans MonPortail.

Ce que vous devez présenter :

  • Vos questions et pourquoi elles sont intéressantes
  • Vos choix méthodologiques
  • Vos résultats principaux
  • Les limites de votre approche

Code caché (echo = FALSE) sauf si vous voulez en montrer une partie.

Barème (50 points)

Critère Points
Gestion du temps 4
Clarté de la question et pertinence des données 5
Professionnalisme et qualité de la présentation orale 5
Cohérence du travail d’équipe 6
Qualité méthodologique 10
Créativité et pensée critique 10
Qualité visuelle des diapositives 10

3. Rapport final (README) — date à confirmer dans MonPortail

Fournissez un résumé exécutif de votre projet :

  • Jeu de données utilisé
  • Objectif et questions de recherche
  • Méthodologie
  • Résultats clés

Ce résumé remplace un rapport écrit classique. Il doit être clair, structuré, mais concis.

Barème

Critère Points
Contenu et clarté 15

Organisation du dépôt GitHub

Structure attendue :

projet/
  data/              # Jeu de données et dictionnaire des données
  proposition/       # Proposition de projet
  presentation/      # Diapositives xaringan et HTML généré
  README.Rmd         # Résumé final reproductible
  README.md          # Résumé final rendu sur GitHub

Le dépôt doit être propre, bien structuré, et refléter une démarche reproductible.

Travail d’équipe

  • Travail en équipe obligatoire
  • Répartition équitable du travail
  • Contribution visible dans l’historique Git

Vous remplirez une évaluation par les pairs à la fin du projet. Si une personne est jugée inactive (moins de 10 % de contribution), elle pourra recevoir une note ajustée.

Évaluation finale

Composante Points
Proposition 10
Présentation 50
Résumé (README) 15
Reproductibilité, organisation 10
Évaluation par les pairs 10
Évaluation par les camarades 5
Total 100

Ce qu’on évalue

  • Qualité des questions et des données
  • Pertinence des méthodes statistiques
  • Clarté de la rédaction et des graphiques
  • Créativité et esprit critique
  • Respect des bonnes pratiques (éthique, reproductibilité, style)

Conseils pratiques

  • Commencez tôt, testez votre accès aux données.
  • Commitez souvent, poussez régulièrement.
  • Gardez le code visible dans les documents d’analyse, sauf dans les diapositives finales lorsque cela améliore la lisibilité.
  • Planifiez des rencontres d’équipe.
  • Posez des questions !

Bonne aventure scientifique !