Aventure 7 — Visualisation, éthique et sécurisation des données

STT-1100 • Introduction à la science des données

✈️ Mise en contexte

Vous êtes un·e expert·e invité·e dans une commission d’éthique en science des données. Une organisation vous soumet un rapport contenant une visualisation et des statistiques issues d’un jeu de données simulé sur la COVID-19. Votre rôle : évaluer la conformité de ce rapport aux bonnes pratiques de communication visuelle, à l’éthique et à la protection des données sensibles.

Objectifs de l’aventure

  • Développer votre esprit critique face à des visualisations trompeuses et des interprétations biaisées.
  • Identifier les biais de présentation, les erreurs éthiques et les atteintes à la confidentialité (PII).
  • Appliquer les bonnes pratiques de visualisation (CRAP, axes, couleurs, légendes).
  • Mettre en œuvre des principes éthiques dans le traitement et la communication des données.

Instructions

En équipe, vous devez :

  1. Lire attentivement le rapport fourni (Analyse initiale des cas de COVID-19.html).
  2. Identifier tous les problèmes : visuels, statistiques, éthiques, méthodologiques, etc.
  3. Corriger et améliorer la visualisation à l’aide du fichier de données donnees_covid_module7.csv.
  4. Rédiger un rapport critique incluant :
    • Problèmes identifiés
    • Raisonnement éthique
    • Recommandations
  5. Fournir une ou plusieurs visualisations corrigées avec explications.
  6. Ajouter une courte conclusion personnelle (5 lignes par personne) sur ce que vous retenez de cette activité.

Travail à remettre

Un fichier .qmd sur GitHub contenant :

  • Une section “Analyse critique”
  • Une section “Visualisation améliorée”
  • Une section “Conclusion personnelle”

Ressources utiles

  • Règles CRAP : Contraste, Répétition, Alignement, Proximité
  • How to Lie with Statistics — Darrell Huff
  • Règles d’anonymisation des données (PII)
  • Principes d’éthique : transparence, reproductibilité, non-nuisance
  • Bonnes pratiques de visualisation avec ggplot2
  • Concepts abordés dans le module 7 : sécurité, biais, visualisation, éthique

Fichier de départ

  • Analyse initiale des cas de COVID-19.html (fourni sur GitHub)
  • donnees_covid_module7.csv (données nettoyées à utiliser pour la version corrigée)

Critères de réussite

  • Capacité à identifier un grand nombre de problèmes (techniques, éthiques, visuels)
  • Capacité à justifier vos corrections
  • Qualité de la visualisation améliorée (clarté, honnêteté, accessibilité)
  • Qualité du rapport critique
  • Capacité à adopter une posture réflexive sur l’éthique en science des données