Données : visualisation

Durée estimée: 45 minutes

Avertissement :

Cette leçon et la suivante s'adressent à des élèves à partir de la 4° et/ou méritent d'être suivies en étant accompagné par un enseignant. Elles n'utilisent pas Scratch mais un tableur (Open office, Excel, sheets, ...).

Ce que vous allez faire :

Après avoir travaillé sur les modèles, vous allez analyser les données de l'épidémie du nCovid19. Vous le ferez avec un tableur (Open office, Excel, sheets, ...).

Ce que vous allez apprendre :

Vous allez voir comment examiner et analyser des données

  • en les visualisant sous forme graphique,
  • en les harmonisant pour qu'elles soient comparables,
  • en choisissant un système de coordonées adapté au phénomène qu'elles traduisent.

Les données :

Dans le cours, et la 1° vidéo qui suit, nous avons retenu les données du site Worldometers.info vérifiées et complétées par celles de l'université Johns Hopkins et de "santé publique France". Le croisement de plusieurs sources est un élément de vérification, mais il ne remplace pas une analyse critique. Dans notre cas, certains pays comptabilisent les décès en EPHAD, commme c'est le cas de la Belgique ou de La France. D'autres les ometttent ou les sous-estiment. Les décès à domicile, sont souvent omis, etc. Il faut donc être très vigilant sur les comparaisons.

Dans la 2°vidéo qui montre comment lire et afficher les données avec un tableur, nous avons choisi une source unique : les donnnées de Johns Hopkins.

Ces données comprennent pour chaque pays et chaque jour, le nombre de cas confirmés, de décès, de cas critiques, etc. Nous avons choisi d'analyser le nombre de décès car c'est a priori le plus comparable ou le moins sensible au contexte spécifique à chaque pays, au nombre de tests, ...
Par contre les courbes du nombre de décès sont décalées de 2 semaines au moins par rapport au niveau de contamination en cours. Il faut se rappeler de ce point en regardant les données.

Pour analyser la sortie du confinement qui est abordé deux leçons plus loin, nous avons utilisé le nombre de nouveaux cas moyenné sur la semaine précédente. Compte tenu de l'arrivée des tests un peu partout, c'est devenu un indicateur plus crédible.

La première vidéo ci-dessous propose une analyse des données. La seconde vous permet de faire votre popre analyse en utilisant un tableur.

Lire et afficher les données avec un tableur :

Dans cette vidéo vous allez récupérer des données sur le Web et utiliser un tableur pour les afficher, faire des comparaisons et conduire votre propre analyse.

Attention/rappel : Les données peuvent être acquises dans des conditions différentes. A titre d'exemple, la Belgique comptabilise les cas suspectés comme décès COVID. D'autres pays font plutôt le contraire et omettent ou sous estiment les décès en EPHAD.

Pour cette vidéo, nous vous suggérons de la regarder une première fois dans son ensemble, puis de la reprendre en la déroulant pas à pas sur votre ordinateur.

Exercices d'analyse des données

L'objectif de ces exercices est d'afficher les données en faire une analyse générale, puis de modifier l'affichage pour faciliter l'analyse des phénomènes qui vous intéressent.

  • Si c'est les Pays d'Europe, on ne verra plus la courbe américaine,
  • si c'est le début de l'épidémie, les dates et les échelles seront très différentes,
  • etc.

Les données sont à cette adresse.

mais vous pouvez faire e même genre dexercice avec les données que vous avez téléchargées avec lé vidéo précédente.

On commence par visualiser les données avec les fonctions graphiques d'un tableur (Open office, Excel, Google Sheets, ...).

  • Choisissez le tableur indiqué par votre enseignant, celui que vous voulez si vous êtes seuls ou celui que quelqu'un de votre entourage connait déjà (il pourra vous aider).
  • Récupérez les données indiquées plus haut et plus spécifiquement la feuille "dataForDisplay".
    Dans cette feuille, nous avons ajouté une série qui correspond aux données de Hubei (1° région contaminée) décalée de 35 jours pour se superposer au début de l'épidémie en Italie.
  • Sélectionnez les lignes renseignées et insérez un graphique (si nécessaire regardez comment faire sur un tuto internet). .
Si vous trouvez ces opérations trop difficiles, vous pouvez récupérer le fichier avec les feuilles graphiques déjà prêtes indiquées ci-dessus (Le fichier est sur Google drive et nous avons utilisé Google sheets).

On voit surtout la courbe américaine, puis la courbe italienne (rouge), du Royaume Uni avec une marche d'escalier qui correspond à la prise en compte de décès dans les EPHAD, de l'Espagne (vert), ...

Pour la France on a deux courbes. La plus basse correspond au nombre de décès à l'hopital. La seconde, plus élevée correspond au nombre total de décès (comprise EPHAD, servcies sociaux, ... mais hors décès à domicile).

L'écart entre les deux courbes donne une indication des sous estimations possibles selon les décès pris en compte par chaque pays. La proportion de décès hors hopital pouvant dépasser 40% dans certaine estimations.
On peut ensuite zoomer en modifiant le maximum sur l'axe des y, ce qui permet de comparer entre eux les pays européens :

On voit déjà mieux.

Presque toutes les courbes indiquent une propagation de plus en plus rapide de l'épidémie, mais peut-on vraiment comparer les différentes courbes ou pays de ce graphique ?
Certains pays ont moins de 10 millions d'habitants et d'autres plus de 300 millions. Pour évaluer la propagation de l'épidémie, il faut que les données correspondent au même nombre de personnes. On va donc les ramener les valeurs au nombre de décès par million d'habitants en les divisant par la population de chaque pays.

Vous pouvez le faire vous-mêmes : toutes les données sont dans la feuille "Data" du jeu de données indiqué plus haut. Vous pouvez aussi utiliser la feuille "ratio" où ces calculs ont déja été faits . Créez un nouveau graphique à partir de cette feuille. Ca donne la figure suivante en nombre de décès par million d'habitants pour chaque pays.(On a gardé un zoom, les courbes de l'Italie et de l'Espagne sont tronquées.)

On voit que pour les pays d'Europe (traits pleins) que la Belgique est apparemment la plus touchée, mais ce point mérite d'être modéré dans la mesure où c'est le pays qui comptabilise tous les cas suspectés comme des décès COVID.

L'Espagne et l'Italie sont également très touchées. La prise en compte les décès hors hopital mérite d'être vérifiée.

Le Royaume Uni vient ensuite avec une amrche d'escalier qui correspond à la prise en compte (au moins partielle) des décès hors hopital. Une des prinipales raisons invoquées à l'augmentation rapide du nombre de décès au Rouyaume Uni est le retard pris au confinement.

On a ensuite les deux courbes de la France avec le nombre décès total et à l'hopital. Puis les autres pays d'Europe, les Etats-Unis et l'Allemagne, sensiblement en dessous de tous les autres (mais très

Ces pays ont des caractéristiques très différentes : la densité de population est de 21 habitants au km2 en Suède et 375 en Belgique. Les données réprésentées par les graphiques ne sont donc pas suffisantes. Le croisement avec les résultats du simulateur nous sera utilie pour comprendre.

Discussion :