Historique des données structurées et de leur traitement

Visionner la vidéo suivante :

Répondre à l'aide de la vidéo précédente aux questions suivantes :

  1. Quelle invention datant du XVIIIe siècle a été mis à profit par les informaticiens pour stocker des données ?

  2. En quelle année a été créé le premier disque dur ?

  3. En quelle année a été développé le premier modèle permettant de structurer et d'indexer des bases de données ?

  4. Comment s'appelle le premier tableur mis à la disposition du grand public ?

  5. En quelle année l'Open Government Initiative a t-elle été mise en place ?

  6. Quelle est le nom du texte de loi européen qui protège les citoyens européens quant à leurs données personnelles ?

Une fois les réponses saisies, vérifier l'orthographe puis leur validité en cliquant sur ce bouton :

Code de déblocage de la correction :

Notions de données structurées / non structurées

Une donnée est une valeur (numérique ou textuelle) représentant une information.

Pour pouvoir utiliser cette donnée d'un point de vue informatique, il va être utile de la "structurer".

Voici quatre sites :

  1. Accéder au premier site en prenant garde à protéger vos données personnelles.
    Aidez-vous si besoin de l'information affichable par clic pour apprendre à n'autoriser comme cookies que le strict nécessaire.

    Cliquer ici pour gérer les cookies proposés
    • Une fenêtre popup similaire à celle ci-dessous apparaît lors de votre première connexion à ce site :

      Surtout cliquez sur l'onglet Settings pas sur celui Accept mis en évidence par la coloration : c'est un piège !

    • Cette deuxième fenêtre apparaît :
      Là encore, ne vous laissez pas piéger par la couleur, cliquer sur Reject All.

    • Ainsi, vous rejetez tout cookie non essentiel au bon fonctionnement du site, en particulier ceux qui servent à pister votre navigation, localisation, à étudier vos centres d'intérêt, ... informations qui sont ensuite revendues à d'autres sites. Ce vente permet aux administrateurs de premier site de gagner de l'argent, ... sur votre dos sans que cela vous serve.

      C'est grâce au Règlement Général sur la Protection des Données, loi élaborée et votée au niveau de l'Union Européenne, que vous avez désormais la possibilité de protéger ainsi vos données.
      Tout développeur de site Web doit légalement vous demander ce type de consentement s'il veut utiliser des cookies servant à des tiers ou à seule fin publicitaire.

  2. Classer les informations que l'on obtient sur ces sites en deux catégories : données structurées / données non structurées.

  3. Sour quelle forme générale est organisée une donnée structurée ?

  4. Quels éléments de cette forme sont essentiels pour comprendre le contenu des données présentes ?

Code de déblocage de la correction :

Format de données

Voici ci-dessous une table de données :

vocabulaire sur les données

Associer à chaque partie encadrée un des mots suivants : "descripteurs", "objets" et "valeurs" en complétant les trois lignes suivantes d'un des mots précédents avant de cliquer sur ce bouton .

Pour pouvoir stocker, transmettre et exploiter ce type de tableau de valeurs, il peut être représenté sous différentes formes appelées format.

Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.

En CSV, les données sont stockées dans un fichier texte :

Voici comment sont écrites les données du tableau de l'exercice précédent au format CSV :

exemple format CSV

Voici comment sont écrites les données du tableau de l'exercice précédent au format JSON :

exemple format JSON

Voici comment sont écrites les données du tableau de l'exercice précédent au format XML :

exemple format XML

Le format XML avec son système de balises est plus long à écrire mais permet une bonne interopérabilité entre des systèmes d'informations hétérogènes. Il est aussi plus rapide à traiter par la machine.

En SNT, nous n'utiliserons que le format CSV.

Voici ci-dessous le contenu d'un fichier CSV :

CSV pays
  1. Quels sont les descripteurs ?

  2. Combien d'objets sont présents dans cette collection de données ?

Code de déblocage de la correction :

Données ouvertes

L'open data correspond à une volonté politique d'ouvrir les données jugées d'intérêt public afin d'encourager leur réutilisation par tout un chacun. Cela permet d'encourager la transparence démocratique, de bénéficier de services au quotidien ou de prendre des décisions plus éclairées.

L'État français rend publique les données qu'il a développé dans le cadre de ses missions et qu'il juge non sensibles à l'adresse suivante : https://www.data.gouv.fr.

  1. Aller sur le site des données publiques de l'État français : lien direct.

  2. Dans le moteur de recherche de ce site tapé le mot secours afin d'obtenir la dernière table de données sur les "Interventions réalisées par les services d'incendie et de secours".

  3. Télécharger le fichier le plus récent (au format CSV).

  4. Ouvrir ce fichier avec Calc de LibreOffice.

    • Si des symboles ne sont pas lisibles lors de la prévisualisation, pensez à changer lors de l'importation le jeu de caractères en passant à "Latin 3 (ISO-8859-3)". (premier menu déroulant de la fenêtre de prévisualisation)

    • Penser à cocher ou décocher les séparateurs proposés afin de prévisualiser un tableau à plusieurs colonnes.

    Vous devez voir apparaître à l'ouverture, une fois les réglages faits, quelque chose de proche (à l'année près !) :

    visualisation fichier intervention 2018 csv

L'utilisation de données ouvertes ou rendues publiques est une aide au journalisme d'investigation.
L'OSINT (Open Source INTelligence) ou Recherche d'informations à partir de données ouvertes est un ensemble de méthodes qui permettent d'exploiter des sources en libre accès depuis Internet.
Des exemples de telles données sont des textes, des vidéos ou des photos postés sur des réseaux sociaux, des images satellites, des positions d'avions ou de bateaux, des données de géolocalisation, ...
Plusieurs collectifs de personnes travaillant dans l'OSINT existent.
Bellingcat est un site Web où des journalistes d'investigation citoyens effectue de la vérification de faits et des enquêtes en se servant de renseignements obtenus et de données ouvertes.

Ce site s'est fait connaître au travers de plusieurs enquêtes de qualité. En voici quelques unes :


Si vous êtes intéressé.e.s, sachez que le site propose différentes ressources pour apprendre à mener des investigations sur des données ouvertes. Par exemple :

Si vous voulez découvrir les dernières découvertes de Bellingcat, cliquer sur cette image :

La guerre en Ukraine conduit à une "guerre d'information" entre l'Ukraine et la Russie.
Début avril 2022, ces deux pays ont communiqué sur la présence de civils morts dans la ville de Boutcha, près de Kyiv (=Kiev).
Cette ville a été occupée par des troupes russes entre début mars jusqu'au 30 mars 2022. Suite au retrait de ces troupes, l'armée ukrainienne rentre dans la ville le 1 avril 2022. À partir du premier avril, différents documents (vidéos en particulier) montre la présence de corps de civils tués dans plusieurs endroits de la ville.
Dès lors, deux théories concurrentes sont diffusées par les deux pays belligérants :

En vous aidant de données ouvertes disponibles sur Internet ou d'articles trouvés ou du site bellingcat quelle thèse est la plus probable ?

Code de déblocage de la correction :

Traitements de données

Nous allons utiliser les données (publiques) téléchargées précédemment pour répondre à des questions concrètes :

  1. On va chercher à répondre à cette première question : quels sont les 7 départements où il y a eu le plus d'interventions au total l'année pour laquelle vous avez obtenues des données ? Pour cela, vous allez suivre les étapes proposées ci-dessous :

    1. Commencez par repérer le descripteur "Total interventions",

    2. Sélectionnez la colonne correspondant à ce descripteur,

    3. Choisir dans l'onglet Données le menu Trier : une fenêtre apparaît : faites étendre la sélection pour l'intégralité des objets soient triés et pas seulement la colonne sélectionnée.

    4. Lire le nom des 7 départements où il y a eu le plus d'interventions l'année considérée.

    5. Que remarquez-vous ?

    Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :

  2. Deuxième question : quels sont les 7 départements de catégories C (donc les moins peuplés) ayant connu le plus d'interventions pour des accidents sur les lieux de travail ?

    Il y a un tri suivant deux critères à effectuer. Cette fois-ci, lorsque la fenêtre apparaît lors du tri, utiliser deux clés de tris en les choisissant de manière pertinente pour répondre à la question posée.

    Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses à la question qui précède dans le cas de données plus anciennes :

  3. Troisième question : parmi les départements où il y a eu des secours en mer, quels sont ceux où il n'y a pas eu de fausse alerte ?

  4. Quatrième question : quel est le nombre total d'interventions pour "secours à victime" sur toute la France ?

    Vous pouvez utiliser la fonction SOMME du tableur.

  5. Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :

    1. Quelle la moyenne du nombre d'interventions pour accident de circulation ?

      Vous pouvez utiliser la fonction MOYENNE du tableur.

    2. Cinquième question : quel est le nombre de départements ayant un nombre d'interventions inférieur à cette moyenne ?

  6. Sixième question : parmi les départements de notre grande région, quels sont ceux où il y a eu plus de feux de locaux industriels que dans la Marne ?

  7. Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :

  1. Retourner sur le site visité lors de la partie 2. : lien direct

    Y télécharger la table de données nommée df_matches.csv.

    À l'aide de ce fichier, vous pourrez répondre aux question suivantes :

    1. Déterminer le nombre de matches disputés par l'équipe de France en coupe du monde.

    2. Déterminer le nombre de buts marqués en moyenne par l'équipe de France.

      Vous pouvez utiliser la fonction MOYENNE du tableur.

    3. Déterminer le nombre de buts encaissés par l'équipe de France durant l'année 1958.

      Vous pouvez utiliser la fonction SOMME du tableur.

    4. Déterminer le nombre de match nul obtenu par l'équipe de France contre l'équipe de Suisse.

    5. Comparer des valeurs des descripteurs X5, score_france et score adversaire afin de repérer au moins une erreur dans la saisie des données.

    6. Donner les années des 9 matches de l'équipe de France où la France à gagner avec le plus grand nombre de buts d'après ce document.

Code de déblocage de la correction :

Enquête policière

Une personne vient d’être reversée par une voiture !

Un témoin a vu que le conducteur est un homme blond ayant une voiture de marque Renault de couleur métallisé.

À l’aide des bases de données fournies, déterminer qui est le propriétaire (nom et prénom) de la voiture incriminée dans l’accident.

Pour menez à bien cette enquête, vous pouvez télécharger ce document puis l'ouvrir grâce au logiciel libre LibreOffice.

Ce document contient trois feuilles de valeurs :

Veuillez saisir le nom et le prénom de la personne que vous incriminez pour cet accident :

Saisir le nom de la personne :

Saisir le prénom de la personne :

Code de déblocage de la correction :

Il est possible d'effectuer un traitement (recherche, tri, calcul) des données structurées en tables. Un tableur permet de faire des traitements basiques. Pour des problèmes plus compliqués des langages informatiques existent.

Format de fichiers

Chaque logiciel a sa manière propre d’encoder les informations, c'est-à-dire de traduire l'information en une succession de 0 et 1. Cette manière s'appelle le format des données.
Certaines manières d’encodage ne sont lisibles que par le logiciel lui-même.
D'autres sont lus par d’autres logiciels du même type, puis quelques formats de fichiers sont lus par tous les logiciels de la famille.

On reconnaît un format de fichier à son extension, c'est-à-dire le mot de quelques lettres se trouvant après le ".".

  1. Dans document.pdf, l'extension est pdf. Cette extension correspond à un document texte non modifiable dont le format est ouvert : il peut être lu par n'importe quel logiciel lisant ce type d'extension sans risque de perte ou de modification de données.

  2. Dans document.doc, l'extension est doc. Cette extension correspond à un document texte modifiable dont le format est fermé : il faut posséder une licence du logiciel Word pour pouvoir être certain de pouvoir lire et modifier le contenu sans perte ou modification de données.

  1. Télécharger ce dossier compressé puis décompresser son contenu dans un répertoire de votre ordinateur.

  2. Faire apparaître si besoin les extensions des fichiers du répertoire décompressé.

    Si besoin, vous pouvez visionner cette vidéo pour découvrir comment faire apparaître automatiquement les extensions sur votre ordinateur :

  3. En ouvrant les différents documents, recopier et compléter le tableau suivant :

    extension du fichier domaine d'application(texte modifiable, image, son, tableur, Web) format ouvert ?
    docx
    html
    jpg
    mkv
    mp3
    mp4
    ods
    odt
    ogg
    png
    txt
    xlsx

Code de déblocage de la correction :

Les formats ouverts sont à préférer.

Consommation énergétique des centres de données

Regarder cette vidéo de 2019 réalisée par Le temps un des journaux suisses de référence puis répondre aux questions suivantes :

  1. Qu'est-ce qu'un data center ou centre de données ?

  2. Quelles sont les deux principales raisons de la consommation électrique de ces centres de données ?

  3. Quelle est la consommation électrique, en térawattheure par an, estimée en 2018 pour l'ensemble des centre de données mondiaux ?
    Comparer à la consommation de la France en 2018 qui fut de 475 térawattheure selon EDF.

    En juillet 2024, aa Conférence de Nations Unis pour le Commerce Et le Développement (la CNUCED), a publié un rapport sur les différentes pollutions engendrées par les secteurs du numérique.
    En particulier, (cf. la page xxii de ce rapport) précise :
    According to IEA, worldwide, electricity for data centres amounted to about 460 TWh in 2022, a figure that could more than double to 1,000 TWh by 2026. By way of comparison, total electricity consumption in France was about 459 TWh in 2022.

  4. Que pensez-vous de la phrase "Si Internet était un pays, il serait le troisième plus gros consommateur mondial d'électricité derrière la Chine et les États-Unis" ?

  5. Quelles mesures, à votre niveau, permettent de réduire votre empreinte carbone ?

Code de déblocage de la correction :

Licence Creative Commons
Les différents auteurs mettent l'ensemble du site à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International