Notions de données structurées / non structurées

Une donnée est une valeur (numérique ou textuelle) représentant une information.

Pour pouvoir utiliser cette donnée d'un point de vue informatique, il va être utile de la "structurer".

Voici quatre sites :

  1. Classer les informations que l'on obtient sur ces sites en deux catégories : données structurées / données non structurées.

    Pour cela, cocher sur Socrative le numéro des sites correspondant à des données structurées.

  2. Sour quelle forme générale est organisée une donnée structurée ?

  3. Quels éléments de cette forme sont essentiels pour comprendre le contenu des données présentes ?

Format de données

Voici ci-dessous une table de données :

vocabulaire sur les données

Associer à chacun partie encadrée un des mots suivants : "Descripteurs", "Objet" et "Valeur".

Pour pouvoir stocker, transmettre et exploiter ce type de tableau de valeurs, il peut être représenté sous différentes formes appelées format.

Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.

En CSV, les données sont stockées dans un fichier texte :

Voici comment sont écrites les données du tableau de l'exercice précédent au format CSV :

exemple format CSV

Voici comment sont écrites les données du tableau de l'exercice précédent au format JSON :

exemple format JSON

Voici comment sont écrites les données du tableau de l'exercice précédent au format XML :

exemple format XML

Le format XML avec son système de balises est plus long à écrire mais permet une bonne interopérabilité entre des systèmes d'informations hétérogènes. Il est aussi plus rapide à traiter par la machine.

En SNT, nous n'utiliserons que le format CSV.

Voici ci-dessous le contenu d'un fichier CSV :

CSV pays
  1. Quels sont les descripteurs ?

  2. Combien d'objets sont présents dans cette collection de données ?

Données ouvertes

L'open data correspond à une volonté politique d'ouvrir les données jugées d'intérêt public afin d'encourager leur réutilisation par tout un chacun. Cela permet d'encourager la transparence démocratique, de bénéficier de services au quotidien ou de prendre des décisions plus éclairées.

L'État français rend publique les données qu'il a développé dans le cadre de ses missions et qu'il juge non sensibles à l'adresse suivante : https://www.data.gouv.fr.

  1. Aller sur le site des données publiques de l'État français : lien direct.

  2. Dans le moteur de recherche de ce site tapé le mot secours afin d'obtenir la dernière table de données sur les "Interventions réalisées par les services d'incendie et de secours".

  3. Télécharger le fichier le plus récent (au format CSV).

  4. Ouvrir ce fichier avec Calc de LibreOffice.

    • Si des symboles ne sont pas lisibles lors de la prévisualisation, pensez à changer lors de l'importation le jeu de caractères en passant à "Latin 3 (ISO-8859-3)". (premier menu déroulant de la enêtre de prévisualisation)

    • Penser à cocher ou décocher les séparateurs proposés afin de prévisualiser un tableau à plusieurs colonnes.

    Vous devez voir apparaître à l'ouverture, une fois les réglages faits, quelque chose de proche :

    visualisation fichier intervention 2018 csv

Traitements de données

Nous allons utiliser les données (publiques) téléchargées précédemment pour répondre à des questions concrètes :

  1. On va chercher à répondre à cette première question : quels sont les 7 départements où il y a eu le plus d'interventions au total en 2018 ? Pour cela, vous allez suivre les étapes proposées ci-dessous :

    1. Commencez par repérer le descripteur "Total interventions",

    2. Sélectionnez la colonne correspondant à ce descripteur,

    3. Choisir dans l'onglet Données le menu Trier : une fenêtre apparaît : faites étendre la sélection pour l'intégralité des objets soient triés et pas seulement la colonne sélectionnée.

    4. Lire le nom des 7 départements où il y a eu le plus d'interventions en 2018.

    5. Que remarquez-vous ?

  2. Deuxième question : quels sont les 7 départements de catégories C (donc les moins peuplés) ayant connus le plus d'intervention pour des accidents sur les lieux de travail ?

    Il y a un tri suivant deux critères à effectuer. Cette fois-ci, lorsque la fenêtre apparaît lors du tri, utiliser deux clés de tris en les choisissant de manière pertinente pour répondre à la question posée.

  3. Troisième question : parmi les départements où il y a eu des secours en mer, quels sont ceux où il n'y a pas eu de fausse alerte ?

  4. Quatrième question : quel est le nombre total d'interventions pour "secours à victime" sur toute la France ?

    1. Quelle la moyenne du nombre d'interventions pour accident de circulation ?

    2. Cinquième question : quel est le nombre de départements ayant un nombre d'interventions inférieur à cette moyenne ?

  5. Sixième question : parmi les départements de notre grande région, quels sont ceux où il y a eu plus de feux de locaux industriels que dans notre département ?

  1. Retourner sur le site visité lors de la partie 2. : lien direct

    Y télécharger la table de données nommée df_matches.csv.

    À l'aide de ce fichier, vous pourrez répondre aux question suivantes :

  2. Déterminer le nombre de matches disputés par l'équipe de France en coupe du monde.

  3. Déterminer le nombre de buts marqués en moyenne par l'équipe de France.

  4. Déterminer le nombre de buts encaissés par l'équipe de France durant l'année 1958.

  5. Déterminer le nombre de match nul obtenu par l'équipe de France contre l'équipe de Suisse.

  6. Comparer des valeurs des descripteurs X5, score_france et score adversaire afin de repérer au moins une erreur dans la saisie des données.

Licence Creative Commons
SNT de Auteurs : Thomas Cailliez, Jean-Christophe Gérard, Claire Huet, Thomas Lourdet, Johan Monteillet, Pascal Thérèse est mis à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International.