Notions de données structurées / non structurées

Une donnée est une valeur (numérique ou textuelle) représentant une information.

Pour pouvoir utiliser cette donnée d'un point de vue informatique, il va être utile de la "structurer".

Voici quatre sites :

  1. Accéder au premier site en prenant garde à protéger vos données personnelles.
    Aidez-vous si besoin de l'information affichable par clic pour apprendre à n'autoriser comme cookies que le strict nécessaire.

    Cliquer ici pour gérer les cookies proposés
    • Une fenêtre popup similaire à celle ci-dessous apparaît lors de votre première connexion à ce site :

      Surtout cliquez sur l'onglet Settings pas sur celui Accept mis en évidence par la coloration : c'est un piège !

    • Cette deuxième fenêtre apparaît :
      Là encore, ne vous laissez pas pièger par la couleur, cliquer sur Reject All.

    • Ainsi, vous rejetez tout cookie non essentiel au bon fonctionnement du site, en particulier ceux qui servent à pister votre navigation, localisation, à étudier vos centres d'intérêt, ... informations qui sont ensuite revendues à d'autres sites. Ce vente permet aux administrateurs de premier site de gagner de l'argent, ... sur votre dos sans que cela vous serve.

      C'est grâce au Réglement Général sur la Protection des Données, loi élaborée et votée au niveau de l'Union Européenne, que vous avez désormais la possibilité de protéger ainsi vos données.
      Tout développeur de site Web doit légalement vous demander ce type de contement s'il veut utiliser des cookies servant à des tiers ou à seule fin publicitaire.

  2. Classer les informations que l'on obtient sur ces sites en deux catégories : données structurées / données non structurées.

  3. Sour quelle forme générale est organisée une donnée structurée ?

  4. Quels éléments de cette forme sont essentiels pour comprendre le contenu des données présentes ?

Code de déblocage de la correction :

Format de données

Voici ci-dessous une table de données :

vocabulaire sur les données

Associer à chacun partie encadrée un des mots suivants : "descripteurs", "objets" et "valeurs" en complétant les trois lignes suivantes d'un des mots précédents avant de cliquer sur ce bouton .

Pour pouvoir stocker, transmettre et exploiter ce type de tableau de valeurs, il peut être représenté sous différentes formes appelées format.

Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.

En CSV, les données sont stockées dans un fichier texte :

Voici comment sont écrites les données du tableau de l'exercice précédent au format CSV :

exemple format CSV

Voici comment sont écrites les données du tableau de l'exercice précédent au format JSON :

exemple format JSON

Voici comment sont écrites les données du tableau de l'exercice précédent au format XML :

exemple format XML

Le format XML avec son système de balises est plus long à écrire mais permet une bonne interopérabilité entre des systèmes d'informations hétérogènes. Il est aussi plus rapide à traiter par la machine.

En SNT, nous n'utiliserons que le format CSV.

Voici ci-dessous le contenu d'un fichier CSV :

CSV pays
  1. Quels sont les descripteurs ?

  2. Combien d'objets sont présents dans cette collection de données ?

Code de déblocage de la correction :

Données ouvertes

L'open data correspond à une volonté politique d'ouvrir les données jugées d'intérêt public afin d'encourager leur réutilisation par tout un chacun. Cela permet d'encourager la transparence démocratique, de bénéficier de services au quotidien ou de prendre des décisions plus éclairées.

L'État français rend publique les données qu'il a développé dans le cadre de ses missions et qu'il juge non sensibles à l'adresse suivante : https://www.data.gouv.fr.

  1. Aller sur le site des données publiques de l'État français : lien direct.

  2. Dans le moteur de recherche de ce site tapé le mot secours afin d'obtenir la dernière table de données sur les "Interventions réalisées par les services d'incendie et de secours".

  3. Télécharger le fichier le plus récent (au format CSV).

  4. Ouvrir ce fichier avec Calc de LibreOffice.

    • Si des symboles ne sont pas lisibles lors de la prévisualisation, pensez à changer lors de l'importation le jeu de caractères en passant à "Latin 3 (ISO-8859-3)". (premier menu déroulant de la enêtre de prévisualisation)

    • Penser à cocher ou décocher les séparateurs proposés afin de prévisualiser un tableau à plusieurs colonnes.

    Vous devez voir apparaître à l'ouverture, une fois les réglages faits, quelque chose de proche (à l'année près !) :

    visualisation fichier intervention 2018 csv

Traitements de données

Nous allons utiliser les données (publiques) téléchargées précédemment pour répondre à des questions concrètes :

  1. On va chercher à répondre à cette première question : quels sont les 7 départements où il y a eu le plus d'interventions au total l'année pour laquelle vous avez obtenues des données ? Pour cela, vous allez suivre les étapes proposées ci-dessous :

    1. Commencez par repérer le descripteur "Total interventions",

    2. Sélectionnez la colonne correspondant à ce descripteur,

    3. Choisir dans l'onglet Données le menu Trier : une fenêtre apparaît : faites étendre la sélection pour l'intégralité des objets soient triés et pas seulement la colonne sélectionnée.

    4. Lire le nom des 7 départements où il y a eu le plus d'interventions l'année considérée.

    5. Que remarquez-vous ?

    Code de déblocage de la correction :

  2. Deuxième question : quels sont les 7 départements de catégories C (donc les moins peuplés) ayant connu le plus d'interventions pour des accidents sur les lieux de travail ?

    Il y a un tri suivant deux critères à effectuer. Cette fois-ci, lorsque la fenêtre apparaît lors du tri, utiliser deux clés de tris en les choisissant de manière pertinente pour répondre à la question posée.

    Code de déblocage de la correction :

  3. Troisième question : parmi les départements où il y a eu des secours en mer, quels sont ceux où il n'y a pas eu de fausse alerte ?

  4. Quatrième question : quel est le nombre total d'interventions pour "secours à victime" sur toute la France ?

    Vous pouvez utiliser la fonction SOMME du tableur.

  5. Code de déblocage de la correction :

    1. Quelle la moyenne du nombre d'interventions pour accident de circulation ?

      Vous pouvez utiliser la fonction MOYENNE du tableur.

    2. Cinquième question : quel est le nombre de départements ayant un nombre d'interventions inférieur à cette moyenne ?

  6. Sixième question : parmi les départements de notre grande région, quels sont ceux où il y a eu plus de feux de locaux industriels que dans la Marne ?

  7. Code de déblocage de la correction :

  1. Retourner sur le site visité lors de la partie 2. : lien direct

    Y télécharger la table de données nommée df_matches.csv.

    À l'aide de ce fichier, vous pourrez répondre aux question suivantes :

    1. Déterminer le nombre de matches disputés par l'équipe de France en coupe du monde.

    2. Déterminer le nombre de buts marqués en moyenne par l'équipe de France.

      Vous pouvez utiliser la fonction MOYENNE du tableur.

    3. Déterminer le nombre de buts encaissés par l'équipe de France durant l'année 1958.

      Vous pouvez utiliser la fonction SOMME du tableur.

    4. Déterminer le nombre de match nul obtenu par l'équipe de France contre l'équipe de Suisse.

    5. Comparer des valeurs des descripteurs X5, score_france et score adversaire afin de repérer au moins une erreur dans la saisie des données.

    6. Donner les années des 9 matches de l'équipe de France où la France à gagner avec le plus grand nombre de buts d'après ce document.

Code de déblocage de la correction :

Licence Creative Commons
Les différents auteurs mettent l'ensemble du site à disposition selon les termes de la licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0 International