Visionner la vidéo suivante :
Répondre à l'aide de la vidéo précédente aux questions suivantes :
Quelle invention datant du XVIIIe siècle a été mis à profit par les informaticiens pour stocker des données ?
En quelle année a été créé le premier disque dur ?
En quelle année a été développé le premier modèle permettant de structurer et d'indexer des bases de données ?
Comment s'appelle le premier tableur mis à la disposition du grand public ?
En quelle année l'Open Government Initiative a t-elle été mise en place ?
Quelle est le nom du texte de loi européen qui protège les citoyens européens quant à leurs données personnelles ?
Une fois les réponses saisies, vérifier l'orthographe puis leur validité en cliquant sur ce bouton :
Une donnée est une valeur (numérique ou textuelle) représentant une information.
Pour pouvoir utiliser cette donnée d'un point de vue informatique, il va être utile de la "structurer".
Voici quatre sites :
Une fenêtre popup similaire à celle ci-dessous apparaît lors de votre première connexion à ce site :
Surtout cliquez sur l'onglet Settings pas sur celui Accept mis en évidence par la coloration : c'est un piège !
Cette deuxième fenêtre apparaît :
Là encore, ne vous laissez pas piéger par la couleur, cliquer sur Reject All.
Ainsi, vous rejetez tout cookie non essentiel au bon fonctionnement du site, en particulier ceux qui servent à pister votre navigation, localisation, à étudier vos centres d'intérêt, ... informations qui sont ensuite revendues à d'autres sites. Ce vente permet aux administrateurs de premier site de gagner de l'argent, ... sur votre dos sans que cela vous serve.
C'est grâce au Règlement Général sur la Protection des Données, loi élaborée et votée au niveau
de l'Union Européenne, que vous avez désormais la possibilité de protéger ainsi vos données.
Tout développeur de site Web doit légalement vous demander ce type de consentement s'il veut utiliser des cookies servant
à des tiers ou à seule fin publicitaire.
Classer les informations que l'on obtient sur ces sites en deux catégories : données structurées / données non structurées.
Sour quelle forme générale est organisée une donnée structurée ?
Quels éléments de cette forme sont essentiels pour comprendre le contenu des données présentes ?
Une donnée structurée est organisée sous forme d'un tableau appelé table de données.
La première ligne décrit la forme des lignes suivantes ; les éléments de cette ligne donnant la signification portent plusieurs noms possibles : ce sont les noms de champ ou descripteurs ou critères.
Les lignes suivantes sont appelées des objets : elles sont la liste des valeurs de chacun des descripteurs.
Voici ci-dessous une table de données :
Associer à chaque partie encadrée un des mots suivants : "descripteurs", "objets" et "valeurs" en complétant les trois lignes suivantes d'un des mots précédents avant de cliquer sur ce bouton .
La partie entourée en bleu correspond à l'ensemble des .
La partie entourée en rouge correspond à un exemple parmi l'ensemble des .
La partie entourée en vert correspond à un exemple parmi l'ensemble des .
Pour pouvoir stocker, transmettre et exploiter ce type de tableau de valeurs, il peut être représenté sous différentes formes appelées format.
Les principaux formats utilisés pour représenter un ensemble de données sont le CSV , le JSON et le XML.
L'acronyme CSV signifie "Comma Separated Values" c'est-à-dire "valeurs séparées par une virgule".
L'acronyme JSON signifie "JavaScript Object Notation" c'est-à-dire "notation d'objets en Javascript".
L'acronyme XML signifie "eXtensible Markup Language " c'est-à-dire "langage de balisage extensible".
En CSV, les données sont stockées dans un fichier texte :
où la première ligne donne la liste des descripteurs, ,
où chaque autre ligne du tableau correspond à un objet,
où les valeurs (d'un objet) sont séparées par une virgule.
Voici comment sont écrites les données du tableau de l'exercice précédent au format CSV :
Voici comment sont écrites les données du tableau de l'exercice précédent au format JSON :
Voici comment sont écrites les données du tableau de l'exercice précédent au format XML :
Le format XML avec son système de balises est plus long à écrire mais permet une bonne interopérabilité entre des systèmes d'informations hétérogènes. Il est aussi plus rapide à traiter par la machine.
En SNT, nous n'utiliserons que le format CSV.
Attention ! La virgule est le séparateur standard pour les données anglo-saxonnes, mais pas pour les données aux normes françaises puisque, en français, la virgule est le séparateur des chiffres décimaux ( = "nombres à virgule"). C’est pourquoi on utilise un autre séparateur en français : le point-virgule (;)
Dans certains cas, le fait d'avoir comme séparateur une virgule ou un point-virgule peut engendrer quelques problèmes. Vous devrez donc rester vigilants sur le type de séparateur utilisé.
Un tableur tel que "Calc" (de Libre Office)
est capable de lire les fichiers au format CSV mais d'autres tableurs (comme Excel) gèrent moins bien le séparateur CSV "point-virgule".
Voici ci-dessous le contenu d'un fichier CSV :
Quels sont les descripteurs ?
Combien d'objets sont présents dans cette collection de données ?
Une donnée est une valeur (numérique ou textuelle) contentant une information.
Une donnée structurée est organisée sous forme d'un tableau appelé table de données.
La première ligne décrit la forme des lignes suivantes : ce sont les noms de champ ou descripteurs.
Les lignes suivantes sont appelées des objets :
elles sont la liste des valeurs de chacun des descripteurs.
Un format de fichiers définit la manière dont sont rangées les informations dans un fichiers. Le format CSV (Comma Separated Values) est le format le plus simple qui permet de représenter des tableaux de données avec des lignes où les valeurs sont séparées par une virgule (ou un point-virgule).
L'open data correspond à une volonté politique d'ouvrir les données jugées d'intérêt public afin d'encourager leur réutilisation par tout un chacun. Cela permet d'encourager la transparence démocratique, de bénéficier de services au quotidien ou de prendre des décisions plus éclairées.
L'État français rend publique les données qu'il a développé dans le cadre de ses missions et qu'il juge non sensibles à l'adresse suivante : https://www.data.gouv.fr.
Aller sur le site des données publiques de l'État français : lien direct.
Dans le moteur de recherche de ce site tapé le mot secours afin d'obtenir la dernière table de données sur les "Interventions réalisées par les services d'incendie et de secours".
Télécharger le fichier le plus récent (au format CSV).
Ouvrir ce fichier avec Calc de LibreOffice.
Si des symboles ne sont pas lisibles lors de la prévisualisation, pensez à changer lors de l'importation le jeu de caractères en passant à "Latin 3 (ISO-8859-3)". (premier menu déroulant de la fenêtre de prévisualisation)
Penser à cocher ou décocher les séparateurs proposés afin de prévisualiser un tableau à plusieurs colonnes.
Vous devez voir apparaître à l'ouverture, une fois les réglages faits, quelque chose de proche (à l'année près !) :
L'utilisation de données ouvertes ou rendues publiques est une aide au
journalisme d'investigation.
L'OSINT (Open Source INTelligence) ou Recherche d'informations à partir de données ouvertes
est un ensemble de méthodes qui permettent d'exploiter des sources en libre accès depuis Internet.
Des exemples de telles données sont des textes, des vidéos ou des photos postés sur des réseaux sociaux, des images satellites,
des positions d'avions ou de bateaux, des données de géolocalisation, ...
Plusieurs collectifs de personnes travaillant dans l'OSINT existent.
Bellingcat est un site Web où des journalistes
d'investigation citoyens effectue de la vérification de faits et des enquêtes en se servant de renseignements
obtenus et de données ouvertes.
Ce site s'est fait connaître au travers de plusieurs enquêtes de qualité. En voici quelques unes :
Le créateur du site démontre que le régime du dictateur syrien Bachar el-Assad utilise des armes chimiques et des
armes à sous-munitions contre sa population.
Cette démonstration repose en partie sur l'analyse de vidéos accessibles sur Internet que le journaliste arrive à
localiser et qui lui permet d'analyser les détails des armes utilisés.
En 2016, le site prouve que lors de la guerre du Donbass la Russie, depuis son territoire, a bombardé une partie du territoire ukrainien
à l'été 2014 pour soutenir
les rebelles pro-russes des régions de Donetsk et Louhansk.
Cette démonstration repose en partie sur l'analyse d'images satellites publiques disponibles permettant
d'étudier la trajectoire des projectile à partir des impacts au sol.
Voici un accès direct à l'article (en anglais).
Bellingcat démontre aussi en novembre 2014 que l'avion de la Malaysia Airlines qui a été abattu le 17 juillet 2014 au-dessus de
l'est de l'Ukraine, avec à son bord 298 personnes, a été abattu par un missile russe et incrimine directement une brigade
l'armée russe.
Cette démonstration repose en partie sur l'analyse des photos et de vidéos obtenus sur les réseaux sociaux puis sur des
images satellitaires.
Voici un accès direct à l'article (en anglais).
Le rapport d'enquête internationale sur les raisons du crash confirmera ensuite cette affirmation.
En décembre 2020, le site Bellingcat publie une enquête dans laquelle sont identifiés les deux agents des services secrets
russes qui ont empoisonnés l'opposant russe Alexis Navalny et affirme que deux instituts russes poursuivent des recherches
sur les substances chimiques mortelles.
Cette démonstration repose en partie sur l'analyse de données obtenues en Russie contenant des relevés téléphoniques,
des bases de données en lien avec des numéros de passeports, ...
Voici un accès direct à l'article (en anglais ou en russe) sur le site officiel de Bellingcat.
En avril 2021, Bellingcat publie un article dans lequel il démontre l'existence d'un crime de guerre perpétré par l'armée éthiopienne
contre des soldats de l'armée rebelle tigréenne (le Tigré est une région "autonome" de l'Éthiopie).
Cette démonstration repose en partie sur l'analyse de photos et de vidéos obtenues sur les réseaux sociaux,
en les géolocalisant grâce à des sites comme Google Earth Pro et PeakVisor.
Voici un accès direct à l'article (en anglais ou en russe) sur le site officiel de Bellingcat.
Si vous êtes intéressé.e.s, sachez que le site propose différentes ressources pour apprendre à mener des investigations sur des données ouvertes. Par exemple :
Si vous voulez découvrir les dernières découvertes de Bellingcat, cliquer sur cette image :
La guerre en Ukraine conduit à une "guerre d'information" entre l'Ukraine et la Russie.
Début avril 2022, ces deux pays ont communiqué sur la présence de civils morts dans la ville de Boutcha, près de Kyiv (=Kiev).
Cette ville a été occupée par des troupes russes entre début mars jusqu'au 30 mars 2022. Suite au retrait de ces troupes, l'armée ukrainienne
rentre dans la ville le 1 avril 2022. À partir du premier avril, différents documents (vidéos en particulier) montre la présence
de corps de civils tués dans plusieurs endroits de la ville.
Dès lors, deux théories concurrentes sont diffusées par les deux pays belligérants :
L'Ukraine accuse la Russie d'avoir perpétrer des crimes de guerre à Boutcha : les troupes russes occupantes ont abattus plusieurs centaines de civils désarmés dans cette ville et ont abandonnés leurs corps plusieurs semaines.
La Russie affirme que les corps trouvés dans les rues de Boutcha ont été déposés après le départ des troupes russes et que l'Ukraine cherche à manipuler l'opinion internationale.
En vous aidant de données ouvertes disponibles sur Internet ou d'articles trouvés ou du site bellingcat quelle thèse est la plus probable ?
Nous allons utiliser les données (publiques) téléchargées précédemment pour répondre à des questions concrètes :
On va chercher à répondre à cette première question : quels sont les 7 départements où il y a eu le plus d'interventions au total l'année pour laquelle vous avez obtenues des données ? Pour cela, vous allez suivre les étapes proposées ci-dessous :
Commencez par repérer le descripteur "Total interventions",
Sélectionnez la colonne correspondant à ce descripteur,
Choisir dans l'onglet Données le menu Trier : une fenêtre apparaît : faites étendre la sélection pour l'intégralité des objets soient triés et pas seulement la colonne sélectionnée.
Lire le nom des 7 départements où il y a eu le plus d'interventions l'année considérée.
Que remarquez-vous ?
Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :
Deuxième question : quels sont les 7 départements de catégories C (donc les moins peuplés) ayant connu le plus d'interventions pour des accidents sur les lieux de travail ?
Il y a un tri suivant deux critères à effectuer. Cette fois-ci, lorsque la fenêtre apparaît lors du tri, utiliser deux clés de tris en les choisissant de manière pertinente pour répondre à la question posée.
Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses à la question qui précède dans le cas de données plus anciennes :
Troisième question : parmi les départements où il y a eu des secours en mer, quels sont ceux où il n'y a pas eu de fausse alerte ?
Quatrième question : quel est le nombre total d'interventions pour "secours à victime" sur toute la France ?
Vous pouvez utiliser la fonction SOMME
du tableur.
Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :
Quelle la moyenne du nombre d'interventions pour accident de circulation ?
Vous pouvez utiliser la fonction MOYENNE
du tableur.
Cinquième question : quel est le nombre de départements ayant un nombre d'interventions inférieur à cette moyenne ?
Sixième question : parmi les départements de notre grande région, quels sont ceux où il y a eu plus de feux de locaux industriels que dans la Marne ?
Voici une vidéo où vous trouverez des explications quant aux démarches à suivre et aux réponses aux questions qui précèdent dans le cas de données plus anciennes :
Retourner sur le site visité lors de la partie 2. : lien direct
Y télécharger la table de données nommée df_matches.csv.
À l'aide de ce fichier, vous pourrez répondre aux question suivantes :
Déterminer le nombre de matches disputés par l'équipe de France en coupe du monde.
Déterminer le nombre de buts marqués en moyenne par l'équipe de France.
Vous pouvez utiliser la fonction MOYENNE
du tableur.
Déterminer le nombre de buts encaissés par l'équipe de France durant l'année 1958.
Vous pouvez utiliser la fonction SOMME
du tableur.
Déterminer le nombre de match nul obtenu par l'équipe de France contre l'équipe de Suisse.
Comparer des valeurs des descripteurs X5, score_france et score adversaire afin de repérer au moins une erreur dans la saisie des données.
Donner les années des 9 matches de l'équipe de France où la France à gagner avec le plus grand nombre de buts d'après ce document.
Enquête policière
Une personne vient d’être reversée par une voiture !
Un témoin a vu que le conducteur est un homme blond ayant une voiture de marque Renault de couleur métallisé.
À l’aide des bases de données fournies, déterminer qui est le propriétaire (nom et prénom) de la voiture incriminée dans l’accident.
Pour menez à bien cette enquête, vous pouvez télécharger ce document puis l'ouvrir grâce au logiciel libre LibreOffice.
Ce document contient trois feuilles de valeurs :
La première, s'appelant voiture
, contient un ensemble de voitures ainsi que le numéro de sécurité social du
propriétaire,
La deuxième, s'appelant personne
, contient un ensemble d'individus,
La troisième, s'appelant cheveu
, contient l'ensemble des références des couleurs de cheveux.
Veuillez saisir le nom et le prénom de la personne que vous incriminez pour cet accident :
Saisir le nom de la personne : |
|
Saisir le prénom de la personne : |
|
Il est possible d'effectuer un traitement (recherche, tri, calcul) des données structurées en tables. Un tableur permet de faire des traitements basiques. Pour des problèmes plus compliqués des langages informatiques existent.
Chaque logiciel a sa manière propre d’encoder les informations, c'est-à-dire de traduire l'information en une succession de
0 et 1. Cette manière s'appelle le format des données.
Certaines manières d’encodage ne sont lisibles que par le logiciel lui-même.
D'autres sont lus par d’autres logiciels du même type, puis quelques formats de fichiers
sont lus par tous les logiciels de la famille.
On appelle interopérabilité la possibilité d'échanger des données entre différents logiciels.
On appelle format ouvert un format de fichier dont les spécifications techniques ne sont pas encombrées d'entraves techniques ou légales à son exploitation et ce dans quel que logiciel que ce soit.
On appelle format fermé un format de fichier tout format ne satisfaisant pas à ces exigences.
On reconnaît un format de fichier à son extension, c'est-à-dire le mot de quelques lettres se trouvant après le ".".
Dans document.pdf
, l'extension est pdf
. Cette extension correspond à
un document texte non modifiable dont le format est ouvert : il peut être lu par n'importe quel
logiciel lisant ce type d'extension sans risque de perte ou de modification de données.
Dans document.doc
, l'extension est doc
. Cette extension correspond à
un document texte modifiable dont le format est fermé : il faut posséder une licence du logiciel Word
pour pouvoir être certain de pouvoir lire et modifier le contenu sans perte ou modification de données.
Télécharger ce dossier compressé puis décompresser son contenu dans un répertoire de votre ordinateur.
Faire apparaître si besoin les extensions des fichiers du répertoire décompressé.
Si besoin, vous pouvez visionner cette vidéo pour découvrir comment faire apparaître automatiquement les extensions sur votre ordinateur :
En ouvrant les différents documents, recopier et compléter le tableau suivant :
extension du fichier | domaine d'application(texte modifiable, image, son, tableur, Web) | format ouvert ? |
---|---|---|
docx | ||
html | ||
jpg | ||
mkv | ||
mp3 | ||
mp4 | ||
ods | ||
odt | ||
ogg | ||
png | ||
txt | ||
xlsx |
Les formats ouverts sont à préférer.
Un format de fichier est la façon dont les données sont codées. Le format de fichier désigne la nature d'un fichier et donc le logiciel qui l'a créé, identifiable par son extension à trois ou quatre lettres.
Les formats ouverts, c'est à dire ceux dont les spécifications techniques sont publiques, sont plutôt à privilégier afin de favoriser l'interopérabilité, c'est à dire la possibilité d'échanger des données entre différents logiciels.
Regarder cette vidéo de 2019 réalisée par Le temps un des journaux suisses de référence puis répondre aux questions suivantes :
Qu'est-ce qu'un data center ou centre de données ?
Quelles sont les deux principales raisons de la consommation électrique de ces centres de données ?
Quelle est la consommation électrique, en térawattheure par an, estimée en 2018 pour l'ensemble des centre de données mondiaux ?
Comparer à la consommation de la France en 2018 qui fut de 475 térawattheure selon
EDF.
En juillet 2024, aa Conférence de Nations Unis pour le Commerce Et le Développement (la CNUCED),
a publié un rapport sur les différentes pollutions engendrées par les secteurs du numérique.
En particulier, (cf. la page xxii de ce rapport) précise :
According to IEA, worldwide, electricity for data centres
amounted to about 460 TWh in 2022, a figure that could more than double to 1,000 TWh by
2026. By way of comparison, total electricity consumption in France was about 459 TWh in 2022.
Que pensez-vous de la phrase "Si Internet était un pays, il serait le troisième plus gros consommateur mondial d'électricité derrière la Chine et les États-Unis" ?
Quelles mesures, à votre niveau, permettent de réduire votre empreinte carbone ?
Les différents
auteurs mettent l'ensemble du site à disposition selon les termes de la licence Creative
Commons Attribution - Pas d’Utilisation Commerciale - Partage dans les Mêmes Conditions 4.0
International