Les données structurées
Numérique et sciences informatiques
1930
Utilisation de cartes perforées en papier.
1956
Invention du disque dur.
1960
Premières bases de données.
1979
Premier tableur Visicalc
1986
Invention du Langage SQL.
Une des utilisations principales de l’informatique de nos jours est le traitement de données dans des domaines très variés : un site de commerce en ligne peut avoir à gérer des bases données pour des dizaines de milliers (voire plus) d’articles en vente, de clients, de commandes, un hopital doit pouvoir accéder efficacement à tous les détails de traitements de ses patients, etc et représentent des informations très diverses : textes, images, sons, mesures physiques, sommes d’argent, etc.
Structuration des données :
Une donnée est une valeur décrivant un objet. Par exemple, le numéro de téléphone d’un contact est une
donnée. Plusieurs descripteurs peuvent être utiles pour décrire un objet. Par exemple, pour caractériser un
contact : nom, prénom, adresse, numéro de téléphone).
Une collection regroupe des objets partageant les mêmes descripteurs (par exemple, la collection des
contacts d’un carnet d’adresses).
Une base de données regroupe plusieurs collections de données reliées entre elles. Par exemple, la base de
données d’une bibliothèque conserve les données sur les livres, les abonnés et les emprunts effectués.
Comme sur papier, on utilise souvent des tableaux pour organiser les
données numériques en colonnes et en lignes. En informatique, on
appelle table, un tableau dans lequel la première ligne sert à décrire la
forme des lignes suivantes et on appelle nom de champ (ou descripteur)
l’intitulé qui sert à décrire la nature des informations notées dans les
colonnes.
Stockage des données :
- Format : Pour mémoriser les tables dans un ordinateur, on les stocke dans des fichiers à différents formats
dont le rôle est de préciser comment sont organisées les différentes lignes et colonnes.
Plusieurs formats sont couramment utilisés parmi lesquels :
- Le format CSV (Comma Separated Values) dans lequel chaque ligne contient des valeurs séparées par des symboles de ponctuations. La première ligne contenant les noms des champs.
- Le format ODS (Open Document Spreadsheet), utilisé par les logiciels tableur (du type : Excel) .
- Le format JSON (JavaScript Object Notation), format de données textuelles en paires de nom/valeur.
- Métadonnées : À tout fichier sont associées des métadonnées qui permettent d’en décrire le contenu. Ces métadonnées varient selon le type de fichier (date et coordonnées de géolocalisation d’une photographie, auteur et titre d’un fichier texte, etc.)
- Stockage : Les fichiers de données sont stockés sur des supports de stockage : internes (disque dur ou SSD) ou externes (disque, clé USB), locaux ou distants (cloud). Aujourd’hui, des centres de données (Data centers) hébergent un nombre toujours croissants de données mais posent des problèmes écologiques : consommation d’énergie en hausse pour fonctionnement des serveurs et des climatisations nécessaires.
- Propriétés des données : Certaines des données sont dites ouvertes (OpenData) et permettent des usages libres. Mais on assiste aussi au développement d’un marché de collecte et de vente de données par des entreprises spécialisées, parfois sans informer les usagers. La France a donc choisi de mettre en place un cadre juridique permettant de protéger les usagers : le règlement général sur la protection des données (RGPD).
Vous trouverez un complément d'information sur cette page : Repères historiques
Traitement des données :
- Les logiciels tableur sont des outils pour traiter des données organisées en colonnes et en lignes. Ils
permettent de :
- trier des données d’une table (modifier l’ordre des lignes selon un descripteur choisi),
- filtrer des données d’une table (sélectionner les données contenant une information particulière),
- effectuer des calculs,
- mettre en forme des données d’une table pour une meilleure visualisation (représentation graphiquement des données).
- Pour effectuer un traitement particulier, ou pour l’automatiser, on peut aussi la programmer. Python est un langage de programmation adapté au traitement de données.
- Aujourd’hui les algorithmes sont capables de traiter un grand nombre de données. L’exploitation de ces données massives (Big Data) permettent d’ouvrir des horizons différents dans le domaine des sciences, de la santé, de l’économie mais posent aussi question sur les impacts relatifs à la démocratie et à la protection des libertés individuelles.
Impact sur les pratiques humaines :
- L’évolution des capacités de stockage, de traitement et de diffusion des données fait qu’on assiste
aujourd’hui à un phénomène de surabondance des données et au développement de nouveaux algorithmes
capables de les exploiter.
Salle de serveurs - Certaines de ces données sont dites ouvertes (OpenData), leurs producteurs considérant qu’il s’agit d’un bien commun. Mais on assiste aussi au développement d’un marché de la donnée où des entreprises collectent et revendent des données sans transparence pour les usagers. D’où l’importance d’un cadre juridique permettant de protéger les usagers, préoccupation à laquelle répond le règlement général sur la protection des données (RGPD).
- Les centres de données (datacenter) stockent des serveurs mettant à disposition les données et des applications les exploitant. Leur fonctionnement nécessite des ressources (en eau pour le refroidissement des machines, en électricité pour leur fonctionnement, en métaux rares pour leur fabrication) et génère de la pollution (manipulation de substances dangereuses lors de la fabrication, de la destruction ou du recyclage). De ce fait, les usages numériques doivent être pensés de façon à limiter la transformation des écosystèmes (notamment le réchauffement climatique) et à protéger la santé humaine.
Entraînement :
Créer une fiche de cours avec les définitions suivantes :
- Donnée,
- CNIL,
- RGPD,
- Open Data,
- Donnée personnelle,
- Collection de données,
- Base de données
- Données sructurées,
- Descripteur,
- Typage des descripteurs,
- Objet,
- Test de cohérence d'une tabae,
- Trier une table,
- Format,
- Algorithmes,
- Metadonnées
- Data center,
- Cloud,
- Synchronisation
- Fusionner des tables,
Vous pourrez vous aider des cours SNT de seconde.