Culture de la donnée et données de la culture (IIe partie)

Institut d’Études Politiques d’Aix-en-Provence
Mastère Politique culturelle et mécénat

Charles Nepote

2025-11-28

Vos recherches

1. L’interview de la donnée

Qui a choisi un jeux de données ?

Prêt(e) pour l’interview ?

2. Les data et moi

Un retour d’expérience personnel sur l’utilisation des données dans un projet culturel (ou dans un autre projet).

3. Les données qui transforment le monde de la culture

Quelques exemples du numérique qui bouleverse le monde de la culture :

  • Projet Gutenberg (1971)
  • le web : en 1995, le monde de la culture y est déjà représenté avec le site du Louvre
  • Gallica (1997)
  • Wikipédia (2001)
  • Google Books (2004)
  • OpenStreetMap (2004)
  • Wikimedia Commons (2004)
  • Europeana (2008)

3. Et plus spécifiquement les données

Quels exemples de données qui ont transformé le monde de la culture ?

Vos exemples ?

Des exemples emblématiques : les précurseurs

Quels exemples où les données ont transformé les pratiques culturelles, la diffusion de la culture, la conservation du patrimoine culturel ?

  • Le dépôt légal (1537) : obligation de déposer des exemplaires de toute œuvre imprimée à la BnF
    • Source principale du Catalogue général de la Bibliothèque nationale de France (BnF), ~1987.
    • Devient numérique en 2006 avec le dépôt légal du web
  • Base Joconde (1975) : inventaire des collections des musées de France
    • Mise en ligne en 1992 (minitel) puis 1995 (internet). 535 000 fiches en 2025.
  • Base Mérimée (1978) : inventaire du patrimoine architectural français
    • Mise en ligne en 1995. 330 000 fiches en 2025.
  • Base Palissy (1989) : inventaire du patrimoine mobilier français
    • Mise en ligne en 1998. 312 000 fiches en 2025.
  • Base Mémoire (1995) : inventaire du patrimoine photographique français
    • Mise en ligne en 1996. 2 806 000 fiches en 2025.
  • Base Enluminures (1995) : inventaire des manuscrits enluminés français
    • Mise en ligne en 1998. 76 000 fiches en 2025.
  • Base Mistral (1996) : inventaire des archives et manuscrits français
    • Mise en ligne en 1998. 1 200 000 fiches en 2025.
  • POP : Plateforme Ouverte du Patrimoine (2018) : réunion de Joconde, Mérimée, Palissy, Mémoire, Enluminures.
    • Mise en ligne en 2018. Plus de 4 millions de fiches en 2025.

POP : Plateforme Ouverte du Patrimoine

POP : Plateforme Ouverte du Patrimoine

Des exemples emblématiques : l’ère des marchands et des citoyens

  • Amazon (~1997) : recommandations basées sur les données : “si vous avez aimé ça, vous aimerez peut-être ça…”
  • Netflix (1997) : recommandations basées sur les données de visionnage
  • MusicBrainz (2000) : base de données musicale collaborative
  • Mémoire des Hommes (2003) : numérisation et mise en ligne des archives de la Première Guerre mondiale
    • “Mon arrière-grand-oncle y est” !
  • Wikipedia (~2003) : née en 2001, l’encyclopédie collaborative inaugure vers 2003 ses premières “infobox” structurées, ancêtres des données culturelles structurées
  • Spotify (2006) : révolution dans la consommation de musique avec des recommandations basées sur les données d’écoute
  • DBpedia (2007) : extraction automatique structurée des données de Wikipédia
  • Wikidata (2012) : base de connaissances libre et collaborative
  • Mémoire des Hommes (2013) : indexation collaborative des fiches des “morts pour la France” de la Première Guerre mondiale
  • TikTok (2016) : révolution dans la consommation de vidéos courtes avec un algorithme de recommandation très puissant basé sur les données d’interaction des utilisateurs

Donnée et culture

Les données de la culture : de quoi parle-t-on ?

[Atelier] Quel outil pour répondre à cette question ?

Réponse : le champ lexical de la donnée pour identifier tous les types de données qui peuvent intéresser la culture.

Champ lexical
ensemble de mots analogiques (qui ont trait à la même notion). (Source : Wiktionnaire.)

Les données de la culture : de quoi parle-t-on ?

[Atelier] Quel outil pour répondre à cette question ?

Où se cachent les données ? : micro-méthodologie de recensement expresse des données produites et/ou utilisées par une organisation, un groupe ou une personne, publiques ou privées. Il propose deux étapes de travail et une check-list prête à l’emploi.

Se base sur le champ lexical de la donnée

Agenda, Aides, Annuaire, Base, Base de données, Budget, Catalogue, Chiffres, Classement, Codes, Compte, Consommation, Démographie, Dictionnaire, Document (photo), Document (rapports, études), Document (video), Données, Données cartographiques (POI), Données cartographiques (surface), Données cartographiques (vecteurs), Effectifs, Enregistrement, Éphéméride (?), État, état des lieux, …, Financements, Flux, Généalogie, Historique ou Journal (log) de capteur, Horaire, Index, Indice, Inventaire, Liste, Montants, Parcs, Prix, Publication, Pyramide des âges, Recensement, Registre, Relevé instantané (capteur), Relevé périodique automatique (capteur), Relevé périodique manuel, Relevé manuel, Référentiel, Référentiel de codification, Répartitions, Répertoire, Résultats, Résultat de consultation, Schéma, Statistiques, Subventions, Table, Tableau, Tableau de bord, de gestion, Taux.

Termes plus spécifiques à des données géographiques : Arrêts, Bornes, Cadastre, Carte, Cartographie, Contours, Délimitation, Emprise, Géolocalisation, Hotspots, Îlots, Liaisons, Limites, Localisation, Parcours, Plan, Plan cadastral, Périmètre, PLU, Points, Points d’intérêt, Points d’apports volontaires, Repères, Sites, Stations, Traces, Tracés, Zonage, Zones.

(Liste à cocher dans le document.)

Une culture de la donnée dans le monde de la culture ?

  • Un monde naturellement rétif à la mesure, au contrôle, au numérique, au monde froid des chiffres ?

  • En réalité un monde familier du temps long, de la conservation, de l’archivage, de la transmission, et qui a institutionnalisé le contrôle (cas des inventaires, des récollements par exemple).

  • Une très longue expérience de la donnée.

  • Mais une donnée encore vécue comme un trésor à protéger plus que comme un levier d’innovation et de transformation.

  • Des millions de données cultureslles conservées.

  • Mais parfois encore entre les mains de quelques initiés.

Bonne nouvelle : la situation évolue rapidement !

Une entrée progressive à travers data.gouv.fr

  • https://data.gouv.fr : le portail français des données ouvertes
  • Page “Les données relatives à la culture” : https://www.data.gouv.fr/pages/donnees_culture
  • Moteur de recherche : https://www.data.gouv.fr/datasets/search/?q=culture
    • 1114 jeux de données (novembre 2025)
    • 178 jeux du ministère de la Culture
    • 43 de la Région Île-de-France
    • etc.
  • Mais 2862 jeux de données si l’on cherche le mot “culture” dans le catalogue :
    • 284 jeux de d’Occitanie Pyrénées en Intelligence Géomatique
    • 234 du Ministère de la Culture
    • 156 de la Région Île-de-France
    • 108 de la Ressourceries datalocale
    • 86 du Conseil départemental de la Haute-Garonne
    • 74 de la Région Occitanie / Pyérénées-Méditerranée
    • 72 du Grand Avignon
    • etc.

data.gouv.fr : quelques exemples

  • Liste des musées de France
  • Fréquentation des monuments historiques
  • Catalogue des œuvres numérisées des bibliothèques publiques
  • Statistiques de fréquentation des festivals culturels
  • Données géolocalisées des sites patrimoniaux
  • Répertoire des événements culturels en France
  • Données sur les subventions culturelles accordées par les collectivités

Open GLAM (Galleries, Libraries, Archives, Museums)

Open GLAM : qu’est-ce que galmour ?

Open GLAM (Galleries, Libraries, Archives, Museums)

  • https://openglam.org/
  • Mouvement international visant à encourager les institutions culturelles à ouvrir leurs collections et données au public.
  • Promouvoir l’accès libre aux données culturelles pour favoriser la recherche, l’éducation et la participation citoyenne.
  • Exemples d’initiatives Open GLAM :
    • Europeana
    • Digital Public Library of America (DPLA)
    • Wikimedia Commons
    • etc.

Découvrons comment la culture de la donnée transforme le monde de la culture à travers quelques exemples emblématiques.

Les poids-lourds de la donnée culturelle

La BNF, pionnier et héraut de la donnée culturelle

Bibliothéconomie = appétence aux données.

  • La BNF est un acteur majeur de la donnée culturelle en France et dans le monde.
  • Une veille maison, dont les racines plongent au XIVe siècle avec la création de la Bibliothèque royale en 1368.
  • Le dépôt légal en 1537 : obligation de déposer des exemplaires de toute œuvre imprimée à la BnF.
  • La nécessité de gérer des collections immenses, variées et en constante augmentation (dépôt légal du web depuis 2006).
  • Depuis les années 1970, la BNF a développé un énorme système d’informations pour gérer ses collections et ses services.
  • data.bnf.fr (2007) : portail de données bibliographiques en RDF.
  • En 2013, la BNF rejoint le projet Linked Open Data (LOD) et publie ses données sous licence ouverte.
  • En 2017, la BNF lance son initiative “Open BnF Data” pour encourager la réutilisation de ses données.
  • En 2020, la BNF publie un ensemble de données sur Gallica, sa bibliothèque numérique.
  • En 2021, la BNF collabore avec Wikidata pour enrichir les données culturelles ouvertes.
  • En 2023, la BNF annonce un plan stratégique pour renforcer son engagement envers les données ouvertes et la culture numérique.

N’en jetez plus !

Un ministère qui donne l’exemple (2016-…)

Portail Open Data du Ministère de la Culture

Mémoires des Hommes (1)

https://www.memoiredeshommes.defense.gouv.fr

Mémoire des Hommes (2)

  • 2003 : base des “morts pour la France” de la Première Guerre mondiale : permet aux familles et chercheurs d’accéder aux informations sur les soldats décédés. Il s’agit tout d’abord des photos des photographies des fiches individuelles, qui peuvent être recherchées à l’aide de quelques champs : prénom, nom, date et lieu de naissance.
  • En 2013, en préparation du centenaire de la guerre, les fiches des morts pour la France de la Première Guerre mondiale sont ouvertes à l’indexation collaborative.
    • À la base d’origine, des bénévoles ajoutent le grade, l’unité au moment du décès, le recrutement, le lieu de décès, la cause du décès, etc.
    • 1 422 977 fiches sont indexées, juqu’à la fin de l’indexation en 2018.
    • Engouement incroyable du public : plus de 2500 annotateurs
    • Deux initiatives participent à l’opération : “Adoptez un poilu” (AD des Yvelines) et “1 jour 1 poilu”.
  • Cette première expérience réussie permet d’indexer de la même manière de nombreuses autres bases (historique) :
    • 2020 : les registres de contrôles de troupes de l’Ancien Régime
    • 2021 : l’intégration des 850 000 noms de grognards issus de l’indexation de Geneanet
    • 2023 : mise en ligne des cartes de déportés et internés politiques ou résistants de la Première Guerre mondiale
    • 2024 : fin de l’indexation collaborative des fiches des internés et déportés de la Grande Guerre.
    • 2025 : Mise en ligne de la nouvelle version du site avec l’ouverture à l’indexation collaborative des prisonniers de guerre 1939-1945 et des 3 registres du camp de Mauthausen.

Les collections du Louvre (1)

Les collections du Louvre

Les collections du Louvre (2)

  • https://collections.louvre.fr/
  • 500 000 œuvres référencées en ligne
  • Une publication soignée qui coche toutes les cases de la donnée culturelle de qualité :
    • Données téléchargeables en RDF, JSON, CSV
    • URL unique basée sur le protocole d’identification ARK pour chaque œuvre
    • Contenus textuels (et données ?) sous licence Ouverte “Etalab”

Une licence ? Kézako ? Le protocole ARK ? Céqui ?

Parenthèse 1 : les licenses d’usages des données culturelles

  • Licence Ouverte “Etalab” :
    • Permet une réutilisation libre, y compris commerciale, des données
    • Licence très permissive : elle n’impose que la mention de la source des données
  • Licence ODBL :
    • Utilisée par OpenStreetMap, Open Food Facts, etc.
    • Permet une réutilisation libre, y compris commerciale, des données
    • Implique le partage à l’identique des données dérivées (logique de pôt commun)
  • Les Licence Creative Commons (CC) :
    • Version 4.0 adaptée au données et au droit français
    • Plusieurs variantes, certaines permettent une réutilisation commerciale, d’autres non
    • Certaines imposent le partage à l’identique, d’autres non
    • Certaines interdisent les modifications, d’autres non

Pourquoi c’est important ? Sécurité juridique + facilite la réutilisation.

Signer des contrats ?

Parenthèse 2 : le protocole ARK pour identifier les ressources numériques

Le protocole d’identification ARK : il permet d’assigner des identifiants pérennes aux ressources numériques, facilitant ainsi leur gestion et leur accès à long terme, voire très long terme.

  • 1700 organisations dans le monde l’utilisent
  • Permet de créer des URL stables pour les ressources numériques
  • Structure de l’identifiant ARK : ark:/NAAN/Name[Qualifier][Version]
    • NAAN (Name Assigning Authority Number) : identifiant unique de l’organisation qui crée l’ARK
    • Name : identifiant unique de la ressource au sein de l’organisation
    • Qualifier (optionnel) : permet de spécifier une version ou une partie spécifique de la ressource
    • Version (optionnel) : permet de gérer les différentes versions de la ressource
  • Exemple d’ARK : ark:/12148/bpt6k107371t (BNF)

Parenthèse 2 : ARK (site web)

Le protocole ARK : https://arks.org/

Geneanet

  • https://www.geneanet.org
  • Entreprise privée fondée en France en 1996, Geneanet est une plateforme collaborative de généalogie qui permet aux utilisateurs de créer, partager et explorer des arbres généalogiques en ligne.
  • La généalogie, parent pauvre de l’histoire, parfois un peu méprisée dans les milieux académiques, est en réalité une discipline riche en données historiques et culturelles.
  • C’est surtout un hobby très populaire, avec des millions d’utilisateurs à travers le monde.
  • Geneanet héberge des milliards de données généalogiques, y compris des arbres généalogiques, des documents historiques, des photos, et des archives.
  • En 2020, Geneanet a lancé une initiative pour sauver les tombes historiques en France, en partenariat avec des associations locales et des bénévoles : https://www.geneanet.org/sauvons-nos-tombes/
  • Bien qu’initiative privée, Geneanet contribue de manière significative à la préservation et à la diffusion des données culturelles liées à la généalogie.

Wikipedia et ses infobox

Kraftwerk sur Wikipedia

Détail d’une infobox

  • Des données de base sur l’objet de chaque fiche
  • Des informations structurées sur des millions de sujets
  • Des données culturelles sur des milliers d’œuvres, artistes, lieux, événements, etc.
  • Des données réutilisables sous licence CC BY-SA
  • Des infobox standardisées facilitant l’extraction automatique des données
    • Permettent la naissance de projets dérivés (DBpedia, Wikidata, etc.)
    • Un point d’entrée majeur vers Wikidata

Kraftwerk : zoom sur l’infobox

DBpedia : l’extraction des données structurées de Wikipedia

DBpedia, un truc de nerds et de chercheurs

DBpedia : un projet de recherche académique

  • Lancé en 2007 par des chercheurs allemands
  • Extraction automatique des données structurées des infobox de Wikipédia
  • Transforme ces données en un format du web sémantique (RDF) – appelé aussi web des données
  • Permet des requêtes complexes sur les données de Wikipédia
  • Plus de 220 millions d’entités (personnes, lieux, œuvres, événements, concepts, etc.)
  • Utilisé dans de nombreux projets de recherche et applications

DBpedia au sein du LOD Cloud en 2007 (source Wikipedia : Linked Open Data )

Le Linked Open Data (LOD pour les intimes), en 2010

Le LInked Open Data Cloud en 2010 (source Wikipedia : Linked Open Data)

Le LOD Cloud en 2025 : plusieurs milliards d’entités

Le LOD Cloud en 2025

Wikidata, le web sémantique (presque) pour tous

Le Louvre sur Wikidata

Wikidata : un monstre sacré de la donnée contributive

  • une base de connaissances libre et collaborative lancée en 2012 par la Wikimedia Foundation
  • un succès planétaire pour une base de données : Octobre 2025, c’est 708 M de pages vues, 13 M de modifications, 14 K rédacteurs actifs
  • ~120 millions d’éléments, sans limite de sujets et de taille
  • massivement multilingue : labels, descriptions et alias
  • au format du web sémantique (RDF)
    • décrit des entités (personnes, lieux, œuvres d’art, événements, concepts, etc.) à l’aide de propriétés et de valeurs, sous forme de déclarations
    • ex : l’entité Louvre fait partie (propriété instance of) de l’entité art museum

Wikidata : zoom sur deux déclarations

Wikidata et la culture

  • interconnectée avec Wikipédia, Wikimedia Commons, et d’autres projets Wikimedia
  • énormément de données culturelles : 80% estimés (c’est quand même plus intéressant que des données sur les vis et les boulons)
  • utilisée par de nombreuses institutions culturelles pour structurer et partager leurs données
  • beaucoup d’ambition pour la culture :

Requête Wikidata : un exemple simple

Wikidata : zoom sur l’outil de requêtage

Requête Wikidata : un exemple un peu plus complexe

Wikidata : les kms linéaires des archives départementales (source : Julien Benedetti)

Les initiatives plus locales ou moins connues

(mais quand même super intéressantes)

Lamusée

Lamusée - Explorer les collections de musées par des étiquettes iconographiques

Inventaire des orgues

https://inventaire-des-orgues.fr/

Inventaire des orgues de France

Le Museum de Birmingham sur Zooniverse

Museum de Birmingham sur Zooniverse

Ce projet de science citoyenne permet aux bénévoles de transcrire les registres d’acquisition du musée de Birmingham. Les participants aident à numériser et rendre accessibles des archives historiques importantes, démontrant comment les données peuvent être collectées de manière collaborative pour préserver et valoriser le patrimoine culturel.

Les archives municipales de Lyon

Archives municipales de Lyon - Portail des archives

Les archives municipales de Lyon (2)

Retrouvez dès à présent :

  • les données en open data : fichier historique des voies lyonnaises (rues, places, ponts, etc.), listes alphabétiques des sépultures “remarquables”, des élèves de l’école des beaux-arts et des lettres de bourgeoisie, dossiers de carrière (cote 524W), indexation (liste des termes) des auteurs/personnes, collectivités, édifices et lieux dans la base de données des AML ;
  • des cartes interactives sur OpenStreetMap (fond de cartes) et uMap (cartes sur mesure) pour accéder géographiquement à certains fonds : plans parcellaires, lotissements, liens vers les permis de construire d’origine des quartiers de la Duchère, la Part-Dieu, Ménival, Mermoz et des stations de métro sur le territoire lyonnais ; carte historique des lieux de loisirs à Lyon, d’où est extraite la carte historique des cinémas de Lyon dans le Guide des sources sur les cinémas de Lyon.
  • les documents des AML sur Commons, la médiathèque de l’encyclopédie Wikipédia, ainsi que les pages sur le partenariat avec Wikimédia France, les éditathons, le label “Culture libre !” et d’autres participations.

Pas besoin d’être un ministère pour être très (open) GLAM !

Productions, outils, plateformes, techniques, technologies…

Les cartographies : zoom uMap

umap : https://umap.openstreetmap.fr

Umap : inventaire du patrimoine urbain

Umap - Inventaire du patrimoine urbain de la Ville de Cannes

Technos, normes, standards

Quelques technos qu’il faut connaître pour manipuler des données culturelles (non détaillées ici) :

  • IIIF : International Image Interoperability Framework, un standard pour la diffusion et la visualisation d’images haute résolution
  • JSON-LD : un format de données lié au web sémantique, basé sur JSON
  • RDF / sparql : Resource Description Framework, un modèle de données pour le web sémantique, et SPARQL, un langage de requête pour RDF
  • GeoJSON : un format de données géospatiales basé sur JSON
  • Protocole ARK : pour l’identification pérenne des ressources numériques
  • OAI-PMH, un protocole pour l’échange de métadonnées entre les institutions culturelles.

Ce qu’il faut retenir : la donnée culturelle est souvent complexe, hétérogène, et nécessite des outils et des standards spécifiques pour être manipulée efficacement.

Services

Des outils en libre accès pour manipuler des données culturelles :

  • Wikibase, un wikidata pour vous ou votre organisation
  • Nocodb, Airtable, des outils permettant de créer des bases de données relationnelles en ligne.
  • Recogito, un outil d’annotation collaborative de textes et de cartes
  • uMap, pour créer des cartes personnalisées basées sur les données de la communauté OpenStreetMap.
  • Transkribus, un outil de reconnaissance optique de caractères (OCR) pour les documents historiques manuscrits.
  • Omeka (outil et service), une plateforme de publication de collections numériques (qui gère OAI-PMH).

L’IA générative

L’IA pour explorer les données culturelles

  • à partir du jeu de data.gouv.fr, cartographie les musée qui ont fermé depuis 10 ans, avec des bulles de taille proportionnelle à la moyenne des visites sur 10 ans”.
  • Toutes les reprises de tel chanteur à partir de la base MusicBrainz…
  • Un excellent outil pour écrire des requêtes sur Wikidata

L’IA pour prototyper

  • Vibe coding : faire coder des choses sans connaissance technique ou presque
  • C’est très rapide
  • Ça marche à moitié ? Même pas mal !
  • Il y a des erreurs factuelles ? Même pas peur !

On est là pour prototyper, pas pour produire du code de production.

Quand les dataviz rencontrent la culture

Minard’s Map - Close Read

La physicalisation de données dans la culture

dataphys.org - Physicalisation de données

Synthèse

Quels usages de la donnée dans les institutions culturelles ?

Publics

  • embarquer vos publics là où ils sont (le grand espace numérique)
  • aller chercher vos publics par d’autres voies : carte, participation, enquête…
  • permettre à vos publics de s’approprier les contenus de l’institution en les produisants eux-mêmes
  • faire de vos publics des acteurs de la culture : co-création, co-construction, science citoyenne…

Contenus

  • porter le musée hors les murs (espace numérique)
  • créer de nouveaux contenus : expositions virtuelles, parcours thématiques, jeux, expériences immersives…
  • enrichir les oeuvres/les contenus existants : croisements, documentation, …
  • réaliser des analyses inédites sur les collections : datavisualisation, fouille de texte, IA…
  • réaliser des collectes massives que vous ne pourriez pas faire seuls : crowdsourcing, science citoyenne…

Et les institutions culturelles elles-mêmes ?

  • valoriser le patrimoine de l’institution (coeur de métier)
  • mettre l’institution en réseau
  • démultiplier l’action des personnels : chercheurs, responsables de collections ou de programmation…
  • innover dans les pratiques professionnelles : nouvelles compétences, nouveaux métiers…
  • repenser les modèles économiques : nouveaux services, nouvelles sources de revenus…
  • un public qui gagne en expertise, gagne en intérêt pour l’institution (notoriété, image, fidélisation, implication)
  • le retour ou l’arrivée de nouveaux publics

Références et ressources

Cette présentation est disponible en ligne : https://rn7.net/presentations/IEP.Aix/2025-11.CD-DC.part.2.html

Sources : https://codeberg.org/CharlesNepote/data-culture

Cette présentation est librement réutilisable selon les termes de la Licence Creative Commons Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0).

Auteur : Charles Nepote – @CharlesNepotecharles@nepote.org.

Ressources générales