Les données ouvertes

Les données ouvertes–Nous avons effleuré le concept des données liées dans le cadre de notre réflexion sur les divers leviers de la découvrabilité. Pour cette troisième rubrique, nous étudierons plus en profondeur l’idée d’ouvrir l’accès aux données. Il s’agit d’un concept qui gagne en importance dans les milieux gouvernementaux et universitaires, alors que sont formulées de nouvelles exigences en lien avec la transparence au sein des gouvernements (voir le portail du gouvernement canadien) et l’accessibilité des résultats de la recherche financée par des fonds publics. Qu’est-ce que cela implique? Qu’est-ce que les données ouvertes permettent aux centres d’artistes autogérés d’accomplir?

 

20 février 2020

Isabelle L’Heureux, agente de développement culturel numérique, CQAM, RAIQ, RCAAQ

 

Définir le concept de donnée ouverte

Les données ouvertes sont des données structurées, lisibles par machine et libres de droits, qui sont rendues accessibles et qui sont réutilisables. Elles peuvent être de nature statistique ou  géomatique, elles peuvent correspondre à des coordonnées, à des listes, à des plans, à de l’information sur les éléments d’une collection, à des résultats de recherche, etc.

Quelques caractéristiques définissent les données ouvertes. Celles-ci doivent être accessibles, c’est-à-dire mises à la disposition de tous sans frais, intégralement et dans un format idéalement ouvert, standard et modifiable. Le format CSV (pour « comma separated value »), par exemple, répond à ces critères et peut être utilisé pour favoriser l’accès à un ensemble de données. Les données ouvertes doivent également être publiées dans des conditions permettant leur réutilisation et facilitant leur croisement avec d’autres ensembles de données. Finalement, les données ouvertes encouragent une participation universelle, ce qui signifie qu’elles ne doivent être soumises à aucune restriction d’utilisation, pas même à une restriction d’usage commercial.

En contexte culturel, on peut imaginer plusieurs types d’ensembles de données ouvertes. Certaines organisations vont publier des données relatives aux événements qu’elles organisent (listes de spectacles offerts dans le cadre d’un festival, statistiques de fréquentation, etc.) ou aux éléments qui composent leurs collections (tableaux ou graphes — nous reviendrons sur la notion de graphe dans la prochaine rubrique — représentant les titres, les créatrices et les créateurs, la date de création, les matériaux, etc.).

Il est intéressant de souligner que les ensembles de données ouvertes peuvent se situer à différents endroits dans un spectre d’ouverture assez large. Ainsi, les initiatives n’ont pas toutes à emprunter le même niveau de complexité. Tim Berners-Lee, inventeur du Web, a schématisé les différents degrés d’ouverture que peuvent avoir les données sur Internet. Son modèle comprend cinq degrés. Le premier correspond à une ouverture minimale, le plus souvent très simple à mettre en œuvre, et le cinquième et dernier correspond à une ouverture maximale, dont la réalisation peut être plus complexe.

🌟 Le premier niveau est atteint lorsqu’un document est publié sur le Web avec une licence ouverte. Il peut s’agir, par exemple, d’un texte en format PDF publié avec la licence Creative Commons Attribution.

🌟🌟 Le second niveau correspond à la publication sur le Web d’un document structuré, comme un tableau Excel.

🌟🌟🌟 Le niveau trois implique que l’information structurée soit publiée dans un format ouvert et non exclusif (format CSV, par exemple).

🌟🌟🌟🌟 Au quatrième niveau, chaque élément compris dans l’ensemble de données (objet, personne, relation) est identifié par un URI, soit un identifiant uniforme de ressource, ce qui lui permet d’avoir une identité univoque et pérenne, et d’être référencée de la même manière partout sur le Web. À titre d’exemple, l’ISBN associé aux publications peut jouer le rôle d’URI sur le Web.

🌟🌟🌟🌟🌟 Le cinquième niveau est atteint lorsque les données ouvertes sont liées à d’autres données ouvertes, ce qui en fait des données ouvertes liées. On associe plusieurs concepts à ce dernier degré : Web des données, Web sémantique et Web 3.0 (pour certains).

Quelques avantages des données ouvertes

Le fait d’ouvrir ses données comporte plusieurs avantages pour les collectivités et les particuliers.

  • L’ouverture des données, notamment au sein des gouvernements, peut indiquer une volonté de transparence;
  • L’accès à l’information/aux connaissances et la possibilité de réutiliser ce savoir soutiennent l’innovation;
  • Mettre les données à disposition de tous bénéficie également au monde de la recherche;
  • Dans certains contextes, cela permet aussi la prise de décision éclairée.

Lorsque le Conseil des arts du Canada donne accès aux données statistiques sur les bénéficiaires de ses subventions, la communauté artistique est en mesure d’avoir un portrait chiffré du financement de la création au pays. Il est ensuite possible de réfléchir, d’investiguer, de dégager des tendances, de travailler à se situer dans ce portrait et de formuler des avis éclairés. Ouvrir ses données peut dès lors signifier ouvrir le dialogue. Il s’agit d’une pratique associée à des valeurs d’engagement, de partage, de collaboration, de création et de diffusion des connaissances.

Considérations techniques

Comme indiqué plus haut, l’ouverture des données peut être modulée en fonction du contexte et des moyens techniques dont on dispose. Force est d’admettre qu’on ne retrouve pas de spécialistes du Web sémantique dans les équipes de tous les organismes culturels canadiens. Le milieu de la culture est composé de professionnel(le)s passionné(e)s et compétent(e)s, qui travaillent pour la plupart sur de multiples fronts à la fois en faisant quotidiennement des miracles avec le peu de ressources disponibles. Il ne sera donc pas pertinent pour toutes et tous de s’investir dans des projets d’ouverture de données complexes. Il semble néanmoins utile de rappeler que certains projets d’ouverture de données peuvent correspondre à la mission ou aux valeurs d’un organisme, être simples et rapides à mettre en œuvre et générer des retombées avantageuses, voire surprenantes. Tout organisme doté d’un site Web pourrait, par exemple, y publier en licence libre des données, qu’elles soient sous forme de texte ou de tableau, en format PDF, HTML, CSV ou autre (une, deux ou trois étoiles dans le schéma de Berners-Lee). On peut aussi penser aux initiatives qui s’appuient sur des infrastructures existantes, comme Wikidata ou des portails de données ouvertes comme Données Québec.

C’est surtout dans le cadre de projets impliquant l’attribution d’URI et la liaison de plusieurs ensembles de données (quatre et cinq étoiles dans le schéma de Berners-Lee) que les compétences techniques requises sont plus spécialisées. Il est alors préférable d’aller chercher l’expertise pertinente, souvent à l’extérieur de l’organisation, afin d’évaluer avec précision les ressources (temps, argent, main-d’œuvre) nécessaires et de réunir les conditions gagnantes pour la bonne réalisation du projet.

Dans beaucoup de cas, il est utile de prévoir les besoins en matière de mise à jour ou de création de versions. L’ensemble de données publié restera-t-il inchangé dans le temps? Devra-t-il être révisé annuellement? Sera-t-il remplacé par un nouvel ensemble après une période déterminée? Selon le type de données et les objectifs de l’organisation qui publie celles-ci, les réponses à ces questions varieront, tout comme les processus à utiliser.

Considérations légales

Les questions légales sont importantes en ce qui a trait à l’ouverture de données. En effet, il est essentiel de s’assurer que les données qui seront publiées sous licences libres ne sont assujetties à aucune restriction préalable d’utilisation ou de diffusion. Il est donc préférable pour un organisme d’être propriétaire des données auxquelles il souhaite donner accès, ou encore que celles-ci constituent des faits (coordonnées de lieux d’exposition, titres d’œuvres, etc.) et soient donc pas protégées par le droit d’auteur canadien. Afin de garantir qu’aucune loi ne sera enfreinte par la mise en circulation d’un ensemble de données, il est recommandé de demander l’avis de professionnels compétents.

Ainsi, pour l’initiative Savoirs communs du cinéma, la Cinémathèque québécoise a fait appel à Olivier Charbonneau, bibliothécaire-chercheur et docteur en droit, afin de préparer un rapport préliminaire sur les Enjeux en droit d’auteur de la diffusion ouverte de métadonnées culturelles. Ce document prend en compte un contexte spécifique, mais peut être utile pour divers organismes culturels canadiens.

Pistes d’action

Le concept de données ouvertes permet d’imaginer de nouvelles manières de valoriser l’information et les contenus produits par une organisation. Dans cette démarche, il est néanmoins important d’évaluer les objectifs, les coûts impliqués et les expertises nécessaires pour mener cette démarche à bien. S’agit-il simplement d’exporter en format CSV les données d’une base existante et de les publier sur un site Web? S’agit-il d’un projet pour lequel les données devront être compilées par un humain ou un système? Si le projet demande un travail de création, comment seront rémunérés les contributrices et des contributeurs? L’ouverture est-elle cohérente avec le mandat de l’organisation, ses moyens, ses ressources?

À titre d’exemple, le RCAAQ s’initie à l’ouverture des données par la publication de l’ensemble des coordonnées de ses membres, extraites du répertoire de l’ARCA, sur le portail Données Québec. Il s’agit d’un projet qui demande un investissement minimal en temps et en ressources, et qui s’inscrit dans les activités de promotion des centres d’artistes membres du regroupement. En publiant ouvertement et de manière structurée les coordonnées des centres d’artistes, les points d’accès à ces renseignements sont multipliés et leur réutilisation est facilitée. Il n’est pas dit que ce jeu de données sera immédiatement et abondamment utilisé, mais il reste que sa disponibilité en ligne permet d’imaginer différentes manières d’intégrer les centres d’artistes au Web des données.

La réflexion sur le thème des données ouvertes pourrait aussi nous mener à considérer les licences libres pour les contenus textuels produits par un centre (infolettres, publications). Si les valeurs, la propriété intellectuelle et le modèle d’affaires sont respectés, ces publications pourraient être diffusées librement et en format non exclusif (PDF, HTML) sur le site Web d’un centre ou sur le dépôt e-artexte. Felicity Tayler explore cette perspective avec rigueur et esprit critique dans la rubrique  Situer l’édition en art dans la culture numérique  du Petit Gris publié par l’ARCA.

On pourrait également penser, en misant sur le concept de données ouvertes, une manière de valoriser un ensemble d’archives, d’en extraire certains éléments pour en faciliter l’accès (dresser la liste des expositions organisées par un centre depuis sa création en y intégrant les commissaires et artistes impliqués, observer l’évolution du membrariat d’un organisme au fil des années). Activating the Archive, de la Grunt Gallery, est un projet d’envergure inspirant qui s’inscrit sans aucun doute dans la logique de l’ouverture des données.

Finalement, pour les initiatives ambitieuses, il peut être avantageux de s’associer à des partenaires universitaires. Il est possible de trouver de précieux alliés dans les départements et programmes de sciences de l’information, d’histoire de l’art et d’études culturelles, et auprès des chercheuses et chercheurs en humanités numériques.

Nous espérons que cette rubrique affermira la compréhension collective du concept de données ouvertes et engendrera des initiatives pertinentes et audacieuses dans la communauté des centres d’artistes autogérés canadiens. Dans la prochaine rubrique, nous poursuivrons notre exploration des nouveaux modes d’organisation et de l’accès à l’information en contexte numérique en nous penchant sur l’énigmatique concept de graphe de connaissance.

 

—> Rubriques précédentes :

La chaîne de blocs, c’est quoi?

Les leviers de la découvrabilité.

—> Prochaine rubrique : Modélisation de données/Graphe de connaissance [lien à venir].