Archivage & partage

L’UNIL, avec l’Université de Zurich, participe activement au projet SWISSUBase mené par le Centre de compétences suisse en sciences sociales (FORS), qui vise à fournir un dépôt de données généraliste, ouvert et pérenne, permettant de se conformer aux principes des données FAIR (FAIR Data Principles), soit des données qui soient Faciles à trouver, Accessibles, Interopérables et Réutilisables.

Ce dépôt institutionnel aura une approche disciplinaire forte, mais également généraliste. Il permettra un partage et un archivage des données à long terme et devrait être accessible au printemps 2021 pour la communauté des linguistes avant l'ouverture à d'autres disciplines.

Sauvegarde, stockage et sécurité : quelles différences ?

Un stockage sûr de vos données de rechcerche et des sauvegardes régulières sont essentiels pendant votre projet de recherche.

  • La sauvegarde (backup) consiste à créer des copies supplémentaires de vos données en cours. Elle est essentielle pour éviter le risque de perte de données par effacement accidentel, panne de disque dur, vol ou détérioration de l'équipement. Les fichiers stockés sur votre bureau ne sont pas automatiquement sauvegardés. Pour plus d'informations, voir le système de sauvegarde Crashplan de l'UNIL pour votre poste de travail.
  • Le stockage de données fait référence à l'endroit et à la façon dont vous conservez vos données. Il s'agit de :
    • sélectionner les formats de fichiers appropriés (par exemple, choisir entre des options telles que texte brut, texte riche ou des formats ouverts et non propriétaires) ;
    • sélectionner le support approprié pour le stockage physique des données (par exemple, disques durs, CD-Rom, stockage en réseau et serveurs, etc.).
  • La sécurité consiste à protéger vos données. Cela signifie de :
    • veiller à ce que les données ne soient pas perdues et à ce qu'elles ne soient pas corrompues ;
    • contrôler l'accès à vos données comme il convient. Cela peut se faire de diverses façons, y compris la sécurité physique (p. ex., le stockage des données dans une pièce verrouillée), la protection par mot de passe des fichiers et le chiffrement.

Comment archiver ses données ?

L'archivage des données n'est pas à considérer comme du stockage, ni de la sauvegarde. L'archivage intervient au-delà de la fin d'un projet de recherche, soit après le stockage courant et celui à long terme (Long term storage), et vise une conservation ad aeternam. Il doit s'accompagner de règles de gestion qui permettent la réutilisation éventuelle des données dans le temps, ainsi que leur bonne compréhension et contextualisation (métadonnées). C'est pourquoi il est important de veiller à utiliser des standards de fichiers ouverts et non propriétaires (voir les recommandation du UK Data Service), ainsi que des règles de classement et de nommage (voir la partie collecte et organisation).

Le Data Management Plan est un outil qui permet non seulement de gérer ses données durant le projet, mais également d'en assurer une bonne gestion dans le temps (après la fin du projet).

En principe, les données liées à une publication doivent être déposées pour archivage et partage sur un dépôt non commercial répondant aux principes FAIR, sous réserve d’autres exigences formulées par l’organisme de financement de la recherche. Les données non liées à une publication pouront être, de façon provisoire, stockées sur l'infrastructure de stockage long terme du Ci (prendre contact avec la Division calcul et soutien à la recherche). Selon la directive 4.5 de la Direction, les coûts du stockage à long terme et de l'archivage sont pris en charge par l'UNIL.

Le tri et la destruction des données de recherche est de la responsabilité des chercheur·e·s. En cas d’intérêt de l’UNIL à garder des données de recherche dont la destruction est souhaitée par un·e chercheur·se, UNIRIS détermine d’entente avec ce·tte dernier·ière s’il est opportun d’archiver ou de détruire, totalement ou partiellement, les données de recherche concernées.

Comment savoir ce qu'il faut garder et ce qu'il faut supprimer ?

Un certain nombre de questions peuvent vous aider à savoir les données qu'il convient de conserver, à savoir :

  • Est-ce que mon bailleur de fonds ou l'Université a besoin que je garde ces données et/ou que je les rende disponibles pour un certain laps de temps ?
  • Est-ce que ces données constituent les documents essentiels d'un projet, d'une organisation ou d'un consortium et par conséquent ont besoin d'être conservées indéfiniment ?
  • Est-ce que j'ai les droits de propriété juridique et intellectuelle de conserver et de réutiliser ces données ? Si ce n'est pas le cas, est-ce que cela peut être négocié ?
  • Est-ce que la documentation et les informations descriptives (métadonnées) sont suffisantes pour expliquer les données et permettre aux données ou aux documents d'être trouvés, peu importe leur location ?
  • Si j'ai besoin de payer pour conserver les données, puis-je me le permettre ?

(source : UNIGE, basée sur des documents conçus par le Digital Curation Centre)

Comment partager ses données ?

De manière similaire aux publications scientifiques, le partage des données peut se réaliser via un dépôt généraliste ou un dépôt disciplinaire.

Il est fortement conseillé de partager vos données dans un dépôt FAIR et non-commercial. Afin de faciliter la transition vers des données FAIR, le FNS a défini un ensemble de critères minimaux que les dépôts de données doivent remplir afin de se conformer aux principes FAIR. Une checklist a été produite par le FNS. Il s'agit de répondre positivement aux questions suivantes :

  • Des identifiants uniques et durables (DOI p. ex.) sont-ils globalement attribués aux sets de données (ou idéalement aux fichiers composant ce set) ?
  • La banque de données permet-elle de charger les métadonnées intrinsèques (p. ex. nom de l'auteur, contenu du set de données, publications associées, etc.) et celles définies par la personne soumettant les données (p. ex. définition des variables, etc.) ?
  • La licence (CC0, CC BY, etc.) sous laquelle les données seront accessibles est-elle clairement mentionnée ou l'utilisateur·trice peut-il télécharger/choisir une licence ?
  • Les citations et les métadonnées sont-elles toujours accessibles publiquement (même dans le cas de sets de données à accès restreint) ?
  • La banque de données fournit-elle un formulaire de soumission demandant que les métadonnées intrinsèques respectent un format spécifique (afin d'assurer leur utilisation automatique/interopérabilité) ?
  • La banque de données dispose-t-elle d'un plan de préservation à long terme des données archivées ?

Le site re3data.org recense la plupart des banques de données ainsi que leurs caractéristiques.

Quelles dépôts de données à l'UNIL ?

À terme et en attendant un dépôt institutionnel équivalent à SERVAL pour les données (voir projet SWISSUbase ci-dessous), l'UNIL pourrait recommander l'utilisation du dépôt généraliste ZENODO développé par le CERN et financé par l'Union européenne. Chaque faculté de l'Université devrait pouvoir y animer sa communauté facultaire offrant ainsi aux chercheurs de sa faculté la possibilité de déposer et partager ses données. Contactez votre consultant-recherche pour plus d'informations.

FORSBase pour les sciences sociales et politiques

Pour les données en sciences sociales et politiques, l'UNIL préconise l'utilisation de FORSBase, développée par FORS, le Centre de compétences suisse en sciences sociales.

Le centre produit des données d'enquêtes nationales et internationales. Il met à disposition des outils pour l'infrastructure de l'information et offre un service de consultation pour les chercheur·es.

L'UNIL travaille actuellement avec FORS et l'UNIZH pour le développement d'un dépôt de données thématiques et généralistes à même de gérer les données de recherche produit à l'UNIL (SWISSUbase).

La PlaTec pour les données qualitatives en sciences humaines et sociales

La PlaTec est le satellite du DaSCH Data and Service Center for the Humanities (DaSCH), institution de l’Académie des Sciences Humaines et Sociales, pour la Suisse romande. Elle assure à ce titre l’accessibilité et l’archivage à long-terme des données de recherche en SHS dans le cadre d’une infrastructure numérique et d’un centre de services déployés au niveau national.

La PlaTec accompagne les chercheurs dans la gestion de leur données de recherche et bases de données. Elle met à disposition des chercheurs l’infrastructure du DaSCH (Knora, Salsah, Sipi) et d'autres services (encadrement, accompagnement, évaluation, etc.).

Suivez nous:    

Le saviez-vous ?

29% des chercheur·e·s de l'UNIL pensent que leurs données devraient être conservées ad eternam.

Enquête 2015 sur les données de recherche

Formats d'archivage

  • Archive web : WARC
  • Containers : TAR, GZIP, ZIP
  • Databases : XML, CSV
  • Données tabulaires : CSV
  • Films : MOV, MPEG, AVI, MXF
  • Géospatial : SHP, DBF, GeoTIFF, NetCDF
  • Images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Sons : WAVE, AIFF, MP3, MXF
  • Statistiques : ASCII, DTA, POR, SAS, SAV
  • Texte : XML, PDF/A, HTML, ASCII, UTF-8

source : Bibliothèque de Stanford

Cycle de vie des données

Pour mieux comprendre les enjeux du stockage, de l'archivage et du partage des données, voir la notion du cycle de vie des données

Cycle de vie et lieu de stockage des données

Cycle_vie_Data_lieu_stockage.jpg

Partagez:
Unicentre - CH-1015 Lausanne
Suisse
Tél. +41 21 692 20 81