Stockage des données
Stockage des données actives
Les données actives sont celles qui sont en cours de collecte et d’analyse.
Il est recommandé d’utiliser la règle 3-2-1 lors de la sauvegarde de vos données de recherche actives : enregistrez trois copies de vos données, sur deux supports de stockage différents, et une copie hors site.
Stockage des données d’archives
De nombreuses ressources sont disponibles pour le stockage des données à la fin d’un projet de recherche.
Les dépôts de données spécialisés sont ceux qui sont dédiés à des types de données spécifiques.
En voici quelques exemples :
- GenBank. Un dépôt public complet de séquences d’ADN maintenu par le National Center for Biotechnology Information (NCBI), qui soutient la recherche génomique et métagénomique.
- GenBank Bioproject. L’enregistrement du BioProject est requis dans le cadre du dépôt de données dans plusieurs archives de données primaires du NCBI, notamment SRA, TSA et WGS.
- Sequence Read Archive (SRA). Un dépôt pour les données de séquençage à haut débit, stockant les lectures de séquençage brutes des études génomiques.
- Transcriptome Shotgun Assemblies (TSA). Un dépôt pour les séquences de transcriptome, contenant des assemblages de divers organismes.
- Gene Expression Omnibus (GEO). Un dépôt pour les données génomiques fonctionnelles, stockant l’expression génétique à haut débit et d’autres données génomiques.
- European Nucleotide Archive (ENA). Une ressource pour les données de séquence brutes, les alignements et les données d’assemblage provenant de projets de séquençage à haut débit.
- EBI Metagenomics. Une ressource de l’European Bioinformatics Institute (EBI) qui propose des outils pour l’analyse et l’archivage des données métagénomiques.
- Global Initiative on Sharing All Influenza Data (GISAID). Un dépôt mondial pour le partage des séquences du génome de la grippe et d’autres virus afin de suivre et de surveiller l’évolution virale.
- TreeBASE. Un dépôt d’informations phylogénétiques, y compris les arbres phylogénétiques publiés et les données associées.
- Ag Data Commons. Un dépôt géré par l’U.S. Department of Agriculture (USDA) pour les données liées à l’agriculture, y compris les données génomiques, phénotypiques et environnementales.
- Wheat Information System (WheatIS). Un dépôt mondial de données sur le blé pour les données génomiques, phénotypiques et de sélection afin de soutenir la recherche agricole.
- PeptideAtlas. Un dépôt de données sur les peptides et la protéomique, fournissant une vaste collection de peptides observés à partir d’expériences de spectrométrie de masse.
- Protein Data Bank (PDB). Un dépôt pour les données structurelles 3D de grandes molécules biologiques, y compris les protéines et les acides nucléiques.
Les dépôts de données généralistes ne sont pas spécifiques au type de données de recherche qu’ils hébergent (bien qu’ils aient d’autres limitations telles que la taille de l’ensemble de données).
Au Canada, la plupart des établissements hébergent des dépôts de données généralistes, généralement Borealis (qui est dérivé de Dataverse). Des ensembles de données plus volumineux peuvent être stockés dans le Dépôt fédéré de données de recherche (DFDR).
L’avantage de stocker dans ces dépôts canadiens est que l’information à propos des données peut être partagée automatiquement à d’autres services, ce qui rend vos données plus faciles à trouver par la communauté de recherche. Recherchez des données de recherche canadiennes à l’aide du moteur de recherche de données Lunaris.
D’autres dépôts généralistes incluent :
- Zenodo. Un dépôt en libre accès pour les données de recherche, offrant un stockage à long terme pour les résultats de la recherche scientifique.
- Figshare. Un dépôt basé sur le nuage où les chercheuses et chercheurs peuvent télécharger, partager et gérer des données de recherche, des figures et des publications.
- Carrefour GDR). Un guide qui liste une variété de dépôts de données de recherche scientifique.
- GitHub. Une plateforme principalement utilisée pour l’hébergement de code et la collaboration, mais aussi pour le stockage d’ensembles de données de recherche et de documentation de projet. Les versions de GitHub peuvent être automatiquement configurées pour être archivées dans Zenodo ou Borealis.
- Borealis. Un dépôt canadien de données de recherche qui offre un stockage à long terme et le partage de données de recherche entre les établissements.
- DFDR (Dépôt fédéré de données de recherche). Une plateforme de découverte et de partage de données de recherche canadiennes, visant à soutenir la gestion et la préservation des données.
Logiciel de dépots
- iRODS. Le Rule-Oriented Data System (iRODS) est un logiciel de gestion de données en source libre utilisé par les organismes de recherche et les agences gouvernementales du monde entier.
Liens utiles
- Guide des options de dépôt au Canada
- écrit par Carly Huitema