Stockage des données
Stockage des données actives
Les données actives sont celles qui sont en cours de collecte et d’analyse.
Il est recommandé d’utiliser la règle 3-2-1 lors de la sauvegarde de vos données de recherche actives : enregistrez trois copies de vos données, sur deux supports de stockage différents, et une copie hors site.
Stockage des données d’archives
De nombreuses ressources sont disponibles pour le stockage des données à la fin d’un projet de recherche.
Les référentiels spécialisés sont ceux qui sont dédiés à des types de données spécifiques.
En voici quelques exemples :
- GenBank. Un référentiel public complet de séquences d’ADN maintenu par le NCBI, qui soutient la recherche génomique et métagénomique.
- GenBank Bioproject. L’enregistrement du BioProject est requis dans le cadre du dépôt de données dans plusieurs archives de données primaires du NCBI, notamment SRA, TSA et WGS.
- Archive de lecture de séquence (SRA). Un référentiel pour les données de séquençage à haut débit, stockant les lectures de séquençage brutes des études génomiques.
- Assemblage de transcriptome Shotgun (TSA). Un référentiel pour les séquences de transcriptome, contenant des assemblages de divers organismes.
- Gene Expression Omnibus (GEO). Un référentiel pour les données génomiques fonctionnelles, stockant l’expression génétique à haut débit et d’autres données génomiques.
- European Nucleotide Archive (ENA). Une ressource pour les données de séquence brutes, les alignements et les données d’assemblage provenant de projets de séquençage à haut débit.
- EBI Metagenomics. Une ressource de l’Institut européen de bioinformatique qui propose des outils pour l’analyse et l’archivage des données métagénomiques.
- GISAID. Un référentiel mondial pour le partage des séquences du génome de la grippe et d’autres virus afin de suivre et de surveiller l’évolution virale.
- TreeBASE. Un référentiel d’informations phylogénétiques, y compris les arbres phylogénétiques publiés et les données associées.
- Ag Data Commons. Un référentiel géré par l’USDA pour les données liées à l’agriculture, y compris les données génomiques, phénotypiques et environnementales.
- Wheat Initiative’s WheatIS. Un référentiel mondial de données sur le blé pour les données génomiques, phénotypiques et de sélection afin de soutenir la recherche agricole.
- PeptideAtlas. Un référentiel de données sur les peptides et la protéomique, fournissant une vaste collection de peptides observés à partir d’expériences de spectrométrie de masse.
- Protein Data Bank (PDB). Un référentiel pour les données structurelles 3D de grandes molécules biologiques, y compris les protéines et les acides nucléiques.
Les référentiels généralistes ne sont pas spécifiques au type de données de recherche qu’ils hébergent (bien qu’ils aient d’autres limitations telles que la taille de l’ensemble de données).
Au Canada, la plupart des institutions hébergent des référentiels de données généralistes, généralement Borealis (qui est dérivé de Dataverse). Des ensembles de données plus volumineux peuvent être stockés dans le Federated Research Data Repository (FRDR).
L’avantage de stocker dans ces dépôts canadiens est que les données peuvent être cataloguées par d’autres services, ce qui rend vos données plus faciles à trouver par d’autres chercheurs. Recherchez des données de recherche canadiennes à l’aide du moteur de recherche de données Lunaris.
D’autres dépôts généralistes incluent :
- Zenodo. Un dépôt en libre accès pour les données de recherche, offrant un stockage à long terme pour les résultats de la recherche scientifique.
- Figshare. Un dépôt basé sur le cloud où les chercheurs peuvent télécharger, partager et gérer des données de recherche, des figures et des publications.
- GDR. Le Guide des dépôts de recherche est une plateforme donnant accès à une variété de dépôts de données de recherche scientifique.
- GitHub. Une plateforme principalement utilisée pour l’hébergement de code et la collaboration, mais aussi pour le stockage d’ensembles de données de recherche et de documentation de projet. Les versions de GitHub peuvent être automatiquement configurées pour être archivées dans Zenodo.
- Borealis. Un référentiel canadien de données de recherche qui offre un stockage à long terme et le partage de données de recherche entre les institutions.
- FRDR (Federated Research Data Repository). Une plateforme de découverte et de partage de données de recherche canadiennes, visant à soutenir la gestion et la préservation des données.
Logiciel de référentiel
- iRODS. Le Rule-Oriented Data System (iRODS) est un logiciel de gestion de données open source utilisé par les organismes de recherche et les agences gouvernementales du monde entier.
Liens utiles
- Guide des référentiels canadiens
- écrit par Carly Huitema