Normes de fichiers, dossiers et flux de travail

Table des matières

  1. Normes de fichiers
    1. Pourquoi standardiser les noms de fichiers ?
    2. Recommandations pour le nommage des fichiers
    3. Jeux de caractères des fichiers
  2. Directives sur la structure des dossiers
  3. Plans de gestion des données
  4. Recommandations

Normes de fichiers

Les noms de fichiers, les formats et les jeux de caractères ont chacun des aspects de standardisation.

Pourquoi standardiser les noms de fichiers ?

La standardisation des conventions de nommage des fichiers aide les chercheurs à mieux organiser leur travail et à collaborer avec d’autres. Les avantages incluent :

  • Une structure cohérente entre les fichiers, facilitant la localisation et l’identification des documents.
  • Des noms de fichiers uniformes facilitent le tri et l’organisation alphabétique ou chronologique.
  • Favorise une compréhension partagée de la manière dont les fichiers sont nommés et organisés.
  • L’inclusion de numéros de version ou de dates dans les noms de fichiers permet une gestion efficace des versions.

Recommandations pour le nommage des fichiers

La bibliothèque de Caltech propose une feuille de travail sur les conventions de nommage des fichiers avec une série de questions et de conseils, aboutissant à un modèle de convention de nommage avec des exemples pour le plan de gestion des données du projet.
Exemple de modèle : SA-MPL-EID_YYYYMMDD_###_status.tif
Exemples : P1-MUS-023_20200229_051_raw.tif et P2-DRS-285_20191031_062_composite.tif

Jeux de caractères des fichiers

Les données « sérialisées » dans un fichier texte sont encodées sous forme de chaînes de caractères issues d’un jeu de caractères, pouvant inclure des accents, etc.
Le standard populaire UTF-8 (utilisé pour la majorité des pages web) couvre de nombreuses langues et même des dingbats.
Malheureusement, ce n’est pas le seul jeu de caractères existant, et les logiciels doivent souvent deviner l’encodage d’un fichier d’entrée. Certaines versions de programmes comme MS Excel utilisent leur propre codage, ce qui peut entraîner des confusions lors de la traduction.
Si des caractères étranges s’affichent dans une application à partir d’un fichier d’entrée, essayez de réenregistrer ce fichier avec un jeu de caractères approprié avant de l’ouvrir dans l’application.

Directives sur la structure des dossiers

Comme mentionné dans la section Analyse des données, le Protocole TIER 4.0 est une structure de fichiers recommandée pour les pipelines analytiques.

Plans de gestion des données

Tous les projets de recherche de l’initiative Agriculture et systèmes alimentaires adaptés au climat de Genome Canada ont créé un Plan de gestion des données (PGD) en utilisant l’Assistant PGD de Portage.
Ce PGD inclut généralement des protocoles de nommage de fichiers recommandés pour chaque projet de recherche.

Recommandations

Briney, Kristin A. 2020. “File Naming Convention Worksheet”. 2 juin.
https://doi.org/10.7907/894q-zr22

  • Auteurs : Carly Huitema, Damion Dooley