Diffuser ses données de recherche à partir de sources confidentielles : Le cas du projet SUBWORK sur la géographie des emplois populaires de production
Aliette Roux, Nicolas Raimbault. Diffuser ses données de recherche à partir de sources confidentielles : Le cas du projet SUBWORK sur la géographie des emplois populaires de production. Séance commune du séminaire PROGEDO-Loire et du séminaire So-MSH!, Mar 2022, Nantes (Nantes Université), France. ⟨hal-04312221⟩
Cette présentation discute les enjeux d’une recherche inscrite dans une perspective de science ouverte, à partir d’un projet (Subwork) qui interroge la géographie quantitative et infra-communale des emplois populaires et des activités productives dans les aires urbaines nantaise et parisienne. Ce projet de recherche s’inscrit dans une perspective de science ouverte au sens large, intégrant certes la diffusion des données de recherche et des publications (qui constituent les priorités des deux plans Vidal), mais aussi la réutilisation de données déjà existantes et le recours à des méthodes transparentes et reproductibles. Cette présentation comprend : - un exposé des questionnements de recherche (et des raisons de recourir à des données personnelles et confidentielles produites par la statistique publique) ; - une présentation du dispositif (le CASD) rendant possible le traitement et la diffusion de données personnelles et confidentielles produites par la statistique publique et les chercheurs ; - un retour d’expérience sur la transformation de données confidentielles et personnelles en données "ouvertes" (aussi dites données FAIR) : astuces utilisées (et compromis) pour anonymiser en minimisant la perte d’information ; recours à des méthodes transparentes et reproductibles (en utilisant notamment un outil de programmation lettrée, RMarkdown) pour documenter les méthodes d’appariement ayant produit les données à diffuser ; choix du portail de diffusion et ses implications ; - une présentation du portail de diffusion Quetelet-Progedo-Diffusion ; - une description des données utilisées dans le cadre de cette recherche (DADS/Tous Salariés, SIRENE, BAN, RP) notamment dans une perspective d’analyse géographique ou de sociologie du travail ; - une discussion sur les enjeux de cette "ouverture", en soulignant notamment son impact sur les méthodes d’analyse et de travail.