Les dessous de la conception du plan d’échantillonnage de l’enquête ménages-déplacements du projet Modural à Bogotá (2022)
Florent Demoraes, Pascal Sebille. Les dessous de la conception du plan d’échantillonnage de l’enquête ménages-déplacements du projet Modural à Bogotá (2022). UMR ESO; Université Rennes 2; Ined; Iféa. 2025. ⟨hal-04977661⟩
Dans les enquêtes d’opinion des grandes métropoles d’Amérique latine, la mobilité quotidienne représente la deuxième source de préoccupation après l’insécurité. Une grande majorité des citadins connaît de réelles difficultés pour se déplacer au quotidien, et la situation est encore plus critique pour les classes modestes reléguées dans les quartiers excentrés. Dans ce contexte, le projet ANR Modural a porté plus spécifiquement sur les navettes domicile-travail et domicile-étude qui représentent plus de 60% des trajets quotidiens. Le travail de recherche a été mené dans huit zones illustratives des contextes urbains périphériques de Bogotá (Colombie) et de Lima (Pérou), deux capitales qui comptaient chacune plus de 9 millions d’habitants en 2021. Deux enquêtes par questionnaire y ont été déployées auprès d’un échantillon de 1600 ménages (800 par ville) entre juin et juillet 2022. Le présent manuel aborde les objectifs, les contraintes et les choix méthodologiques retenus pour la conception du plan d’échantillonnage de l’enquête appliquée à Bogotá. Il explique en particulier l’intérêt d’adopter un plan d’échantillonnage aréolaire stratifié à deux degrés pour une enquête ménage. Les différentes étapes de l’élaboration du plan sont successivement présentées : (1) la stratification des zones d’enquête, obtenue à partir d’une analyse typologique, (2) les tests statistiques de validation associés, (3) le calcul des tailles d’échantillon, (4) le tirage aléatoire des unités primaires (îlots) et des unités secondaires (ménages), et enfin (5) le calcul des pondérations et des intervalles de confiance. L’élaboration de la méthode d’échantillonnage repose sur des sources de données qui ne sont pas spécifiques à Bogotá. Bien au contraire, elle s’appuie notamment sur l’utilisation des recensements et de couches SIG (îlots urbains, découpages administratifs, fonds de carte et images satellitales) qui sont aujourd’hui en libre accès dans de nombreux pays de la région. Dans une optique de reproductibilité et de science ouverte, seuls des logiciels libres ou gratuits ont été utilisés dont le logiciel R et, plus ponctuellement, les logiciels QGIS et SavGIS. Les scripts R et les fonctions SIG employées sont détaillés en annexes afin de faciliter leur réutilisation. La même méthode d’échantillonnage a été mise en œuvre parallèlement pour l'enquête ménage de l'ANR Modural à Lima.
In opinion polls of large Latin American metropolises, daily mobility is the second most important concern after insecurity. A large majority of city dwellers experience real difficulties in getting around on a daily basis, and the situation is even more critical for the low-income classes relegated to outskirts. Against this backdrop, the ANR Modural project focused more specifically on commuting to and from work and school, which account for over 60% of daily journeys. The research work was carried out in eight areas illustrating the peripheral urban contexts of Bogotá (Colombia) and Lima (Peru), two capital cities that had each more than 9 million inhabitants in 2021. Two questionnaire surveys were carried out among a sample of 1,600 households (800 per city) between June and July 2022. This handbook discusses the objectives, stumbling blocks and methodological choices made to devising the sample design for the survey applied in Bogotá. In particular, it explains the advantages of adopting a stratified two-stage areal sampling design for a household survey. The different steps of the process are successively presented: (1) stratification of the survey areas based on factorial and cluster analysis, (2) associated statistical validation tests, (3) calculation of sample sizes, (4) random selection of primary units (blocks) and secondary units (households), and finally (5) calculation of weights and confidence intervals. The sampling method is based on data sources that are not specific to Bogotá. On the contrary, it relies in particular on censuses data and GIS layers (city blocks, administrative divisions, base maps and satellite images), which are now openly available in many countries in the region. In a perspective of reproducibility and open science, only free or open-source software is used, including the R software and more occasionally the QGIS and SavGIS software. The R scripts and the GIS functions used are detailed in the appendix of the handbook in order to facilitate their re-use. The same sampling method was used for the ANR Modural household survey in Lima.
- Échantillonnage aréolaire stratifié à deux degrés
- Enquête ménage par questionnaire
- Analyse typologique
- Stratification spatiale
- Tirage auto-pondéré
- Test bivarié de colocalisation
- Test des distances au plus proche voisin
- Calcul des intervalles de confiance par simulation d’échantillons bootstrap
- Méthode
- Logiciels libres
- Reproductibilité
- Cartes
- Bogotá
- Stratified two-stage areal sampling
- Household questionnaire survey
- Spatial stratification
- Factorial and cluster analysis
- Self-weighted sampling
- Colocation bivariate test
- Nearest-neighbour distance test
- Bootstrap-based calculation of confidence intervals
- Method
- Maps
- Open-source software
- Reproducibility
- Muestreo bietápico estratificado de áreas
- Encuesta a hogares por cuestionario
- Estratificación espacial
- Análisis de conglomerados
- Muestreo autoponderado
- Prueba bivariada de colocalización
- Prueba de las distancias hacia el vecino más cercano
- Cálculo de los intervalos de confianza por bootstrap
- Método
- Mapas
- Software libre
- Reproducibilidad