Chuchotons, approche réflexive de la transcription automatisée
Arthur Ducasse, Solène Tixadou, Aurore Ecault-Bellec, Estelle Laurent, Colin Kerouanton. Chuchotons, approche réflexive de la transcription automatisée. Journées MAD, SO-MATé, Nov 2025, Bordeaux, France. ⟨hal-05400312⟩
La transcription d’entretiens est une tâche laborieuse qui peut s’avérer chronophage. Rite de passage autrefois obligatoire pour les étudiant·es qui débutaient leur parcours en recherche en SHS, les solutions de transcription automatique se sont multipliées ces dernières années. Avec l’apparition de corpus d’apprentissage toujours plus volumineux et l’amélioration des capacités de calcul, les modèles de transcription automatique sont devenus très performants (Whisper, 2022). L’ouverture au grand public de Whisper par l’entreprise étasunienne OpenAI (également productrice du modèle ChatGPT) a permis aux collectifs de recherche de s’approprier le modèle (implémentation IR Humanum par exemple). Le projet Chuchotons (2023-2025, financement de l’université Rennes 2) s’est construit autour d’un collectif de jeunes chercheurs et chercheuses de l’UMR ESO, pour i) étudier les retranscriptions du modèle Whisper (2022), et pour ii) observer les changements sur nos pratiques de recherche en SHS introduits par le recours toujours plus facilité aux solutions de retranscription automatique. À l’occasion de cette journée, nous souhaiterions présenter les premiers résultats de ce projet et organiser notre propos autour de trois grands axes : la mise en contexte du modèle Whisper à une échelle globalisée, la confection et l’application itérative d’un carnet d’analyse des retranscriptions réalisées avec Whisper sur des corpus présentant des difficultés de plusieurs ordres, les questionnements autour du processus de construction des verbatims à partir d’une retranscription automatique.