Corpus

colaje

CORPUS : Sous-projet : Constitution et analyse du corpus

 

1ère étape : Tournage du film

Chaque enfant est filmé une heure par mois en situation quotidienne avec sa famille. Les moments de vie (bain, repas, jeux,…) et les interactions avec l’entourage proche (parents, frère(s) et sœur(s), grands parents, nounou, …) sont saisis sur le vif, de façon spontanée, sans mise en scène ni comportement spécifiquement sollicité. Les films sont le plus souvent tournés au domicile de l’enfant par un membre du projet. La personne qui filme l’enfant peut être un membre de sa famille (par exemple, Christophe Parisse filme son neveu Antoine) ou une personne extérieure mais qui au fil des enregistrements a tissé un lien privilégié avec la famille et l’enfant. Au-delà de 4 ans, les enregistrements sont réalisés tous les trois mois.

Chaque film est ensuite numérisé et mis à disposition sur le site internet de CoLaJE, avec l’autorisation des parents de l’enfant.

L'ensemble des vidéos au format standard se trouve sur le site de CHILDES à l'emplacement suivant: http://childes.psy.cmu.edu/media/Romance/French/Paris/. Pour chaque corpus, les vidéos sont aussi disponibles sur ce site en deux formats : format normal (taille des vidéos, 1Go pour une heure de vidéo environ et en petit format plus facilement téléchargable et utilisable sur un ordinateur portable (150 à 300Mo pour une heure de vidéo).

2ème étape : Transcriptions

Afin d’optimiser le travail de recherche qui va être réalisé sur ces vidéos, celles-ci sont transcrites au format CHAT à l’aide du programme CLAN par un transcripteur expérimenté. Ces transcriptions, alignées sur les vidéos, codent les productions langagières de tous les protagonistes ainsi que les gestes, le contexte, la situation, ... suivant les conventions de transcription décidées en équipe et détaillées dans le guide dynamique du Projet Léonard. Les productions vocales de l’enfant (des sons du bébé aux énoncés et discours de l’enfant plus grand) sont transcrites en phonétique. Chaque transcription est ensuite revue intégralement par un correcteur. Pour une heure d’enregistrement, près de 45 heures de travail de transcription sont donc nécessaires !

   
Quelques mots sur nos principes de transcription ...

Tout corpus est une construction, au sens où il est toujours déjà le produit des analyses du chercheur (Ochs, 1979). Ainsi les procédures de transcription puis de codage des données méritent une attention toute particulière, si l’on veut éviter de dénaturer les productions.

D’un point de vue technique, il faut se donner les moyens de décrire les sons, les gestes, le contexte, la situation, de manière suffisamment précise pour pouvoir partager les données et les analyses avec des personnes étrangères au recueil de données original. Pour respecter au mieux la situation de recueil, il est nécessaire d’inclure dans les corpus les vidéos enregistrées. Ces données vidéo doivent toujours être complétées par des descriptions textuelles qui permettent de mieux spécifier l’image originelle ou de présenter le contexte de recueil.

Les transcriptions linguistiques doivent contenir au minimum des données phonologiques et orthographiques complètes : les données phonologiques permettent de suivre pas à pas de manière quantitative et qualitative le développement du langage de l’enfant, les données orthographiques permettent d’accéder plus facilement à des informations externes au corpus (fréquences, catégorisation syntaxique ou sémantique, etc.). D’autres données (intonation, variations phonétiques, contexte pragmatique, etc.) peuvent être ajoutées en fonction des besoins de recherche spécifiques. Les choix techniques sont des mises en application des choix scientifiques et c’est le va et vient entre technique et recherche scientifique qui doit être constamment en cours.

Les transcriptions peuvent également être réalisées et/ou converties sous d'autres formats au moyen de programmes permettant des analyses plus précises de certains paramètres linguistiques tels que PRAAT (pour l'analyse phonétique et prosodique), PHON (pour l'analyse phonologique), ELAN (pour l'analyse des gestes) ...

3ème étape : Descripteurs de la séance

Tout au long de son travail, chaque chercheur et/ou transcripteur remplit des fiches descriptives de la séance.

4ème étape : Recherches

CLAN permet d’effectuer des analyses automatiques des données (voir nos autres outils), mais cela ne représente qu’une infime partie du travail réalisé par les chercheurs sur les transcriptions et les vidéos ! Ainsi, selon leur domaine de spécificité, les chercheurs développent et utilisent des outils leur permettant d’exploiter les transcriptions. Et pratiquement toujours, un codage systématique dans un tableur ou un outil de traitement de base de données est nécessaire pour traiter les questions de recherche avec autant de  précision au niveau quantitatif et qualitatif que possible, et pour pouvoir croiser les variables codées.

5ème étape : Réunions d'équipe

De nombreuses réunions de travail sont organisées entre les chercheurs afin de partager leurs observations et analyses sur le corpus.




logo ANR       logo Sorbonne Nouvelle       logo Modyco       logo STL UMR 8163

Ce site a été réalisé et est hébergé par le Risc  logo Risc