ANR-06CORP

CORPAFROAS (2006-2010)

Corpus Oral en langues Afroasiatiques : Analyse Prosodique et Morphosyntaxique

English Version

Coordination Prof. Amina Mettouchi, Université de Nantes


CORPAFROAS Site Web

Laboratoires impliqués : LLING (Nantes, A. Mettouchi), LLACAN (CNRS Villejuif, M. Vanhove), CREAM-LacNad (Inalco Paris, D. Caubet),

Experts : Prof. Bernard Comrie (MPI Leipzig & UCSB Santa Barbara), Prof. Shlomo Izre'el (Tel Aviv University).

Ce projet se situe dans le cadre de la compilation, l'analyse et la mutualisation de corpus oraux dans des langues non-indo-européennes.

Plusieurs équipes françaises, CNRS et universitaires, travaillent sur les langues afroasiatiques et disposent de données de terrain de première main. Certains chercheurs de ces équipes ont déjà commencé à mettre en ligne quelques documents sonores transcrits et traduits. Par ailleurs, il n'existe que fort peu de corpus en ligne en langues afroasiatiques dans le monde (voir cependant le Semitisches Tonarchiv de l'université de Heidelberg http://www.semarch.uni-hd.de/index.php4), et le Corpus of Spoken Israeli Hebrew de Tel-Aviv http://www.tau.ac.il/humanities/semitic/cosih.html). Le contexte est donc propice au développement d'une opération de recherche dans ce champ.

L'objectif de ce projet est d'établir une méthodologie de partage et d'unification des données orales de terrain dans une famille de langues, l'afroasiatique, à partir de l'analyse linguistique de la structure intonative et morphosyntaxique des langues représentées. Le but visé est la constitution d'un corpus-pilote accessible en ligne à la communauté des chercheurs, notamment en typologie. Le terme de corpus implique qu'il ne s'agisse pas d'un archivage à visée conservatoire, mais de la création, à partir de l'analyse théorique de données orales recueillies sur le terrain, d'un corps de transcriptions unifié de manière systématique, accompagné d'annotations morphosyntaxiques, et associant son et texte.

Cet effort d'unification en vue d'une mutualisation des données passe par deux niveaux d'analyse, impliquant à la fois un enjeu théorique et une dimension pratique :

- l'analyse de la structuration intonative des langues considérées : quelles sont les unités de l'oral pertinentes pour ces langues, et sur quels principes (cognitifs, phonologiques, pragmatiques...) reposent-elles ?

- l'analyse de la structuration morphosyntaxique de ces langues : comment peut-on coder de manière unifiée les unités segmentales minimales de la langue pour l'ensemble de l'échantillon ?

A travers ce projet, nous voulons mieux répondre aux questions suivantes :

Quelles sont les unités de l'oral (par opposition à celles de l'écrit) ? Ces unités sont-elles de nature différente selon les systèmes prosodiques (accentuel/tonal) ?Comment s'articulent prosodie et morphosyntaxe (en particulier au niveau de la structure de l'information) ?Quel degré optimal d'unification des annotations est-il possible d'atteindre, pour à la fois respecter la spécificité des langues, et pouvoir comparer les catégories morphosyntaxiques ?

Pour ce faire, nous constituons un corpus-pilote répondant aux critères suivants : il sera accessible librement en ligne en format xml, il comportera plusieurs langues d'un même phylum linguistique (1 heure par langue), il sera découpé en unités spécifiquement orales (prioritairement prosodiques), il comprendra au minimum une transcription, une glose morphématique (traduction morphème par morphème) unifiée, une traduction, et la version sonore (accessible également en ligne) sera indexée à la transcription.

Par corpus-pilote, nous entendons un premier ensemble qualitatif de données structurées, servant à opérer des choix de codage faisant suite à une analyse théorique, afin de préparer une étape quantitative, qui pourra se faire par branches ou par langues, postérieurement au projet. Notre travail méthodologique et théorique vise à traiter, et si possible résoudre, les problèmes spécifiques au traitement linguistique d'une compilation structurée de données orales dans des langues de petite ou moyenne diffusion.

Les langues représentées sont, par branches : berbère (kabyle, tatserret), couchitique (bedja, gawwada, ts'amakko, ongota, afar), omotique (wolaitta), sémitique (arabe marocain, libyen, soudanais, maltais, hébreu parlé, dahalik), et tchadique (haoussa, bata, zaar).

La mise en ligne se fera sur le site du CRDO (Centre de Ressources pour la Description de l'Oral : http://crdo.vjf.cnrs.fr:8080/exist/crdo/), avec le logiciel de saisie XML ELAN et les outils associés.

Les recommandations suivies seront celles du Guide des Bonnes Pratiques pour la constitution, l'exploitation, la conservation et la diffusion des corpus oraux (http://www.culture.gouv.fr/culture/dglf/Guide_Corpus_Oraux_2005.pdf ), elles-mêmes en accord avec les normes internationales dans ce domaine.

En guise de synthèse, nous pouvons dire que ce projet répond à deux aspects de l'appel d'offre de l'ANR : la constitution de corpus, et leur analyse.

Son originalité est :

  • de proposer un véritable corpus de langues de petite ou moyenne diffusion, accessible en ligne et analysable par d'autres chercheurs,
  • de poser explicitement la question de la spécificité de l'encodage des phénomènes oraux par rapport à celui de l'écrit,
  • d'intégrer dans le corpus la problématique des rapports entre structures intonatives et structures morphosyntaxiques, et d'ouvrir à la comparaison typologique de celles-ci.

S'agissant d'un corpus-pilote, l'objectif n'est pas de couvrir l'ensemble des branches ou des langues du phylum afroasiatique, mais de présenter un premier ensemble de données normalisées et mutualisables, sur lequel des analyses menées dans le domaine de la prosodie et de la morphosyntaxe, notamment en typologie, pourront être menées.

nom du lien
Liste des membres du projet

LLING & Associés

Amina Mettouchi

Jean-Pierre Angoujard

Hamida Demirdache

Mauro Tosco

Graziano Sava

Stefano Manfredi

Azeb Amha

Il-il Malibert-Yatziv

Cécile Lux

Shlomo Izre'el

Bernard Comrie

LLACAN

Martine Vanhove

Bernard Caron

Marie-Claude Simeone-Senelle

Raymond Boyd

Christian Chanard

LACNAD-CREAM

Dominique Caubet

Christophe Pereira

Maha Abourahim

Elgar-Paul Magro

Alexandrine Barontini

Angeles Vicente