CorTypo: Constitution de Corpus Oraux pour des Recherches Typologiques

Projet financé par l’Agence Nationale pour la Recherche (ANR), pour 36 mois (mars 2013-mars 2016, prolongé jusqu'en mars 2017). Préparé en 2011 et soumis en janvier 2012.

Coordinatrice: Amina Mettouchi
Directeur d’Etudes EPHE (Ecole Pratique des Hautes Etudes), membre du laboratoire LLACAN
Page professionnelle (CV, publications): http://llacan.vjf.cnrs.fr/pers/mettouchi/

Objectif du projet

Bien qu’il existe un certain nombre de projets impliquant des corpus, dans des langues diverses y compris des langues peu décrites, il n’y a eu que peu de tentatives consistant à rendre ces corpus exploitables pour des recherches typologiques (et en général comparatives). Des solutions informatiques permettant l’interopérabilité des formats et les conversions de fichiers existent, ce qui permet que techniquement ces corpus soient rassemblés dans un ensemble plus large, potentiellement moissonnable. Mais ces solutions n’auront de conséquences que si l’interopérabilité se fait sur le plan linguistique également. Or les schémas linguistiques d’annotation sont diversifiés, peu explicites et manquent de transparence.
Le projet CORTYPO vise à lever ce verrou, en testant des schémas d’annotation innovants sur des langues variées appartenant à plusieurs familles linguistiques, et en créant les conditions d’une future convergence dans l’annotation des corpus oraux dans des langues peu décrites.

Afin d’atteindre cet objectif, un certain nombre de questions fondamentales d’ordre théorique, concernant les formes et les fonctions dans les langues, doivent être résolues. Par exemple, quel type d’appareil théorique est requis pour permettre la comparaison de langues déployant des moyens de codage formels différents, et des fonctions différentes. Le choix du projet est d’utiliser le cadre des Interactions Systémiques (Systems Interactions) développé par Zygmunt Frajzyngier.

En implémentant ces solutions théoriques dans la conception technique de corpus et de bases de données, CORTYPO pose les bases d’une démarche comparative fondée sur l’évaluation empirique et la falsification des hypothèses sous-tendant l’analyse des phénomènes considérés. Par les solutions qu’il propose au problème de l’interopérabilité linguistique, il ouvre la voie vers un travail à grande échelle de comparaison typologique, fondée sur des données de première main.

Dimension innovante du projet

La dimension innovante du projet est double :

1. elle réside dans l’annotation de textes indexés au son, fondée sur les moyens formels existant dans la langue considérée, y compris les moyens prosodiques, les ordres linéaires, et les changements phonologiques et morphologiques permettant la détermination d’unités syntaxiques et fonctionnelles dans la langue en question;

2. elle est également présente dans l’élaboration d’une base de données fonctionnelle reliée au corpus. La base de données contiendra des informations complexes concernant les fonctions grammaticalisées dans chaque langue, et les formes qui encodent ces fonctions. La base de données sera reliée au corpus à travers un moteur d’interrogation, de manière que les formes, et en dernière instance les exemples contextualisés, soient recouvrables.

L’ensemble constitué du corpus et de la table fonctionnelle de la base de données sera complété par une table des catégories linguistiques qui fournira les informations terminologiques et les définitions de toutes les entrées du corpus et de la base de données fonctionnelle. Cette table garantira la transparence et la réplicabilité des analyses, et constituera un réservoir d’entrées pour le registre ISOcat, à laquelle elle sera interfacée.

Les livrables du projet constituent une solution pilote pour l’élaboration d’une comparaison typologique fondée sur des données empiriques provenant de langues très diverses.