Apport des ressources numériques à l’occitan et à ses usagers

Adiu1

A l’heure actuelle, pour favoriser la diffusion, la sauvegarde et l’enseignement de l’occitan, il est crucial de doter la langue de ressources numériques. La question est au cœur du débat comme en atteste le dernier D’ÒC Show (ÒC télé) de l’année 2017 consacré à la question des nouvelles technologies pour l’Occitan.

L’avènement du numérique bouleverse les usages de lecture et d’écriture ainsi que les modes de production et de transmission du savoir. Par exemple, Lo Congrès Permanent de la Lenga Occitana met à disposition, via son application Dico d’òc, des versions numériques de 15 dictionnaires bilingues originellement diffusés en version papier. Le Centre Interrégional de Développement de l’Occitan a développé Occitanica, une médiathèque numérique qui donne accès à plus de 6000 documents en langue occitane. Grâce au numérique, il est maintenant possible d’accéder à une importante variété de ressources lexicales et textuelles, sur une multitude de support (ordinateur, téléphone, tablette) de façon rapide et efficace. Indéniablement le numérique favorise la conservation et la démocratisation des ressources en occitan, initialement diffusées en version papier.

Mais, le numérique permet également la constitution de ressources qui n’ont qu’une existence numérique, il s’agit des corpus et des lexiques. Nous appelons corpus, une collection de documents au format électronique assemblés selon un critère commun en vue d’une étude scientifique et lexique, une liste de formes au format électronique assemblées selon un critère commun et souvent enrichie d’informations, par exemple morphologiques ou sémantiques. Ces ressources sont souvent développées par et pour la recherche mais il peut également en découler des applications à l’usage de tous, qui offrent de nouveaux modes de consultation.

Du côté des corpus en occitan, la base de textes BaTelÒc, développée dans le laboratoire de linguistique CLLE-ERSS à l’université de Toulouse Jean Jaurès, n’est pas un corpus à proprement parler mais fourni les outils nécessaires pour leur constitution. BaTelÒc est une base contenant 95 textes de 49 auteurs différents, de 6 dialectes (Languedocien, Provençal, Gascon, Auvergnat, Limousin et Vivaro-Alpin), représentant plusieurs genres (roman, conte, mémoires, nouvelles, essai, poésie) et écrits en diverses graphies (graphie classique, graphie mistralienne ou graphie plus personnelle). Auteurs, dialectes, genres et graphies sont autant de critères en vue de la constitution de son propre corpus de travail, par exemple un corpus de romans gascons publiés après 1900, en vue d’étudier le gascon du XXème siècle. BaTelÒc propose des outils qui permettent :

  • d’observer les contextes d’emploi (concordances) d’un lemme (forme du mot qui constitue l’entrée d’un dictionnaire) avec le module de cèrca simple et éventuellement compléter la définition du dictionnaire en mettant au jour des expressions contenant le mot ou des structures grammaticales (quelles prépositions sont employées après un verbe par exemple) ;
  • d’observer les concordances d’un mot fléchi avec le module de cèrca simple ;
  • de créer un lexique de mots partageant un même préfixe ou suffixe avec le module de cèrca avançada et les fonctions commença per et s’acaba per par exemple pour constituer un lexique de mots construits avec le suffixe òt, autrement dit des mots qui s’acaba per òt ;
  • d’exprimer en une seule requête une combinaison de chaîne de caractères avec le langage des expressions régulières, par exemple tous les mots qui se terminent en òt, éventuellement suivi d’un a (pour les féminins), éventuellement suivi d’un s (pour les pluriels) ;
  • d’observer les concordances d’une locution (nominale, verbale, adjectivale, adverbiale…) en cherchant une séquence de plusieurs mots avec le module de cèrca avançava.

Avec un peu de pratique et de créativité, BaTelÒc offre de nouveaux moyens de découvrir la langue, de l’apprendre ou de la perfectionner, de la décrire et de l’analyser pour tous les usagers de l’occitan, qu’ils soient des curieux, des apprenants, débutants ou avancés. Un exemple plus complet d’une utilisation de BaTelÒc à la découverte du gascon est disponible ici.

Du côté des lexiques, LoFlòc, Lexique Ouvert Flexionnel de l’Occitan, également développé au sein du laboratoire CLLE-ERSS de l’université Toulouse 2 Jean Jaurès, est un lexique informatique de formes fléchies (toutes les formes conjuguées des verbes, les féminins et pluriels des adjectifs et pronoms et le pluriel des noms) enrichi avec des informations morphologiques (catégorie grammaticale et des informations, lorsque cela est pertinent, concernant le nombre, le genre, le temps, le mode et la personne). La première version de Loflòc a été construite, pour le languedocien, à partir de plusieurs ressources : le Dictionnaire Occitan-Français Languedocien de Laux (2001), le Dictionnaire Français-Occitan Languedocien de Laux (2005) ainsi que les données de l’application vèrb’Òc, conjugueur édité par Lo Congrès. LoFlòc a été conçu en premier lieu pour répondre au besoin de catégoriser BaTelÒc (associer à chaque mot de la base sa catégorie grammaticales et autres informations morphosyntaxiques) afin d’enrichir les modes de consultation. Mais LoFlòc en lui-même sera également consultable en ligne et permettra de nouvelles explorations telles que :

  • trouver un lemme (la forme non fléchie d’un mot qui constitue généralement l’entrée du dictionnaire), si par exemple on cherche la définition d’un mot fléchi comme foguèt ;
  • fléchir un mot, si par exemple on cherche à connaître la ou les pluriels possibles pour un mot comme bòsc ;
  • accéder aux informations morphosyntaxiques d’un mot fléchi, comme par exemple savoir à quel temps est conjuguée la forme « anèron ».

Pour conclure, la numérisation récente de ressources papier textuelles et lexicales a permis le développement de nouvelles ressources dont l’existence est uniquement digitale. Ces ressources issues de la recherche visent plusieurs grands objectifs parallèles :

  • préserver et diffuser le patrimoine linguistique occitan ;
  • fournir des données pour les chercheurs en linguistique, littérature, ethnographie… ainsi que pour les curieux, les apprenants débutants et avancés, les enseignants… ;
  • constituer les ressources nécessaires au développement de nouveaux outils (lire l’article (à paraître) BaTelÒc et LoFlòc, un couple bien assorti).

En savoir plus…

Bras, M., Thomas, J. (2007).  » Diccionaris, corpora, e basas de donadas textualas », Linguistica Occitana, 5, pp.1-22. (http://superlexic.com/revistadoc/wp-content/uploads/2013/07/Linguistica-occitana-5-BrasThomas.pdf)

Bras, M. & Vergez-Couret, M. (2016). « BaTelÒc: A text base for the Occitan language. », in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai’i Press, pp. 133-149.

Page de description de BaTelÒc (http://redac.univ-tlse2.fr/bateloc/infos/projecte.jsp)

Accueil de BaTelÒc (http://redac.univ-tlse2.fr/bateloc)

Publicités

1 réflexion au sujet de “Apport des ressources numériques à l’occitan et à ses usagers”

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s