Blog

Naviguer dans BaTelÒc à la découverte du gascon

Image1

A la suite de la présentation de la base BaTelÒc ici, cet article propose une mise en pratique plus détaillée et plus personnelle des fonctionnalités de la base à la découverte de la langue gasconne du XXème siècle. Pour commencer, nous nous constituons un corpus de travail avec des textes gascons publiés après 1900. Reprenons une à une les nouvelles possibilités offertes par BaTelòc avec des exemples tirés de la langue gasconne et une réflexion sur la façon d’enrichir nos connaissances sur la langue à partir des résultats obtenus :

  • Observer les contextes d’emploi (et compléter la définition du dictionnaire)

Enfant, j’ai souvent entendu le mot puisheu ou plus exactement l’expression « tira-te deu puisheu ».  Bien que je saisissais le sens général de l’expression que je pourrais paraphraser comme suit « sors-toi de mon chemin », l’examen du Diccionari elementari occitan gascon-francés édité chez Per Noste m’en apprend un peu plus sur ce mot. Puisheu est un nom masculin que l’on peut traduire en français par « embarras ». Le dictionnaire donne également des expressions courantes : tirar deu puisheu (dégager, débarrasser, désencombrer) ; tira’m aquò deu puisheu (débarrasse-moi de ça !) ; har puisheu (embarrasser, gêner, faire obstacle).

A présent, regardons les contextes d’emploi du mot puisheu dans BaTelÒc avec le module de Cèrca simple. Il y a 22 emplois de puisheu dans notre corpus. Puisheu est majoritairement employé dans les expressions tirar deu puisheu et har puisheu comme l’illustre cette sélection de contexte :

Los gardians que’s cargavan tanben de tirar deu puisheu los briacs qui podèn troblar l’ordi (Simin Palay)

‘u me tirar deu puisheu, que’u davi un honhat. (Miquèu de Camelat)

Quan era e’s virè, eth que’s lhevè a miejas, empachat com un mainadòt qui a paur de har puisheu. (Albert Peyroutet)

Mossu’u curè qu’ac sap, tanben lo dimenge  de la hèsta que ditz ua missa de matin entà liberar las cosinèras : la de haut dia que serà entaus envitats arribats de luenh, entaus òmis e entau mainadèr qui averé hèit puisheu per casa; mes n’i mancan pas tanpòc las gojatas, sustot las qui s’an podut har cóser un abilhèr de nau e qui an aquiu ua beròja ocasion de’s har remarcar. (Simin Palay)

Par ailleurs, l’examen des contextes d’emploi permet d’aller plus loin dans la description des emplois de puisheu comme la mise à jour d’autres expressions « èster de puisheu » (gêner) et « hòra deu puisheu » (qui se laisse plus difficilement traduire) :

Que devi èster de puisheu, que soi drin dur, mes ara que comenci d’ac compréner. (Miquèu de Camelat)

De puisheu  non n’ès, mes ja t’an devut díser de que’m maridan la setmana qui vié ? (Miquèu de Camelat)

(…) abans de guaire que seram tots hòra deu puisheu, vèn. (Miquèu de Camelat)

D’un còp de man, l’òmi que hicava hòra deu puisheu tandas d’atrunas. (Miquèu de Camelat)

et la mise à jour d’une structure grammaticale : l’expression har puishèu est suivie de la proposition a devant une personne et aus devant un groupe de personne (har puisheu a/aus + quelqu’un), ce qui évite de faire un calque du français : qui hè puisheu aus pompièrs, aus policièrs, Sèrgi Javaloyès (qui gêna les pompiers, les policiers) et har puisheu a Tornilhas, Miquèu de Camelat (gêner Tornilhas).

Observer les contextes d’emploi d’un mot permet avant tout de mettre au jour ce qu’on appelle des collocations. Une collocation est une combinaison de mots qui apparaissent fréquemment ensemble, par exemple on dira a votz hauta et a votz baisha plutôt que *a votz hòrta et *a votz febla pour à voix haute et à voix basse. Dans certains cas, ses associations préférées entre mots peuvent être signalées dans les dictionnaires comme dans le cas de puisheu. Mais dans certains cas, seul l’examen des contextes d’emploi permet de dégager ces collocations comme pour le mot capatge. Une cèrca simple du mot permet de mettre au jour les collocations òmi de capatge (homme ayant de nombreuses capacités) ou estar de capatge (avoir de nombreuses capacités).

Le degré le plus fort de la collocation est lorsque le sens de l’expression formée n’est pas ou plus dérivé de la combinaison du sens de chacune de ses parties comme l’expression har rampèu. Le rampèu est un jeu de quille et har rampèu un terme de jeu pour signifier que l’adversaire a marqué un point et qu’il est à égalité. Pour jeter un œil aux contextes d’emploi de har rampèu dans BaTelÒc, il faut utiliser le module de cèrca avançada qui permet de chercher les occurrences de har suivies de celles de rampèu. Ces contextes dévoilent les sens dérivés de l’expression que l’on peut traduire par « résister » ou « tenir tête » :

(…) l’estimavan capable de har rampèu au tribalh com un òmi, Albert Peyroutet (résister)

Oncle Eugène que s’èra lhevat tornar, e qu’anè de cap ad eth tà’u har rampèu (…), Sèrgi Javaloyès (tenir tête)

  • Observer les contextes d’emploi d’un mot fléchi

Les deux expressions har puisheu et har rampèu sont des locutions verbales qui peuvent donc se fléchir. Le module de cèrca avançada permet de chercher des parties de mots, par exemple des mots qui commencent par h suivis de rampèu ou puisheu : hè rampèu, hasí puisheu, hè puisheu

  • Créer un lexique de mots partageant un même préfixe ou suffixe

Comme pour les mots fléchis, le module de cèrca avançada et les fonctions commença per et s’acaba per permettent de chercher des mots qui contiennent des suffixes et des préfixes. Essayons par exemple de constituer un lexique de mots construits avec le suffixe òt, autrement dit des mots qui s’acaba per òt. On trouve timidòt, mainadòt, Janòt, copishòt, Mondòt, canhòt, omiòt… autant de mots qui rentrent dans le cadre de notre recherche mais aussi des mots comme pòt, clòt un verbe et un nom non construit qui ne nous intéressent pas. En linguistique, nous appelons cela du bruit, des résultats qui répondent aux critères formels – pas de doute que ce sont des mots qui finissent par òt – mais pas aux critères morphologiques et sémantiques qui guident notre recherche.

Le module de cèrca avançada permet de nombreuses possibilités de recherche pour compléter notre liste : par exemple essayer de discriminer les noms construits avec le suffixe òt en cherchant une séquence commençant par les mots lo ou un (article) : lo cabanòt, lo gojòt, lo gojatòt, lo vielhòt, un bosquetòt, un plaçòt, un paquetòt… la recherche est fructueuse mais n’évite pas le bruit comme lo pòt ou les locutions adverbiales un drinòt, un chicòt.

Enfin, il est possible de faire plusieurs recherches pour trouver les féminins (terminant en òta) puis les pluriels (terminant en òts ou òtas) à moins que vous n’utilisiez le langage des expressions régulières qui permet d’exprimer en une seule requête une combinaison de chaîne de caractères, par exemple tous les mots qui se terminent en òt, éventuellement suivi d’un a, éventuellement suivi d’un s. Ce langage est décrit dans la page d’aide (http://redac.univ-tlse2.fr/bateloc/infos/ajuda.jsp).

Avec un peu de pratique et de créativité, BaTelÒc offre de nouveaux moyens de découvrir la langue, de l’apprendre ou de la perfectionner, de la décrire et de l’analyser aux niveaux lexical, morphologique, syntaxique…

Publicités

Apport des ressources numériques à l’occitan et à ses usagers

Adiu1

A l’heure actuelle, pour favoriser la diffusion, la sauvegarde et l’enseignement de l’occitan, il est crucial de doter la langue de ressources numériques. La question est au cœur du débat comme en atteste le dernier D’ÒC Show (ÒC télé) de l’année 2017 consacré à la question des nouvelles technologies pour l’Occitan.

L’avènement du numérique bouleverse les usages de lecture et d’écriture ainsi que les modes de production et de transmission du savoir. Par exemple, Lo Congrès Permanent de la Lenga Occitana met à disposition, via son application Dico d’òc, des versions numériques de 15 dictionnaires bilingues originellement diffusés en version papier. Le Centre Interrégional de Développement de l’Occitan a développé Occitanica, une médiathèque numérique qui donne accès à plus de 6000 documents en langue occitane. Grâce au numérique, il est maintenant possible d’accéder à une importante variété de ressources lexicales et textuelles, sur une multitude de support (ordinateur, téléphone, tablette) de façon rapide et efficace. Indéniablement le numérique favorise la conservation et la démocratisation des ressources en occitan, initialement diffusées en version papier.

Mais, le numérique permet également la constitution de ressources qui n’ont qu’une existence numérique, il s’agit des corpus et des lexiques. Nous appelons corpus, une collection de documents au format électronique assemblés selon un critère commun en vue d’une étude scientifique et lexique, une liste de formes au format électronique assemblées selon un critère commun et souvent enrichie d’informations, par exemple morphologiques ou sémantiques. Ces ressources sont souvent développées par et pour la recherche mais il peut également en découler des applications à l’usage de tous, qui offrent de nouveaux modes de consultation.

Du côté des corpus en occitan, la base de textes BaTelÒc, développée dans le laboratoire de linguistique CLLE-ERSS à l’université de Toulouse Jean Jaurès, n’est pas un corpus à proprement parler mais fourni les outils nécessaires pour leur constitution. BaTelÒc est une base contenant 95 textes de 49 auteurs différents, de 6 dialectes (Languedocien, Provençal, Gascon, Auvergnat, Limousin et Vivaro-Alpin), représentant plusieurs genres (roman, conte, mémoires, nouvelles, essai, poésie) et écrits en diverses graphies (graphie classique, graphie mistralienne ou graphie plus personnelle). Auteurs, dialectes, genres et graphies sont autant de critères en vue de la constitution de son propre corpus de travail, par exemple un corpus de romans gascons publiés après 1900, en vue d’étudier le gascon du XXème siècle. BaTelÒc propose des outils qui permettent :

  • d’observer les contextes d’emploi (concordances) d’un lemme (forme du mot qui constitue l’entrée d’un dictionnaire) avec le module de cèrca simple et éventuellement compléter la définition du dictionnaire en mettant au jour des expressions contenant le mot ou des structures grammaticales (quelles prépositions sont employées après un verbe par exemple) ;
  • d’observer les concordances d’un mot fléchi avec le module de cèrca simple ;
  • de créer un lexique de mots partageant un même préfixe ou suffixe avec le module de cèrca avançada et les fonctions commença per et s’acaba per par exemple pour constituer un lexique de mots construits avec le suffixe òt, autrement dit des mots qui s’acaba per òt ;
  • d’exprimer en une seule requête une combinaison de chaîne de caractères avec le langage des expressions régulières, par exemple tous les mots qui se terminent en òt, éventuellement suivi d’un a (pour les féminins), éventuellement suivi d’un s (pour les pluriels) ;
  • d’observer les concordances d’une locution (nominale, verbale, adjectivale, adverbiale…) en cherchant une séquence de plusieurs mots avec le module de cèrca avançava.

Avec un peu de pratique et de créativité, BaTelÒc offre de nouveaux moyens de découvrir la langue, de l’apprendre ou de la perfectionner, de la décrire et de l’analyser pour tous les usagers de l’occitan, qu’ils soient des curieux, des apprenants, débutants ou avancés. Un exemple plus complet d’une utilisation de BaTelÒc à la découverte du gascon est disponible ici.

Du côté des lexiques, LoFlòc, Lexique Ouvert Flexionnel de l’Occitan, également développé au sein du laboratoire CLLE-ERSS de l’université Toulouse 2 Jean Jaurès, est un lexique informatique de formes fléchies (toutes les formes conjuguées des verbes, les féminins et pluriels des adjectifs et pronoms et le pluriel des noms) enrichi avec des informations morphologiques (catégorie grammaticale et des informations, lorsque cela est pertinent, concernant le nombre, le genre, le temps, le mode et la personne). La première version de Loflòc a été construite, pour le languedocien, à partir de plusieurs ressources : le Dictionnaire Occitan-Français Languedocien de Laux (2001), le Dictionnaire Français-Occitan Languedocien de Laux (2005) ainsi que les données de l’application vèrb’Òc, conjugueur édité par Lo Congrès. LoFlòc a été conçu en premier lieu pour répondre au besoin de catégoriser BaTelÒc (associer à chaque mot de la base sa catégorie grammaticales et autres informations morphosyntaxiques) afin d’enrichir les modes de consultation. Mais LoFlòc en lui-même sera également consultable en ligne et permettra de nouvelles explorations telles que :

  • trouver un lemme (la forme non fléchie d’un mot qui constitue généralement l’entrée du dictionnaire), si par exemple on cherche la définition d’un mot fléchi comme foguèt ;
  • fléchir un mot, si par exemple on cherche à connaître la ou les pluriels possibles pour un mot comme bòsc ;
  • accéder aux informations morphosyntaxiques d’un mot fléchi, comme par exemple savoir à quel temps est conjuguée la forme « anèron ».

Pour conclure, la numérisation récente de ressources papier textuelles et lexicales a permis le développement de nouvelles ressources dont l’existence est uniquement digitale. Ces ressources issues de la recherche visent plusieurs grands objectifs parallèles :

  • préserver et diffuser le patrimoine linguistique occitan ;
  • fournir des données pour les chercheurs en linguistique, littérature, ethnographie… ainsi que pour les curieux, les apprenants débutants et avancés, les enseignants… ;
  • constituer les ressources nécessaires au développement de nouveaux outils (lire l’article (à paraître) BaTelÒc et LoFlòc, un couple bien assorti).

En savoir plus…

Bras, M., Thomas, J. (2007).  » Diccionaris, corpora, e basas de donadas textualas », Linguistica Occitana, 5, pp.1-22. (http://superlexic.com/revistadoc/wp-content/uploads/2013/07/Linguistica-occitana-5-BrasThomas.pdf)

Bras, M. & Vergez-Couret, M. (2016). « BaTelÒc: A text base for the Occitan language. », in Vera Ferreira and Peter Bouda (eds.) Language Documentation and Conservation in Europe, Honolulu: University of Hawai’i Press, pp. 133-149.

Page de description de BaTelÒc (http://redac.univ-tlse2.fr/bateloc/infos/projecte.jsp)

Accueil de BaTelÒc (http://redac.univ-tlse2.fr/bateloc)