Appel à communicationsLa constitution de corpus en diachronie longue :Méthodologies, objectifs et exploitations linguistiques et stylistiques13 et 14 octobre 2022, GrenobleDepuis plusieurs décennies, la numérisation des textes anciens et les progrès du TAL pour les traiter et les interroger ont largement modifié nos habitudes de travail. Il est désormais possible d’obtenir des données quantitatives massives qui affinent notre perception des phénomènes linguistiques ou stylistiques pour des corpus écrits dans des états de langue anciens. Les corpus numériques créés depuis maintenant près d’un quart de siècle permettent d’envisager plus facilement la dynamique du français en diachronie longue dont l’aboutissement, après de nombreuses années de travail, de la Grande Grammaire Historique du Français (Marchello-Nizia et alii, 2020) constitue un bel exemple. Nous définissons un corpus en diachronie longue comme un corpus périodisé, regroupant des textes choisis pour leur caractère représentatif des états de langue (de l’ancien français au français contemporain) des périodes couvertes par le corpus. Depuis les années 1980, les chercheurs et chercheuses bénéficient de la base textuelle Frantext, la première en langue française, qui a permis de mener des investigations, au sein de textes littéraires, sur un très large empan temporel. Le travail pionnier de la Base de Français Médiéval(1989) a permis la constitution d’un corpus de textes littéraires et non littéraires, toutefois limité, comme son nom l’indique, à la période de l’ancien français et du moyen français. De très nombreux corpus plus spécifiques à un genre textuel les ont rejoints (par exemple, le corpus sur 6 siècles de coutumiers normands du projet Condé ou le corpus de sermons protestants du 16e au 18e siècle du projet Sermo). La première étape dans la construction d’un corpus, comme le rappellent Reppen (2010 : 31) et Nelson (2010 : 53), est de savoir précisément quel est l’objectif poursuivi. Par exemple, la sélection de sources comparables pour permettre des analyses quantitatives homogènes est essentielle et la temporalité prise en compte dépend des phénomènes que l’on veut observer (GGHF 2020 : 43). Ensuite, la construction d’un corpus est le fruit de choix raisonnés qui visent à satisfaire le principe de la représentativité : « [a corpus is] a collection of texts assumed to be representative of a given language put together so that it can be used for linguistic analysis. » (Tognini-Bonelli, 2001 : 2). Ce principe de représentativité recouvre des réalités diverses en fonction des objectifs visés par celles et ceux qui construisent les corpus : les lexicographes qui souhaitent rendre compte du sens d’unités lexicales n’auront pas les mêmes exigences de représentativité que les linguistes et stylisticiens qui travaillent sur la caractérisation d’un genre textuel. Certains posent comme essentiels le fait de recourir exclusivement à des textes intégraux (Rastier, 2011 : 33), d’autres rappellent qu’un corpus ne peut être qu’un échantillon et qu’à ce titre, il peut être construit à partir d’échantillons (Renouf, 1987 ; Biber, 1993). Ainsi, l’objectif de ce colloque est d’interroger d’une part les choix constitutifs de nos corpus en diachronie longue, d’autre part les objectifs linguistiques mais aussi stylistiques ou littéraires qui déterminent leur constitution. Les axes de recherche que nous proposons peuvent se situer dans une perspective à la fois rétrospective (quel a été l’apport des corpus diachroniques ? comment valoriser les corpus constitués au cours des dernières décennies ?) et prospective (quels sont les défis théoriques et méthodologiques qui attendent la recherche en diachronie à l’ère des humanités numériques et des corpus outillés ?). Les réflexions pourront s’appuyer sur des corpus en langue française ou en langue étrangère. Axe 1 : La constitution d’un corpusCréer des corpus aptes à fournir des données en diachronie longue pose de nouvelles questions d’homogénéité des outils et des supports à tous les niveaux de la chaîne de préparation du matériau : de la sélection des textes à leur traitement. Par exemple, dans la présentation des critères choisis pour construire le corpus de la GGHF (2020 : 42-43), Sophie Prévost oppose d’un côté les textes sélectionnés selon des critères paratextuels, « qui relèvent davantage du point de vue que le locuteur moderne porte sur ces textes » et qui impliquent de choisir des textes de référence comme la Chanson de Roland ou la Queste del Saint Graal, et d’un autre côté les critères descripteurs qui relèvent plutôt de la temporalité propre à chaque phénomène linguistique. On interrogera en particulier
Axe 2 : Effectuer des recherches avec les corpus constituésL’objectif d’un corpus influe sur sa constitution, il importe alors de s’interroger sur les données qu’on souhaite en extraire.
Modalités La durée des présentations sera de 30 minutes suivies d’une discussion de 10 minutes. Le colloque se déroulera en mode hybride. Les langues de communication acceptées sont le français et l’anglais. Les résumés doivent être compris entre 300 et 500 mots (sans compter les références bibliographiques). Tous les résumés doivent être remis en deux versions, une version anonymisée et une version précisant le nom et l’affiliation de l’auteur sur le site de la conférence : https://concordial2022.sciencesconf.org
ReferencesBiber D. (1993). Representativeness in Corpus Design. Literary and Linguistic Computing, 8(4): 243-257. Diwersy S., Jackiewicz A., Luxardo G. & Steuckardt A. (2021). Les sens de « numérique » : émergence d’emplois et dynamique du changement sémantique. Linx82. https://doi.org/10.4000/linx.8153 Galleron I., Fatiha I., Lavrentiev A., Demonet M.-L. & Réach-Ngô A. (2021). Décrire les textes dans le cadre d’une édition numérique : Le thésaurus “Typologie textuelle” du Consortium CAHIER. Glikman J. & Verjans T. (dir.) (2021). Regards linguistiques sur les éditions de textes médiévaux, Diachroniques, 8 : 7-16. Gries S. Th. & Hilpert M. (2008). The identification of stages in diachronic data: variability-based neighbour clustering. Corpora, 3: 59–81. Herman O. & Kovář V. (2013). Methods for Detection of Word Usage over Time. In Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013: 79–85. Hilpert, M. & Gries, S. Th. (2009). Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing, 24(4): 385–401. Lavrentiev A., Guillot-Barbance C. & Heiden S. (2021). Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots, Diachroniques,8 : 76-102. Lebart L., Salem A. & Berry L. (1998). Exploring Textual Data. Kluwer Academic Publisher. Malrieu D. & Rastier F. (2001). Genres et variations morphosyntaxiques. Traitement automatique des langues, 42.2 : 547-577. Marchello-Nizia C., Combettes B., Scheer T. & Prévost S (2020). Grande Grammaire Historique du Français (GGHF). De Gruyter. Martineau F. (2008). Un corpus pour l’analyse de la variation et du changement linguistique, Corpus, 7 <https://doi.org/10.4000/corpus.1508> Martineau F. & Séguin M.-C. (2016). Le Corpus FRAN : réseaux et maillages en Amérique française, Corpus, 15 <https://doi.org/10.4000/corpus.2925> McEnery T. & Wilson A. (dir.) (2001). Corpus linguistics, Edinburgh University Press. Nelson M. (2010). Building a written corpus. In A. O’Keeffe & M. Mc Carthy (éd.), The Routledge Handbook of Corpus Linguistics (p.53-65). Routledge. Prévost S. (2015). Diachronie du français et linguistique de corpus : une approche quantitative renouvelée. Langages, 197 : 23-45 <https://doi.org/10.3917/lang.197.0023> Rastier F. (2011). La mesure et le grain. Sémantique de corpus. Honoré Champion. Reppen R. (2010). Building a corpus. What are the key considerations? In A. O’Keeffe & M. Mc Carthy (éd.), The Routledge Handbook of Corpus Linguistics (p.31-37). Routledge. Salem A. (2021). Le temps lexical. Histoire & Mesure, Vol.XXXVI-2. Tognini-Bonelli E. (2001). Corpus Linguistics at Work. John Benjamins Publishing Company. Zufferey S. (2020). Introduction à la linguistique de corpus, ISTE Editions.
|
Personnes connectées : 2 | Vie privée |