GEODISCO

Approche géomatique et linguistique du discours encyclopédique des Lumières à Wikipédia

Géographie Histoire Informatique Linguistique

GEODISCO combine traitement automatique du langage (TAL), statistique textuelle, analyse du discours et système d’information géographique autour d’une même question : "Quelles représentations géographiques du monde les encyclopédies françaises véhiculent-elles à travers leurs discours, et que nous disent ces représentations sur chacune des époques où ces encyclopédies ont été écrites et publiées ?"

Problématique

 

GEODISCO est un projet de collaboration interdisciplinaire qui réunit des chercheurs en linguistique (ICAR, D. Vigier), en informatique (LIRIS, L. Moncla), en histoire (The Alan Turing Institute, K. McDonough) et en géographie (EVS, T. Joliveau). Il propose de faire converger les acquis, les outils et les méthodes élaborés dans trois laboratoires du pôle universitaire Lyon-St-Etienne autour d’un objet scientifique partagé : le discours géographique tenu dans les encyclopédies françaises des Lumières à Wikipédia.

 

Dans un premier temps notre travail se concentre sur l’Encyclopédie ou Dictionnaire Raisonné des Sciences, des Arts et des Métiers dirigée par Diderot et d’Alembert (1751-1772).

 

Notre objectif est de combiner les méthodes et les ressources du TAL et de la cartographie d’une part, des humanités numériques et de la statistique textuelle d’autre part, afin de proposer une première analyse de la manière dont ces trois encyclopédies se réfèrent à – et rendent compte de – l’espace. L’objectif, combinant approche linguistique, historique et géographique, est d’explorer les méthodes automatiques d’annotation spatiale des textes encyclopédiques et de cartographie des toponymes cités, cartographie que nous enrichirons d’informations contextuelles extraites des textes. Notre conviction est que de telles visualisations enrichies par des informations linguistiques constitueront des objets numériques à fort potentiel heuristique en vue de mieux appréhender et de mieux comparer les spécificités du discours géographique tenu dans telle ou telle œuvre de notre corpus.

L'Encyclopédie : une ressource géographique

Une première partie de notre travail a consisté à construire le réseau des citations des noms de lieux au sein des articles géographiques de l’encyclopédie. Chaque nœud de ce réseau représente un article et les relations sont calculés à partir des noms de lieux extraits automatiquement du contenu des articles. Des métriques d’analyse de graphes nous permettent ensuite de combiner informations quantitatives et qualitatives.

 

Nous avons ainsi pu utiliser ce réseau pour la tâche de désambiguïsation de toponymes avec comme objectif d’associer une localisation (même relative) à des lieux inconnus.

 

Il s’agit ici d’une première cartographie limitée des connaissances géographiques de l’époque. Nous comptons désormais enrichir cette représentation en intégrant plus d’informations extraites automatiquement des articles : nature géographique des lieux, relations spatiales exprimées entre les lieux, coordonnées géographiques (parfois exprimées et s’appuyant sur divers référentiels), etc.

Analyse linguistique et TAL

La plateforme de navigation et de calcul TXM développée à l’ENS de Lyon (http://textometrie.ens-lyon.fr) nous permet de fouiller les articles encyclopédiques et d’effectuer des calculs statistiques en recourant aux annotations linguistiques que nous avons introduites de manière semi-automatique dans les textes. Nous avons ainsi notamment pu identifier des motifs linguistiques récurrents dans les articles de Géographie, à même de nous aider dans l’annotation des toponymes. Ci-contre, une concordance obtenue sur le texte de l’Encyclopédie de Diderot et d’Alembert

Valorisation

Publications

  • Ludovic Moncla, Denis Vigier, Katherine McDonough, Alice Brenon, Thierry Joliveau, « Combinaison d’approches qualitative et quantitative pour le repérage et la classification des entités nommées dans l’ Encyclopédie de Diderot et d’Alembert (1751-1772) », TheorLing 2020, Neuchâtel, Switzerland, 3-4 June 2020.
  • Denis Vigier, Ludovic Moncla, Alice Brenon, Katherine McDonough, Thierry Joliveau, « Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres (1751-1772) », 7e Congrès Mondial de Linguistique Française, Montpellier, France, July 6-10, 2020.
  • Ludovic Moncla, Katherine McDonough, Denis Vigier, Thierry Joliveau, and Alice Brenon, « Toponym disambiguation in historical documents using network analysis of qualitative relationships », GeoHumanities ’19: 3rd ACM SIGSPATIAL Workshop on Geospatial Humanities, Chicago, IL, 5-8 November, 2019.

 

Présentations orales et démos

  • Ludovic Moncla, Katherine Mcdonough, Denis Vigier, Thierry Joliveau, Alice Brenon, « Reconnaissance d’entité nommées et géoparsing appliqués à l’Encyclopédie », Rencontre de l’AP Humanités Numériques Spatialisées, en ligne, 24 juin, 2020.
  • Denis Vigier, Ludovic Moncla, Thierry Joliveau, Katherine Mcdonough, Alice Brenon, « GeoDISCO: Encyclopedic Geographical Discourse in France from the Enlightenment to Wikipedia », 13th International Workshop on Geographic Information Retrieval (GIR), Lyon, France, November 28-29, 2019.

 

Nouveau financement obtenu

Projet GEODE (2020-2024), financement LabEx ASLAN. Ce nouveau projet nous permet de continuer les travaux initiés grâce au financement de la MSH Lyon St-Etienne et nous permet d’intégrer de nouveaux partenaires ainsi que de nouveaux objectifs.

 

Partenaires

ICAR, EVS, LIRIS, The Alan Turing Institute (London)

 

Projet financé par la MSH Lyon St-Etienne dans le cadre de son appel à projets thématique 2018.
Année(s) de financement : 2019.

Responsable scientifique

Denis Vigier

Linguistique | Univ. Lyon 2, ICAR