Humanités numériques

Numérisation, gestion et analyse de données de recherche

La MSH Lyon St-Etienne dispose d’une plateforme de numérisation (équipements et logiciels), et propose à ses laboratoires de recherche en sciences humaines un accompagnement dans la gestion, le traitement et l'analyse de données.

Numériser pour étudier et diffuser

La numérisation est la conversion d’un signal (textes, images, sons) sous forme de données pouvant être traitées par un dispositif informatique.

En sciences humaines et sociales, la numérisation sert différents objectifs :

  • pérenniser et archiver des documents à valeur patrimoniale ;
  • créer des corpus (fonds) numériques constituant des objets de recherche ;
  • rendre accessible ces fonds à la communauté scientifique, voire à la société.

La MSH mutualise du matériel et des outils de numérisation, mais apporte aussi des compétences spécifiques pour mieux accompagner les chercheurs en littérature, histoire, gestion, géographie, etc.

Du matériel à disposition

La MSH met à disposition des laboratoires du matériel adapté pour numériser différents supports.

Plusieurs scanners permettent la numérisation de supports papier (textes et illustrations) : ouvrages anciens, revues historiques, cartes et plans, fonds administratifs, etc. D’autres scanners sont destinés aux supports spécifiques comme les photographies (films, diapositives, tirages papier) et les documents stockés sur microfiches ou microfilms.

Une station de numérisation associée au matériel permettent de récupérer les contenus numériques dans un format utilisable.

Scanner A3 couleur à plat (Epson 1000 XL)

Résolution optique 2400 dpi
Lecteur de transparents, films photos et diapos
Tarif laboratoires associés : gratuit

Scanner de documents A3 (Epson DS-60000)

Résolution optique 600 dpi
Chargeur automatique, capacité 200 feuilles
Jusqu’à 40 pages/minute, fonction recto-verso
Tarif laboratoires associés : gratuit

Scanner de livres

Résolution optique de 600 dpi
Ouverture des livres à 180 ou 90°, jusqu’au format A1
Tarif laboratoires associés : prestation gratuite, location équipement (tarif MOM)

Scanner de plans/documents grands formats (Xpress)

Résolution optique 1200 dpi, 48 bits couleur, 16 bits niveaux de gris
Format A0, largeur de numérisation maximum 106 cm
Epaisseur maximum 2 mm
Tarif laboratoires associés : gratuit

Scanner de diapositives / films

Résolution d’analyse de 4000 dpi
Chargeur 50 diapositives, chargeur de film et cache pour film Kodak
Tarif laboratoires associés : gratuit

Scanner de microfilms / fiches

Résolution optique de 600 dpi niveau de gris.
Lecteur de Micro-film 16 & 35 mn, lecteur de micro-fiche
Acquisition sur fichiers numériques
Tarif laboratoires associés : gratuit

Des outils de traitement et des services associés

La MSH met à disposition les logiciels nécessaires au traitement de ces objets une fois numérisés :

  • reconnaissance optique de caractères (OCR), mise en pages ;
  • traitement d’images (rééchantillonnage, recalibrage) ;

Ces travaux peuvent être effectués par la MSH pour remettre aux chercheurs des contenus directement exploitables (livraison du fac-similé d’un ouvrage récent, OCR de documents administratifs).

En lien avec la numérisation, la révision et la mise en forme de textes peuvent aussi être réalisées. Pour les corpus numériques constitués, des services sont fournis pour l’hébergement informatique des bases de données, ou la diffusion en ligne.

Gérer, traiter et analyser ses données

La MSH conseille les équipes de recherche aux différentes étapes de la gestion, du traitement et de l’analyse de données, qualitatives et quantitatives.

 

Aide à la constitution de corpus
Un accompagnement peut-être effectué dès le début du projet en vue de la constitution de corpus si le projet n’en est pas initialement pourvu.
Il est possible de recenser les bases de données existantes et pertinentes pour le projet afin de réutiliser leurs données, ou bien d’envisager l’extraction automatisée de données sur le web, ou web scraping.
Une attention particulière est portée sur les aspects juridiques lors de cette étape :

  • En cas de réutilisation de données, il s’agit de s’assurer de la licence de ladite base.
  • En cas de web scraping, le projet doit répondre à un certain nombre de critères pour entrer dans le cadre de l’exception TDM en vigueur dans le droit français
  • Dans les deux cas, une attention doit être portée sur le respect du RGPD en cas de collecte de données personnelles. Un lien avec Céline Faure peut-être envisagé.
  • En cas de web scraping, nous procédons par collecte via le langage de programmation Python et fournissons ensuite les données au demandeur.

 

Nettoyage/Curation, recodage et formatage de données modélisation et implémentation
Les données ainsi collectées et/ou fournies par le chercheur peuvent bénéficier d’un accompagnement en matière de curation, recodage et/ou modification de format.
Un dialogue se met en place entre notre service et le demandeur afin d’établir ensemble un format idéal de conversion des données, en vue d’un traitement spécifique éventuel.
Nous pouvons ainsi permettre l’automatisation de certaines tâches de nettoyage de données, par l’usage de langage de programmation ou de logiciel, à l’image d’OpenRefine.

 

Constitution de base de données
Afin de structurer un corpus, nous pouvons accompagner sur la mise en place d’une base de données. Notre service procède toujours par une courte sensibilisation au concept de modélisation conceptuelle, qui s’avère indispensable pour l’établissement de la future base, mais qui permet aussi éventuellement d’enrichir les hypothèses voire d’en dégager de nouvelles.
Une fois le modèle/schéma créé, nous accompagnons également dans la mise en place de la base de données. L’outil de référence actuellement utilisé par notre service est Heurist : ce logiciel permet la création collaborative d’une base et s’avère suffisamment versatile et facile d’utilisation pour garantir une autonomie du chercheur/doctorant. C’est également un outil soutenu par l’IR* Huma-Num.

 

Analyses de données
Notre service propose un accompagnement dans l’analyse de corpus, essentiellement textuels. A cet égard, des langages de programmations comme Python, ainsi que des logiciels comme Iramuteq, TXM ou encore Gargantext peuvent être mobilisés.
En matière d’analyse, nous accompagnons notamment sur la textométrie, la lemmatisation de texte, l’extraction automatisée de caractéristiques (entités nommées, thématiques…), la mise en réseau de ces caractéristiques, voire un rendu cartographique simple (hors SIG) de celles-ci. Cette liste n’est pas exhaustive et nous invitons les personnes intéressées à nous contacter pour un échange approfondi et personnalisé autour des possibilités d’analyse de leur corpus.
De manière plus ponctuelle, un soutien sur l’analyse statistique de données quantitatives peut être fourni, notamment dans le cadre d’une collaboration de proximité à Saint-Etienne, mais nous conseillons généralement au demandeur de faire appel au pôle dédié à la MSH.

 

Edition critique de texte
Nous pouvons proposer un accompagnement dans l’établissement d’une édition critique de texte via un encodage en XML-TEI.

 

Développement d’outil
Certains projets de recherche peuvent nécessiter l’adaptation ou la création d’outils plus personnalisés. Nous pouvons, en concertation avec le demandeur, proposer le développement d’outils simples en nous reposant sur les langages de programmation Python (et éventuellement le framework Flask) ou R, sur les technologies web HTML, CSS et Javascript, ou encore sur les technologies liées aux bases de données et à leur traduction web avec le SQL et le PHP.
Dans un souci de gestion du temps entre les différents projets, nous insistons sur la simplicité des outils pouvant être développés et l’importance d’une concertation préalable avec le demandeur.
Un axe intéressant à explorer pour les chercheurs est l’automatisation de tâches répétitives : depuis plusieurs mois, nous mettons en place une automatisation desdites tâches auprès de certains d’entre vous.

 

Formation individuelles
La MSH proposer régulièrement des ateliers ou cycles de formation sur des questions en lien avec les humanités numériques >> Formation
Selon l’intérêt et le temps disponibles pour les personnes à l’origine de la demande, nous pouvons proposer un accompagnement pour la prise en main d’outils voire de langages informatiques.

 

Contact

Hélène Kieffer

Numérisation de documents, pré-traitements, mise en pages

Orline Poulat

Humanités numérique, gestion de données | Antenne St-Etienne

Mots clefs