Collecter des données sur le web

Python pour le webscraping

Parcours de formation proposé par la MSH Lyon St-Etienne.
Du 11 janvier au 22 février 2021.

Partant du constat souvent répété de l'accumulation croissante des données produites chaque année, dont une part importante circule sur le web, cette formation vise à introduire des notions élémentaires de structuration, formatage et traitements de corpus de données, étapes préalables et néanmoins essentielles à tout travail d'analyse.

 

Il s'agira de travailler particulièrement à partir des données du web puisque celui-ci constitue aujourd'hui une source d'information très riche et utile dans le cadre de travaux de recherche, qu'il s'agisse d'interroger les dynamiques des sociétés contemporaines (à travers l'étude de corpus de données extraits des réseaux sociaux, par exemple), la production de savoirs et l'émergence de controverses (à travers l'étude des échanges sur les pages Wikipédia, par exemple), la formation d'opinions publiques (à travers l'étude de corpus de presse), etc. Les outils de collecte et de traitement de données sont également utiles pour tout travail à partir de corpus de données volumineux, trop importants pour être parcourus de manière cursive ou traités "à la main".

 

Ce que cette formation n'est pas : Il ne s'agit pas d'une formation d'analyse de données textuelles, ni d'analyse quantitative. Elle s'arrêtera à présenter les différents environnements techniques nécessaires à comprendre pour pouvoir collecter et exploiter des données issues du web. Ces compétences pourront être déclinées pour traiter de grands jeux de données textuelles extraites d'autres supports (lots de fichiers PDF, texte brut, etc.).

 

Objectifs

  • Comprendre l'environnement technique du web, les principes de bases et la façon, notamment, dont ses formats spécifiques permettent des traitements utiles à la sélection et au filtrage de données en amont d'opérations de collecte
  • Comprendre les formats de fichiers structurés et les façons d'interagir avec eux (structures de données)
  • Comprendre les briques élémentaires de l'algorithmie pour construire des scripts utiles pour la collecte et le nettoyage de données
  • Interroger des pages web et récupérer leur contenu filtré/nettoyé
  • Mettre au clair les aspects éthiques et légaux du webscraping

 

Intervenants

Romain Mularczyk, ingénieur d’études en gestion de données (Univ. Lyon 2, MSH Lyon St-Etienne)
Agathe Déan, statisticienne (CNRS, MSH Lyon St-Etienne)

 

Public

Ces ateliers sont ouverts à tous les personnels (chercheurs, enseignants-chercheurs, ingénieurs et techniciens, doctorants) membres des laboratoires associés à la MSH Lyon St-Etienne.

 

Programme

>> Programme complet & informations (pdf)

 

11 janv 2021 : Le web
18 janv 2021 : Introduction à Python 3
25 janv 2021 : Python 3 (suite)
1er fév 2021 : Rappels et introduction au webscraping
8 fév 2021 : Application au webscraping
15 fév 2021 : Concepts avancés et conclusion
22 fév 2021 : Pratique

 

 

Information pratiques

Lieu : en raison de la situation sanitaire actuelle, les sessions seront organisées en distanciel/visioconférence.

Inscription :
L’inscription à ce parcours de formation est gratuite mais obligatoire (10 personnes maximum).
Merci de vous inscrire avant le 4 janvier 2021 >> formulaire en ligne

Contacts
Contenu des sessions, organisation : romain.mularczyk (a) msh-lse.fr / agathe.dean (a) msh-lse.fr

À télécharger

Programme complet & informations (pdf)

Mots clefs