Humanités numériques, acquisition & gestion de données

Web scraping
Moissonnage de données dans le cadre recherche scientifique
Le web scraping de données (anglicisme également traduisible par « moissonnage de données ») est une pratique souvent utilisée, qui se développe dans le milieu de la recherche, et permettant de collecter massivement et automatiquement des données (parfois personnelles !) sur des sites internet et souvent sur des réseaux sociaux.
La problématique soulevée est celle du droit à réutiliser les données moissonées, avec en prime, l’absence d’information des personnes concernées, l’absence de consentement des personnes concernées, et le non-respect des droits des personnes concernées.
Le web scraping : c’est quoi ?
Il consiste à extraire – de manière automatisée – le contenu de sites web par le biais d’un logiciel existant ou d’un programme informatique créé à cette fin, de manière à collecter automatiquement les données.
Quelles sont les règles encadrant le web scraping ?
Le web scraping est encadré par le code de la propriété intellectuelle, et peut être soumis à la Lil, et au RGPD selon les catégories de données collectées.
Le web scraping est encadré en droit français par l’article L. 342-3 du Code de la propriété intellectuelle. Il autorise :
- L’extraction ou la réutilisation d’une partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès. Cela signifie que le propriétaire du site web peut limiter le contenu pouvant être moissonné sur son site
- L’extraction à des fins privées est autorisée, dans le respect des dispositions législatives et réglementaires en matière de droits d’auteurs et de droits voisins sur les œuvres ou les éléments incorporés dans la base.
- L’extraction et la réutilisation d’une partie substantielle, appréciée de façon qualitative ou quantitative, à des fins exclusives d’illustration dans le cadre de l’enseignement et de la recherche et pour un public composé d’élèves, d’étudiants, d’enseignants ou de chercheurs directement concernés.
Peut-on, et comment web scrapper de manière légale ?
En principe, on n’a pas le droit si les CGU l’interdisent, mais depuis 2021, le code de la propriété intellectuelle reconnaît aux organismes de recherche entre autres, le droit de moissonner; et ce, dans le respect des autres droits applicables (ex : droits d’auteurs, droits des bases de données) notamment le droit de la propriété intellectuelle (ce qui implique par exemple de s’assurer du cadre légal de ses sources).
1. Contacter votre DPO référent >> envoyer votre projet de recherche au DPO référent pour analyse et inscription au registre, ainsi que pour réaliser si besoin une analyse d’impact sur la protection des données. Avec le DPO, vous définirez : le fondement du projet de recherche, le besoin d’obtenir un consentement le cas échéant, comment informer les personnes concernées (individuelles lorsque possible, sinon via site web du labo, réseau social), ou encore comment vérifier que la personne a elle-même rendu publique ses données ( page web que tout le monde peut voir, un groupe Facebook public auquel tout le monde peut accéder,.. par ex.). Si ce n’est pas le cas, le consentement est nécessaire, comme pour le cas des données sensibles.
2. Pour utiliser la technique du web scraping légalement, la première chose à faire est de prendre connaissance des conditions générales d’utilisation (CGU) du site que vous souhaitez scraper. Les CGU sont des codes de bonnes conduites des plateformes pouvant se baser sur des règlementations auxquelles on devrait se tenir. Par exemple, les CGU de LinkedIn ne permettent pas, en principe, de scraper des données.
3. Respecter les règles du Règlement Général de Protection des Données (RGPD).
4. Par ailleurs, si les CGU ne vous empêchent pas de scraper certaines données, certaines bonnes pratiques vous permettront de faire du web scraping de manière éthique et respectueuse :
– limiter les données scrapées à celles dont vous avez vraiment besoin.
– préférez les API : certains sites proposent des API permettant de collecter des données sans devoir les scraper ; La CNIL conseille d’utiliser les API dans le but de cibler des données spécifiques, et s’ils ne peuvent pas, il faudra justifier le besoin de collecte de l’ensemble des données
– respectez les fichiers Robots.txt : ces fichiers indiquent aux logiciels visitant le site les endroits dans lesquels ils sont autorisés et ceux où ils ne le sont pas.
– évitez de multiplier les requêtes a un rythme soutenu : ceci afin de ne pas surcharger le serveur hôte du site dont vous récupérez les données.

Quelles sont les sanctions possibles ?
Le web scraping illégal peut être sanctionné sur le fondement du droit pénal, du droit de la concurrence, du droit de la propriété intellectuelle, du droit des bases de données et du RGPD.
L’article 323-3 du code pénal punit de 150.000 euros d’amende et cinq d’emprisonnement « le fait d’introduire frauduleusement des données dans un système de traitement automatisé, d’extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu’il contient ». Le site web victime pourra intenter une action en responsabilité délictuelle et l’auteur du web scraping pourra être condamné au paiement de dommages et intérêts.
L’auteur du web scraping peut également être sanctionné sur le fondement de la propriété intellectuelle en cas de non-respect de l’article L. 342-3 du Code de la propriété intellectuelle.
La CNIL, Commission Nationale de l’Informatique et des Libertés peut sanctionner des pratiques de web scraping qui ne respecteraient pas la Lil, ou le RGPD, via une amende administrative pouvant aller jusqu’à 20 millions d’euros ou 4% du CA annuel mondial total de l’entreprise.
Lexique, sources et ressources
Lexique
API : interface de programmation applicative qui permet de connecter un logiciel ou un service à un autre logiciel ou service afin d’échanger des données et fonctionnalités.
DPD / DPO : Délégué à la Protection des Données ou Data Protection Officer.
Sources, ressources
Legifrance : Code de la propriété intellectuelle, article L342-3
CNIL : recommandations sur le sujet, fiche 3 et 4 notamment – réutilisateurs des données publiées sur internet (juin 2024)
MSH Ange-Guépin : article sur le web scraping, blog « So MSH ! » dédié à la science ouverte (oct 2022)
CNRS : le service protection des données publiera une fiche ou logigramme sur le web scraping prochainement