Le web-scraping ou comment récolter de la data en masse

Le web-scarping désigne l’ensemble des techniques permettant d’extraire, totalement ou partiellement, le contenu d’un site web, par le biais d’un script ou un programme, dans le but de le stocker comme data brut pour un besoin ultérieur ou de le transformer pour un usage dans un contexte différent.

Le traitement des data est devenu un secteur économique important. Les starts-up rivalisent et innovent en solutions technologiques de collecte et d’analyse de données, alors que les grandes organisations (privées ou publiques) ne prennent plus de décisions stratégiques sans recours aux analyses des data-scientists.

Si l’utilité du web scarping n’est plus à démontrer en notre ère caractérisée par l’abondance des données virtuelles, l’utilisation des data collectées est sujette à polémique. Conséquemment à son ampleur, le législateur s’en est mêlé.

Les applications du scraping web ?

L’objectif du scraping (appelé aussi harvesting) est d’extraire des textes ou des informations à partir d’un site web existant via des scripts (programmes informatiques). La data extraite est soit utilisée pour alimenter et enrichir une base de données existante soit exploitée directement à d’autres fins : veille concurrentielle, référencement, e-commerce…

Veille concurrentielle

Utilisé en tant qu’outil de veille ou de benchmarking, le web scraping est toléré. À cette fin, une alerte est souvent programmée pour signaler une modification (paramétrée à l’avance) portée au site concurrent : fonctionnalité d’un logiciel concurrent, ajout de catégories, suppression de pages…

Duplicate content

Le scrapeur cherche à générer automatiquement du contenu textuel déjà optimisé pour booster son référencement naturel. Cette application du scraping est interdite par les moteurs de recherche. En effet, Google sanctionne sévèrement le duplicate content et le mashup (re-création automatique de pages web à partir de plusieurs sources), il le classe comme technique de blackhat SEO.

Commerce électronique

Il s’agit de surveiller les prix des concurrents ou de créer un comparateur de prix. Toute modification est signalée et reportée dans le tableau comparatif.

L’aspect légal du web scraping

Toutes les branches du droit français n’appréhendent pas de la même manière la pratique du web scraping :

Droit pénal : l’article 323-3 condamne l’extraction des données. L’intention frauduleuse est caractérisée si l’auteur avait conscience de commettre un acte frauduleux (peine de 5 ans d’emprisonnement et 150 000 euros d’amendes !).

Droit de la concurrence : le web scrapeur est considéré comme un agent parasite qui s’immisce dans le sillage du propriétaire du site et qui tire profit de ses efforts et son savoir-faire sans faire lui-même un effort. C’est l’utilisation des données parasitées (extraites) qui est condamnée et non la pratique en elle-même.

Droit de la propriété intellectuelle : cette branche du droit d’auteur ne sanctionne pas le scrapeur s’il procède à des modifications substantielles de données extraites.

En résumé, c’est l’utilisation à caractère frauduleux du scraping qui est réprimée et non la technique en elle-même. Du côté américain, la législation considère que toute information diffusée sur internet est d’ordre public. En conséquence, les scrapeurs américains ont les mains plus libres que leurs homologues européens.

Quelques outils de web-scraping

Découvrez les meilleurs outils pour le scraping de data afin d’automatiser la collecte de données sur Internet. Un grand nombre doutils peut être utilisé depuis son navigateur en libre-service. Toutefois, si les sites web visés présentent des systèmes de défense robustes, que le volume des data est important ou que le scraping est régulier, il faudra recourir aux services dun fournisseur de solution d’extraction clés en main.

Les outils les plus utilisés seraient Data Scraper, Agenty, Scrapy, Import.io et Scrapbox.

Le big data et le clouding sont actuellement très plébiscités ; ils le seront encore plus dans le futur. En conséquence, la pratique du scraping se développera et s’affinera plus. Toutefois, prudence est de mise tant que le législateur français et européen n’a pas adopté totalement la vision de son homologue américain en matière de web scraping.