Web Scrapper

Ce projet consiste en un script Python pour effectuer le web scraping d'un site web donné. L'objectif est de récupérer tous les liens présents sur une page spécifique du site, de les valider et de générer un rapport des liens invalides. Pour cela, nous utilisons les bibliothèques BeautifulSoup, requests, pandas, numpy et yagmail. Étape 1 : Initialisation Le script commence par définir l'URL cible à partir de laquelle nous voulons extraire les liens. Dans cet exemple, l'URL est "https://testing.com/fr/plan-du-site". Étape 2 : Web Scraper Nous utilisons BeautifulSoup pour analyser le contenu HTML de la page cible et extraire tous les liens (<a>) qu'elle contient. Ces liens sont stockés dans une liste appelée links. Étape 3 : Validation des liens Nous validons ensuite chaque lien récupéré en effectuant des requêtes HTTP vers chacun d'eux. Les liens valides sont stockés dans une liste appelée correct_links, tandis que les liens invalides sont enregistrés dans une autre liste appelée error_links. Les liens invalides peuvent être ceux qui génèrent des erreurs lorsqu'on tente d'y accéder (par exemple, 404 Not Found), ou des redirections non valides (par exemple, 301 ou 302). Étape 4 : Génération du rapport Les liens invalides sont enregistrés dans un fichier CSV appelé error-links.csv à l'aide de la bibliothèque numpy. Étape 5 : Envoi d'un rapport par e-mail Le script utilise yagmail pour envoyer un rapport par e-mail. Pour cela, une adresse e-mail et un mot de passe valides sont requis pour accéder au service SMTP. Le rapport envoyé par e-mail contient la liste des liens invalides récupérés à partir du fichier CSV. Ce web scraper est utile pour effectuer une vérification de la validité des liens sur une page web spécifique. Il peut être adapté et étendu pour d'autres cas d'utilisation similaires. Toutefois, veillez à respecter les conditions d'utilisation du site web que vous scrapez et évitez de surcharger le serveur avec des requêtes excessives.

Détails Techniques

Web Scraper Sommaire

Un web scraper est un programme qui extrait automatiquement des données à partir de sites web. Il est très utile pour collecter des informations à grande échelle sans avoir à les saisir manuellement.
Le web scraper utilise des bibliothèques comme Beautiful Soup ou Scrapy pour parcourir le code HTML des pages web et extraire les données souhaitées.
Il peut être configuré pour extraire des données spécifiques, telles que des titres, des descriptions, des prix ou des images, en fonction des balises HTML, des classes CSS ou d'autres critères.
Le web scraper peut également suivre des liens et naviguer à travers plusieurs pages pour collecter des données à partir de plusieurs sources.
L'utilisation du web scraper doit être éthique et respecter les politiques d'utilisation du site web cible. Il est important de vérifier si le site autorise le scraping et de ne pas surcharger le serveur avec des requêtes excessives.

Technologies

python