Octoparse

Octoparse est une solution puissante et sans code pour le scraping de données. Il permet de configurer des projets de scraping de manière visuelle, sans avoir à coder. Octoparse est disponible en plusieurs langues, dont le français, et offre des fonctionnalités avancées telles que le scraping de sites dynamiques, la gestion de la pagination, et l’exportation de données au format CSV ou JSON.

Installation et inscription

Étapes d’installation :

  1. Inscription :
    • Rendez-vous sur le site Octoparse et créez un compte gratuit.
    • L’interface est disponible en français, facilitant la prise en main.

Octoparse

  1. Télécharger Octoparse :
    • Octoparse propose une application de bureau pour Windows et macOS. Téléchargez et installez l’application sur votre ordinateur.

    Octoparse

    Octoparse

Octoparse, en plus d’offrir une version gratuite avec des fonctionnalités “acceptables” propose des réductions pour les étudiants, chercheurs, et organisations à but non lucratif. Ils accordent notamment une remise de 15 % sur le plan mensuel, 20 % sur le plan trimestriel, et 30 % sur le plan annuel pour les utilisateurs du secteur éducatif.

De plus, vous pouvez bénéficier d’une réduction allant jusqu’à 50 % si vous acceptez de mentionner le logiciel Octoparse dans votre article.

Lire ici pour en savoir plus sur les reductions

Utilisation

Octoparse propose une large gamme de tutoriels ainsi qu’un guide complet pour débutants, disponibles gratuitement en consultation

Bienvenue sur Octoparse!

Découvrir Octoparse

Démarrer par l’auto-détection

Optimiser votre tâche

Affiner les données

Tester votre tâche

Récupérer les données

Planifier des exécution régulières

Allez-y! Créez votre première tâche!


Octoparse

Exercice pratique

Objectif

Utiliser Octoparse pour extraire des titres et des dates d’un site d’actualités.

Étapes

  1. Installer Octoparse et créer un compte gratuit.
  2. entrer l’URL du site à scraper : https://burkina24.com/category/actualite/politique/#google_vignette

Octoparse

  1. Sélection des éléments : veuillez patienter pendant le chargement et permettre à Octoparse d’effectuer l’auto-détection

Octoparse

Créez le flux de travail en cliquant sur le bouton. En attendant, pour fermer les fenêtres publicitaires ou autres pop-ups, activez temporairement la navigation

  1. Configurer la pagination pour extraire plusieurs pages.

Une fois les tests effectués (pagination, liens, etc.), vous avez la possibilité de modifier les noms des champs. Pour cet exercice, nous limiterons le nombre de répétitions de la boucle à 10.

Octoparse

  1. Lancer le scraping et collecter les données.

Octoparse

Octoparse

Octoparse

  1. Exporter les données au format CSV

Octoparse

  1. Vérifier les données dans un tableur.

Octoparse


Conclusion

Maintenant que vous maîtrisez les bases, explorez les différents modèles prêts à l’emploi et testez-les en fonction de vos besoins. Octoparse est une alternative puissante et facile à utiliser. Il dispose de modèles préconfigurés capables d’extraire des données de presque tous les sites web (généralement dans les versions payantes), allant de Twitter à YouTube, Amazon, et même TikTok, entre autres. Cependant, gardez à l’esprit que l’accès à certains d’entre eux est réservé aux utilisateurs premium, car les API des plateformes, où les données doivent être récupérées, ne sont pas gratuites. Par exemple, avant l’ère Elon Musk, Twitter offrait un accès public relativement large, mais ce n’est plus le cas et l’accès à l’API est désormais très coûteux. Avec son interface graphique intuitive et sa prise en charge du scraping de sites dynamiques, il s’agit d’une excellente option pour les utilisateurs sans expérience en programmation.