Agent Scraper AI Basé sur la Vision - avec Google Sheets, ScrapingBee et Gemini

Pour la plateforme Vision-Based AI Agent Scraper, ce workflow automatisé extrait des données structurées de pages web en utilisant des captures d'écran et un modèle d'IA avancé. Il intègre Google Sheets pour gérer les URL à scraper et stocker les résultats, tout en utilisant ScrapingBee pour capturer des images complètes des pages. Grâce à une conversion HTML en Markdown, il optimise les coûts de traitement. Ce modèle est idéal pour le scraping e-commerce, garantissant une extraction précise et efficace des informations essentielles telles que les titres de produits, les prix et les promotions.

04/07/2025
29 nœuds
Complexe
manuelcomplexelangchainsplitoutgooglesheetsnote autocollanteexecuteworkflowtriggermarkdownavancéapiintégration
Catégories:
Data Processing & AnalysisBusiness Process AutomationManual TriggeredComplex Workflow
Intégrations:
LangChainSplitOutGoogleSheetsSticky NoteExecuteWorkflowTriggerMarkdown

Public Cible

Cette workflow est conçu pour :
- Développeurs cherchant à automatiser le processus de scraping de données sur des sites web.
- Marketeurs qui ont besoin d'extraire des informations de produits pour la recherche de marché ou l'analyse concurrentielle.
- Entrepreneurs souhaitant récolter des données pour alimenter leurs bases de données ou leurs systèmes de gestion de contenu.
- Chercheurs qui ont besoin d'accéder à des données en ligne pour des études ou des analyses spécifiques.
- Utilisateurs de Google Sheets qui veulent intégrer des données extraites directement dans leurs feuilles de calcul pour une gestion facile.

Problème Résolu

Cette workflow résout le problème de l'extraction manuelle de données à partir de pages web, qui est souvent chronophage et sujette à des erreurs. Grâce à l'intégration d'un agent AI basé sur la vision, elle permet d'extraire des informations de manière automatisée et précise à partir de captures d'écran. En cas d'échec de l'extraction visuelle, la workflow bascule sur le scraping HTML, garantissant ainsi une couverture complète des données requises. Cela permet de gagner un temps précieux et d'augmenter l'efficacité dans la collecte de données.

Étapes du Flux

  • Déclencheur manuel : La workflow commence lorsque l'utilisateur clique sur 'Test workflow'.
    2. Récupération des URL : Elle interroge une feuille Google Sheets pour obtenir une liste d'URLs à scraper.
    3. Configuration des champs : Les champs nécessaires (comme l'URL) sont définis pour l'envoi aux étapes suivantes.
    4. Capture d'écran avec ScrapingBee : Une capture d'écran de la page web est effectuée pour l'analyse visuelle.
    5. Agent AI basé sur la vision : L'agent AI analyse la capture d'écran pour extraire des données telles que les titres de produits, les prix, et les informations promotionnelles.
    6. Fallback HTML : Si l'extraction visuelle échoue, un outil de scraping HTML est utilisé pour récupérer le contenu de la page en tant que secours.
    7. Parser de sortie structuré : Les données extraites sont formatées en JSON pour faciliter leur utilisation.
    8. Création de lignes dans Google Sheets : Enfin, les résultats sont ajoutés à la feuille de calcul Google, permettant une gestion facile des données extraites.
  • Guide de Personnalisation

    Les utilisateurs peuvent personnaliser cette workflow en :
    - Modifiant les champs dans le nœud 'Set fields' pour inclure d'autres informations spécifiques qu'ils souhaitent extraire.
    - Ajustant les prompts de l'agent AI pour mieux répondre à leurs besoins d'extraction de données spécifiques.
    - Personnalisant le schéma JSON dans le nœud 'Structured Output Parser' pour s'assurer qu'il correspond à la structure de données qu'ils souhaitent utiliser.
    - Adaptant la feuille Google Sheets pour qu'elle reflète les colonnes nécessaires aux résultats souhaités.
    - Remplaçant l'API de ScrapingBee par un autre service de scraping si nécessaire, en s'assurant que la configuration des requêtes reste correcte.