Agente AI Basato su Visione Scraper - con Google Sheets, ScrapingBee e Gemini

Per la piattaforma Vision-Based AI Agent Scraper, questo flusso di lavoro automatizzato estrae dati strutturati da pagine web utilizzando screenshot e scraping HTML. Integra Google Sheets per gestire gli URL e archiviare i risultati, garantendo un'accuratezza elevata. Utilizza l'AI di Gemini-1.5-Pro per analizzare visivamente i contenuti e ottimizza i costi convertendo l'HTML in Markdown. Ideale per lo scraping di e-commerce, offre una soluzione efficiente e personalizzabile per raccogliere informazioni sui prodotti.

04/07/2025
29 nodes
Complex
manualecomplessolangchainsplitoutgooglesheetsnota adesivaeseguisciattivazioneflussomarkdownavanzatoapiintegrazione
Categories:
Complex WorkflowManual TriggeredData Processing & AnalysisBusiness Process Automation
Integrations:
LangChainSplitOutGoogleSheetsSticky NoteExecuteWorkflowTriggerMarkdown

Target Audience

Questo workflow è ideale per:
- Sviluppatori e Data Scientist: Che desiderano automatizzare il processo di scraping dei dati da siti web e integrare i risultati in Google Sheets.
- E-commerce Manager: Che necessitano di raccogliere informazioni sui prodotti da vari siti per analisi di mercato e strategie di prezzo.
- Marketer: Che vogliono monitorare le promozioni e le tendenze dei prodotti online.
- Ricercatori: Che necessitano di estrarre dati da fonti web per studi e report.
- Imprenditori: Che cercano di ottimizzare le loro operazioni di scraping per raccogliere dati pertinenti in modo efficiente.

Problem Solved

Questo workflow risolve il problema della raccolta automatizzata e precisa di dati da pagine web, utilizzando un agente AI basato su immagini per estrarre informazioni strutturate. Affronta le sfide relative all'accuratezza e all'efficienza nel recupero dei dati, specialmente in contesti e-commerce dove i dettagli visivi sono cruciali. Inoltre, fornisce un fallback per il recupero del contenuto HTML quando l'estrazione basata su immagini non è sufficiente, garantendo risultati completi e affidabili.

Workflow Steps

  • Attivazione Manuale: Il workflow inizia con un trigger manuale, consentendo all'utente di avviare il processo quando necessario.
    2. Recupero degli URL: Viene eseguita una richiesta a Google Sheets per ottenere un elenco di URL da scrivere.
    3. Impostazione dei Campi: I campi necessari, in particolare l'URL, vengono impostati per il successivo scraping.
    4. Screenshot della Pagina: Utilizzando ScrapingBee, viene catturato uno screenshot della pagina web per l'analisi visiva.
    5. Agente di Scraping Basato su Visione: L'agente AI analizza lo screenshot per estrarre dati come titoli di prodotto, prezzi e informazioni promozionali.
    6. Fallback HTML: Se l'estrazione visiva non è sufficiente, viene attivato un tool di scraping HTML per recuperare il contenuto della pagina.
    7. Parsing dei Dati Estratti: I dati estratti vengono formattati in un JSON strutturato per un utilizzo facile.
    8. Creazione di Righe in Google Sheets: I risultati finali vengono inseriti in un foglio di calcolo Google, consentendo una gestione e un'analisi facili dei dati raccolti.
  • Customization Guide

    Per personalizzare e adattare questo workflow, gli utenti possono:
    - Modificare i Campi: Aggiungere o rimuovere campi nella sezione di impostazione per adattarsi ai dati specifici che desiderano estrarre.
    - Aggiornare i Modelli di AI: Sostituire il modello AI con uno diverso se desiderano testare prestazioni diverse.
    - Adattare il Parsing: Modificare lo schema JSON nel parser di output strutturato per soddisfare le proprie esigenze specifiche di dati.
    - Personalizzare le Note Sticky: Aggiornare le note sticky per fornire informazioni più dettagliate o istruzioni specifiche per l'uso del workflow.
    - Testare Nuove Fonti: Aggiungere o modificare gli URL nel foglio di Google per testare il workflow su diverse pagine web.