Agente de IA Baseado em Visão - com Google Sheets, ScrapingBee e Gemini

Para a plataforma Google Sheets, este fluxo automatizado utiliza um agente de IA baseado em visão para extrair dados estruturados de páginas da web. Ele captura capturas de tela e, quando necessário, recorre à extração de HTML, garantindo alta precisão. Os resultados são organizados em um formato fácil de usar e armazenados em uma planilha, facilitando o gerenciamento de URLs e a visualização dos dados extraídos. Ideal para scraping de e-commerce, este fluxo otimiza custos ao converter HTML em Markdown, maximizando a eficiência do processamento.

04/07/2025
29 nodes
Complex
manualcomplexolangchainsplitoutgooglesheetsnota adesivaexecuteworkflowtriggermarkdownavançadoapiintegração
Categories:
Data Processing & AnalysisBusiness Process AutomationManual TriggeredComplex Workflow
Integrations:
LangChainSplitOutGoogleSheetsSticky NoteExecuteWorkflowTriggerMarkdown

Target Audience

  • Desenvolvedores que desejam automatizar a extração de dados de sites de e-commerce.
    - Profissionais de marketing que precisam coletar informações de produtos para análise de mercado.
    - Empreendedores que estão criando lojas online e precisam de dados de concorrentes.
    - Pesquisadores que buscam dados estruturados de várias fontes online para estudos.
    - Estudantes que estão aprendendo sobre automação e scraping de dados.
  • Problem Solved

    Este fluxo de trabalho resolve o problema de extração de dados estruturados de páginas da web, especialmente de sites de e-commerce, utilizando uma Agente de IA baseado em visão. Ele permite que os usuários capturem informações importantes, como títulos de produtos, preços, marcas e informações promocionais, garantindo que os dados sejam obtidos de forma eficiente e precisa, mesmo quando a extração direta de imagens falha.

    Workflow Steps

  • Gatilho Manual: O fluxo é iniciado manualmente pelo usuário.
    2. Obtenção de URLs: O fluxo busca uma lista de URLs a serem raspadas a partir de uma planilha do Google.
    3. Definição de Campos: Os campos necessários para a extração são definidos e preparados para serem enviados ao ScrapingBee.
    4. Captura de Screenshot: O ScrapingBee é utilizado para capturar uma captura de tela da página da web desejada, garantindo que a captura seja de página inteira.
    5. Agente de IA de Scraping: A captura de tela é enviada para um agente de IA que tenta extrair dados diretamente da imagem.
    6. Fallback para HTML: Se a extração da imagem falhar, um segundo fluxo de trabalho é chamado para obter o HTML da página, permitindo que o agente extraia os dados necessários a partir do conteúdo HTML.
    7. Formatação de Dados: Os dados extraídos são formatados em um JSON estruturado para fácil integração.
    8. Criação de Linhas em Planilha: Os dados formatados são então enviados para uma planilha do Google, onde são adicionados como novas linhas na aba de resultados.
  • Customization Guide

    Os usuários podem personalizar este fluxo de trabalho da seguinte maneira:
    - Modificar a Estrutura de Saída: Ajustar o Structured Output Parser para corresponder ao formato dos dados desejados.
    - Adicionar Campos: Incluir campos adicionais na seção de Definição de Campos para capturar mais informações, dependendo das necessidades específicas do projeto.
    - Alterar o Modelo de IA: Testar e substituir o modelo Gemini-1.5-Pro por outros modelos de IA disponíveis, se necessário.
    - Ajustar as Configurações do ScrapingBee: Alterar as configurações na chamada HTTP para o ScrapingBee, como parâmetros de captura de tela, para atender a diferentes requisitos de scraping.
    - Personalizar a Planilha do Google: Adaptar a planilha de resultados para incluir colunas específicas que correspondam aos dados que estão sendo extraídos.