Para a plataforma Google Sheets, este fluxo automatizado utiliza um agente de IA baseado em visão para extrair dados estruturados de páginas da web. Ele captura capturas de tela e, quando necessário, recorre à extração de HTML, garantindo alta precisão. Os resultados são organizados em um formato fácil de usar e armazenados em uma planilha, facilitando o gerenciamento de URLs e a visualização dos dados extraídos. Ideal para scraping de e-commerce, este fluxo otimiza custos ao converter HTML em Markdown, maximizando a eficiência do processamento.
Este fluxo de trabalho resolve o problema de extração de dados estruturados de páginas da web, especialmente de sites de e-commerce, utilizando uma Agente de IA baseado em visão. Ele permite que os usuários capturem informações importantes, como títulos de produtos, preços, marcas e informações promocionais, garantindo que os dados sejam obtidos de forma eficiente e precisa, mesmo quando a extração direta de imagens falha.
Os usuários podem personalizar este fluxo de trabalho da seguinte maneira:
- Modificar a Estrutura de Saída: Ajustar o Structured Output Parser
para corresponder ao formato dos dados desejados.
- Adicionar Campos: Incluir campos adicionais na seção de Definição de Campos para capturar mais informações, dependendo das necessidades específicas do projeto.
- Alterar o Modelo de IA: Testar e substituir o modelo Gemini-1.5-Pro por outros modelos de IA disponíveis, se necessário.
- Ajustar as Configurações do ScrapingBee: Alterar as configurações na chamada HTTP para o ScrapingBee, como parâmetros de captura de tela, para atender a diferentes requisitos de scraping.
- Personalizar a Planilha do Google: Adaptar a planilha de resultados para incluir colunas específicas que correspondam aos dados que estão sendo extraídos.