비전 기반 AI 에이전트 스크레이퍼 - Google Sheets, ScrapingBee 및 Gemini와 함께

Google Sheets와 ScrapingBee, Gemini를 활용한 비전 기반 AI 에이전트 스크래퍼로, 웹페이지에서 구조화된 데이터를 자동으로 추출합니다. 스크린샷을 주로 사용하여 데이터를 수집하며, 필요 시 HTML 스크래핑으로 전환하여 정확성을 높입니다. 이 워크플로우는 URL 관리와 결과 저장을 위한 Google Sheets 통합, 전체 페이지 스크린샷 캡처, AI 기반 데이터 파싱 기능을 제공합니다. 다양한 전자상거래 웹사이트에 맞춰 커스터마이즈 가능하며, 처리 비용을 최적화하기 위해 HTML을 Markdown 형식으로 변환합니다.

2025. 7. 4.
29 nodes
Complex
수동복잡langchainsplitoutgooglesheets메모executeworkflowtriggermarkdown고급api통합
Categories:
Complex WorkflowManual TriggeredData Processing & AnalysisBusiness Process Automation
Integrations:
LangChainSplitOutGoogleSheetsSticky NoteExecuteWorkflowTriggerMarkdown

Target Audience

이 워크플로우는 다음과 같은 사용자에게 적합합니다:

- E-commerce 운영자: 제품 정보를 자동으로 수집하고 분석하여 경쟁력을 높이고 마케팅 전략을 개선할 수 있습니다.
- 데이터 분석가: 웹사이트에서 데이터를 수집하고 분석하여 인사이트를 도출할 수 있습니다.
- 개발자: 자동화된 웹 스크래핑 솔루션을 필요로 하는 프로젝트에 통합할 수 있습니다.
- 마케팅 전문가: 경쟁 제품의 가격 및 프로모션 정보를 수집하여 시장 분석을 수행할 수 있습니다.

Problem Solved

이 워크플로우는 웹사이트에서 데이터를 수집하는 데 있어 다음과 같은 문제를 해결합니다:

- 시간 소모적인 수작업: 웹사이트에서 수동으로 데이터를 수집하는 대신, 자동화된 프로세스를 통해 시간을 절약합니다.
- 데이터 정확성: 비전 기반 AI 에이전트를 사용하여 스크린샷에서 데이터를 추출함으로써 높은 정확성을 보장합니다.
- HTML 콘텐츠 접근: 스크린샷에서 필요한 정보를 추출할 수 없는 경우, HTML을 통해 대체 데이터를 수집할 수 있습니다.

Workflow Steps

이 워크플로우의 과정은 다음과 같습니다:

1. 수동 트리거: 사용자가 'Test workflow'를 클릭하여 워크플로우를 시작합니다.
2. 구글 시트에서 URL 목록 가져오기: 구글 시트에서 스크래핑할 URL 목록을 가져옵니다.
3. 필드 설정: 스크래핑에 필요한 필드를 설정합니다.
4. 스크래핑 비 API를 통한 페이지 스크린샷 가져오기: URL에서 페이지의 스크린샷을 가져옵니다. 전체 페이지 스크린샷을 캡처하여 비전 기반 스크래핑을 수행합니다.
5. 비전 기반 스크래핑 에이전트: 스크린샷을 분석하여 제품 제목, 가격, 브랜드 및 프로모션 정보를 추출합니다. 필요한 경우 HTML 기반 스크래핑 도구를 호출합니다.
6. 구조화된 출력 파서: 추출된 데이터를 JSON 형식으로 변환하여 구글 시트에 추가할 준비를 합니다.
7. 결과를 구글 시트에 추가: 추출된 데이터를 구글 시트의 결과 시트에 추가합니다.

Customization Guide

이 워크플로우를 사용자 필요에 맞게 커스터마이즈하는 방법:

- URL 목록 수정: 구글 시트에서 스크래핑할 URL 목록을 추가하거나 변경합니다.
- 필드 추가: 'Set fields' 노드에서 추가 필드를 설정하여 필요한 데이터를 수집할 수 있습니다.
- AI 에이전트 프롬프트 조정: 'Vision-based Scraping Agent' 노드의 프롬프트를 수정하여 더 나은 데이터 추출 결과를 얻을 수 있습니다.
- 구조화된 출력 파서 조정: 'Structured Output Parser' 노드에서 JSON 구조를 변경하여 다른 데이터 형식에 맞출 수 있습니다.