用于Vision-Based AI Agent Scraper,通过自动化工作流程,结合Google Sheets、ScrapingBee和Gemini,轻松提取网页的结构化数据。该流程支持手动触发,利用截图进行数据提取,并在必要时切换到HTML抓取,确保高准确性。用户可以管理待抓取的URL,并将提取结果存储到Google Sheets中,优化处理成本,适用于电商网站数据抓取。
这个工作流适合以下人群:
- 电子商务商家:需要从竞争对手网站提取产品信息以优化定价和库存管理。
- 市场分析师:希望获取和分析产品数据,以支持市场调研和分析。
- 数据科学家:需要抓取和处理网页数据,进行数据挖掘和分析。
- 开发者和技术爱好者:对自动化数据抓取和处理有兴趣,希望构建自己的数据抓取工具。
该工作流解决了从网页自动提取结构化数据的难题。通过结合 视觉 AI 代理 和 HTML 抓取工具,可以高效地从复杂的网页中获取产品标题、价格、品牌及促销信息。即使在图像提取失败的情况下,工作流也能自动切换到 HTML 抓取,以确保数据的完整性和准确性。
工作流的详细步骤如下:
1. 手动触发:用户通过点击“测试工作流”按钮启动工作流。
2. 获取 URL 列表:从 Google Sheets 中获取需要抓取的网页 URL 列表。
3. 设置字段:将 URL 设置为后续请求的参数。
4. 抓取网页截图:使用 ScrapingBee 抓取指定 URL 的网页截图。
5. 视觉 AI 代理:分析截图并提取产品信息。如果提取失败,自动调用 HTML 抓取工具。
6. HTML 抓取工具:在必要时,抓取网页的 HTML 内容以补充数据。
7. 结构化输出解析:将提取的数据格式化为 JSON 结构。
8. 分离输出:将结构化数据分离为单独的行,方便后续处理。
9. 创建 Google Sheets 行:将提取的结果添加到 Google Sheets 的结果表中。
用户可以通过以下方式自定义和适应此工作流:
- 修改抓取的 URL 列表:在 Google Sheets 中更新需要抓取的网页 URL。
- 调整结构化输出解析器:根据特定网页的结构修改 JSON 输出格式,以满足不同需求。
- 自定义 AI 代理的提示:根据所需提取的数据类型调整 AI 代理的系统提示和用户消息。
- 添加额外字段:在设置字段步骤中,添加其他需要提取的信息字段,确保完整性。