基于视觉的AI代理抓取器 - 与Google Sheets、ScrapingBee和Gemini

适用人群

这个工作流适合以下人群：
- 电子商务商家：需要从竞争对手网站提取产品信息以优化定价和库存管理。
- 市场分析师：希望获取和分析产品数据，以支持市场调研和分析。
- 数据科学家：需要抓取和处理网页数据，进行数据挖掘和分析。
- 开发者和技术爱好者：对自动化数据抓取和处理有兴趣，希望构建自己的数据抓取工具。

解决的问题

该工作流解决了从网页自动提取结构化数据的难题。通过结合 视觉 AI 代理 和 HTML 抓取工具，可以高效地从复杂的网页中获取产品标题、价格、品牌及促销信息。即使在图像提取失败的情况下，工作流也能自动切换到 HTML 抓取，以确保数据的完整性和准确性。

工作流程

工作流的详细步骤如下：
1. 手动触发：用户通过点击“测试工作流”按钮启动工作流。
2. 获取 URL 列表：从 Google Sheets 中获取需要抓取的网页 URL 列表。
3. 设置字段：将 URL 设置为后续请求的参数。
4. 抓取网页截图：使用 ScrapingBee 抓取指定 URL 的网页截图。
5. 视觉 AI 代理：分析截图并提取产品信息。如果提取失败，自动调用 HTML 抓取工具。
6. HTML 抓取工具：在必要时，抓取网页的 HTML 内容以补充数据。
7. 结构化输出解析：将提取的数据格式化为 JSON 结构。
8. 分离输出：将结构化数据分离为单独的行，方便后续处理。
9. 创建 Google Sheets 行：将提取的结果添加到 Google Sheets 的结果表中。

自定义指南

用户可以通过以下方式自定义和适应此工作流：
- 修改抓取的 URL 列表：在 Google Sheets 中更新需要抓取的网页 URL。
- 调整结构化输出解析器：根据特定网页的结构修改 JSON 输出格式，以满足不同需求。
- 自定义 AI 代理的提示：根据所需提取的数据类型调整 AI 代理的系统提示和用户消息。
- 添加额外字段：在设置字段步骤中，添加其他需要提取的信息字段，确保完整性。