💡🌐 基本多页面网站抓取器与 Jina.ai

适用人群

该工作流适合以下人群：
- 开发者：需要从多个网页提取数据并进行处理的开发者。
- 内容创作者：希望自动化获取和存储网页内容的博主或作家。
- 数据分析师：需要定期收集特定主题网页数据的分析师。
- 市场营销人员：需要监控竞争对手网站内容的营销团队。
- 学生和研究人员：需要收集特定领域信息的学术用户。

解决的问题

该工作流解决了以下问题：
- 手动收集数据耗时：自动化提取网页内容，节省时间。
- 数据一致性：确保从多个网页收集的数据格式一致，便于后续分析。
- 信息获取的局限性：通过集成 Jina.ai，用户可以轻松获取所需的信息，而无需复杂的 API 调用。
- 存储和管理：自动将抓取的网页内容保存到 Google Drive，方便管理和访问。

工作流程

工作流过程详细说明：
1. 手动触发：用户点击‘测试工作流’按钮启动流程。
2. 设置网站 URL：指定要抓取的网站地图 URL。
3. 获取网站 URL 列表：从指定的网站地图中提取所有网页链接。
4. 转换为 JSON 格式：将提取的 XML 数据转换为 JSON 格式，方便处理。
5. 创建 URL 列表：生成包含所有网页 URL 的列表。
6. 按主题或页面过滤：根据用户定义的条件过滤出相关网页。
7. 循环处理每个网页：对每个有效的网页 URL 进行处理。
8. 调用 Jina.ai Web Scraper：抓取网页内容并返回数据。
9. 提取标题和 Markdown 内容：从抓取的内容中提取标题和 Markdown 格式的文本。
10. 保存网页内容到 Google Drive：将提取的内容保存到用户的 Google Drive 中。
11. 等待处理完成：在处理完所有网页后，工作流结束。

自定义指南

用户如何自定义和适应此工作流：
- 更改网站 URL：在‘设置网站 URL’节点中修改 sitemap_url 的值，以抓取不同网站。
- 调整过滤条件：在‘按主题或页面过滤’节点中，可以修改条件，以适应不同的网页内容需求。
- 修改存储方式：在‘保存网页内容到 Google Drive’节点中，可以更改文件名格式或选择不同的文件夹进行存储。
- 添加更多节点：可以根据需要在工作流中添加新的处理节点，例如数据分析或发送通知等功能。