💡🌐 基本多页面网站抓取器与 Jina.ai

用于Jina.ai,自动化抓取多页网站内容,支持手动触发,提取网页标题和Markdown内容,保存至Google Drive,帮助用户高效整理和存档网站信息。

2025/7/4
16 个节点
复杂
手动复杂便签分批处理等待分割输出过滤谷歌云端硬盘高级API集成数据解析
分类:
Manual TriggeredComplex Workflow
集成服务:
Sticky NoteSplitInBatchesWaitSplitOutFilterGoogle Drive

适用人群

该工作流适合以下人群:
- 开发者:需要从多个网页提取数据并进行处理的开发者。
- 内容创作者:希望自动化获取和存储网页内容的博主或作家。
- 数据分析师:需要定期收集特定主题网页数据的分析师。
- 市场营销人员:需要监控竞争对手网站内容的营销团队。
- 学生和研究人员:需要收集特定领域信息的学术用户。

解决的问题

该工作流解决了以下问题:
- 手动收集数据耗时:自动化提取网页内容,节省时间。
- 数据一致性:确保从多个网页收集的数据格式一致,便于后续分析。
- 信息获取的局限性:通过集成 Jina.ai,用户可以轻松获取所需的信息,而无需复杂的 API 调用。
- 存储和管理:自动将抓取的网页内容保存到 Google Drive,方便管理和访问。

工作流程

工作流过程详细说明:
1. 手动触发:用户点击‘测试工作流’按钮启动流程。
2. 设置网站 URL:指定要抓取的网站地图 URL。
3. 获取网站 URL 列表:从指定的网站地图中提取所有网页链接。
4. 转换为 JSON 格式:将提取的 XML 数据转换为 JSON 格式,方便处理。
5. 创建 URL 列表:生成包含所有网页 URL 的列表。
6. 按主题或页面过滤:根据用户定义的条件过滤出相关网页。
7. 循环处理每个网页:对每个有效的网页 URL 进行处理。
8. 调用 Jina.ai Web Scraper:抓取网页内容并返回数据。
9. 提取标题和 Markdown 内容:从抓取的内容中提取标题和 Markdown 格式的文本。
10. 保存网页内容到 Google Drive:将提取的内容保存到用户的 Google Drive 中。
11. 等待处理完成:在处理完所有网页后,工作流结束。

自定义指南

用户如何自定义和适应此工作流:
- 更改网站 URL:在‘设置网站 URL’节点中修改 sitemap_url 的值,以抓取不同网站。
- 调整过滤条件:在‘按主题或页面过滤’节点中,可以修改条件,以适应不同的网页内容需求。
- 修改存储方式:在‘保存网页内容到 Google Drive’节点中,可以更改文件名格式或选择不同的文件夹进行存储。
- 添加更多节点:可以根据需要在工作流中添加新的处理节点,例如数据分析或发送通知等功能。