读取网站地图并过滤URL

用于平台n8n,自动读取sitemap.xml并过滤出所需的URL,默认仅返回PDF文档。通过手动触发,用户可自定义sitemap URL和过滤条件,简化数据提取过程,提高工作效率。

2025/7/8
10 个节点
中等
手动中等splitoutfiltersticky noteapi集成数据解析
分类:
Manual TriggeredMedium Workflow
集成服务:
SplitOutFilterSticky Note

适用人群

  • 网站管理员:希望从网站的 sitemap 中提取特定的 URL。
    - 内容创作者:需要收集特定类型的文件(如 PDF)以便进行内容分析或更新。
    - 开发者:想要自动化处理和过滤 sitemap 数据,以便集成到其他系统或应用中。
    - SEO 专家:需要监控网站的特定页面以优化搜索引擎排名。
  • 解决的问题

    该工作流解决了从 sitemap.xml 文件中提取和过滤特定 URL 的问题,尤其是 PDF 文件。通过自动化处理,用户可以节省大量时间,避免手动查找和筛选 URL 的繁琐过程。

    工作流程

  • 手动触发:用户手动启动工作流。
    - 设置 sitemap URL:用户在工作流中设置要读取的 sitemap.xml 的 URL。
    - 获取 sitemap:通过 HTTP 请求获取指定的 sitemap.xml 文件。
    - 转换为 JSON:将获取的 XML 数据转换为 JSON 格式,以便后续处理。
    - 拆分 URL:将 JSON 数据中的 URL 拆分出来,便于单独处理。
    - 过滤 URL:根据设定条件(如文件类型为 PDF)过滤出需要的 URL。
    - 显示粘性便签:在工作流中添加多个粘性便签,提供说明和提示信息,帮助用户理解工作流的功能和使用方法。
  • 自定义指南

  • 更改 sitemap URL:在 设置 sitemap URL 节点中输入新的 sitemap.xml 地址。
    - 调整过滤条件:在 过滤 URL 节点中,根据需要修改过滤条件,例如更改文件类型或添加其他条件。
    - 添加更多处理节点:根据需求,可以在工作流中添加其他节点来处理过滤后的 URL,如发送通知、保存到数据库等。
    - 修改粘性便签内容:根据具体需求,更新粘性便签的内容,以便为其他用户提供更详细的说明或指导。