从Screaming Frog网站爬虫生成AI准备的llms.txt文件

用于n8n,通过自动化处理Screaming Frog网站抓取数据,生成可直接下载的llms.txt文件。用户只需上传internal_html.csv文件,填写网站名称和描述,系统将自动提取并过滤有效URL,确保生成的文件包含高质量内容,便于AI模型的内容发现和训练。

2025/7/8
23 个节点
复杂
手动复杂便签langchainnoop过滤总结表单触发从文件提取转换为文件高级逻辑条件文件存储
分类:
Complex WorkflowManual Triggered
集成服务:
Sticky NoteLangChainNoOpFilterSummarizeFormTriggerExtractFromFileConvertToFile

适用人群

目标用户群体


- SEO 专家:需要从 Screaming Frog 导出中提取和整理网站数据,以便进行进一步分析。
- 内容创作者:希望生成包含高质量内容链接的 llms.txt 文件,以便于 LLM 的内容发现和训练。
- 数字营销人员:需要快速生成符合 AI 需求的文本文件,以提高他们的营销活动的效率。
- 网站管理员:希望优化网站内容,确保只有高价值页面被包含在最终输出中。
- 开发者:希望将此工作流集成到他们的自动化工具中,以便根据需要生成文件。

解决的问题

解决的问题


- 数据提取:从 Screaming Frog 导出的 CSV 文件中提取重要的 URL、标题、描述等信息。
- 内容筛选:自动筛选出状态码为 200、可索引的 HTML 内容,确保生成的文件只包含高质量页面。
- 格式化输出:生成符合 LLM 需求的 llms.txt 文件,便于后续处理和使用。
- 自定义灵活性:用户可以根据自己的需求调整工作流中的各个节点,以适应不同的网站和内容类型。

工作流程

工作流步骤


1. 表单上传:用户通过表单输入网站名称、简短描述,并上传 Screaming Frog 的 internal_html.csv 文件。
2. 数据提取:从上传的 CSV 文件中提取数据,确保格式正确。
3. 设置重要字段:提取并设置如 URL、标题、描述、状态码、可索引性、内容类型和字数等关键字段。
4. 过滤 URL:根据设定的条件(如状态码、可索引性和内容类型)筛选出符合要求的 URL。
5. 文本分类(可选):使用文本分类节点进一步筛选 URL,根据内容质量进行分类。
6. 设置输出格式:为 llms.txt 文件设置行格式,确保每一行都包含标题、链接和描述。
7. 合并输出:将所有生成的行合并为一段文本,确保每行之间有换行符。
8. 生成文件:创建最终的 llms.txt 文件,用户可以直接下载。
9. 上传文件(可选):可以替换最后一个节点,将文件上传到 Google Drive 或 OneDrive 等云存储服务。

自定义指南

自定义指南


- 修改字段:可以根据需要调整提取和设置的字段,例如添加更多的元数据或修改字段名称以适应不同语言。
- 添加过滤条件:在过滤步骤中添加更多条件,以确保生成的文件完全符合特定需求,比如根据字数或特定 URL 路径进行筛选。
- 启用文本分类:如果需要更智能的内容筛选,可以启用文本分类节点,并根据自身需求修改分类描述。
- 文件上传设置:可以将最后的下载节点替换为其他文件上传节点,以便将 llms.txt 文件自动上传到指定位置。
- 集成其他 API:可以在工作流中集成其他 API 以增强功能,例如使用 OpenAI 的语言模型进行更复杂的内容分析。