从Screaming Frog网站爬虫生成AI准备的llms.txt文件

适用人群

目标用户群体

- SEO 专家：需要从 Screaming Frog 导出中提取和整理网站数据，以便进行进一步分析。
- 内容创作者：希望生成包含高质量内容链接的 llms.txt 文件，以便于 LLM 的内容发现和训练。
- 数字营销人员：需要快速生成符合 AI 需求的文本文件，以提高他们的营销活动的效率。
- 网站管理员：希望优化网站内容，确保只有高价值页面被包含在最终输出中。
- 开发者：希望将此工作流集成到他们的自动化工具中，以便根据需要生成文件。

解决的问题

- 数据提取：从 Screaming Frog 导出的 CSV 文件中提取重要的 URL、标题、描述等信息。
- 内容筛选：自动筛选出状态码为 200、可索引的 HTML 内容，确保生成的文件只包含高质量页面。
- 格式化输出：生成符合 LLM 需求的 llms.txt 文件，便于后续处理和使用。
- 自定义灵活性：用户可以根据自己的需求调整工作流中的各个节点，以适应不同的网站和内容类型。

工作流程

工作流步骤

1. 表单上传：用户通过表单输入网站名称、简短描述，并上传 Screaming Frog 的 internal_html.csv 文件。
2. 数据提取：从上传的 CSV 文件中提取数据，确保格式正确。
3. 设置重要字段：提取并设置如 URL、标题、描述、状态码、可索引性、内容类型和字数等关键字段。
4. 过滤 URL：根据设定的条件（如状态码、可索引性和内容类型）筛选出符合要求的 URL。
5. 文本分类（可选）：使用文本分类节点进一步筛选 URL，根据内容质量进行分类。
6. 设置输出格式：为 llms.txt 文件设置行格式，确保每一行都包含标题、链接和描述。
7. 合并输出：将所有生成的行合并为一段文本，确保每行之间有换行符。
8. 生成文件：创建最终的 llms.txt 文件，用户可以直接下载。
9. 上传文件（可选）：可以替换最后一个节点，将文件上传到 Google Drive 或 OneDrive 等云存储服务。

自定义指南

- 修改字段：可以根据需要调整提取和设置的字段，例如添加更多的元数据或修改字段名称以适应不同语言。
- 添加过滤条件：在过滤步骤中添加更多条件，以确保生成的文件完全符合特定需求，比如根据字数或特定 URL 路径进行筛选。
- 启用文本分类：如果需要更智能的内容筛选，可以启用文本分类节点，并根据自身需求修改分类描述。
- 文件上传设置：可以将最后的下载节点替换为其他文件上传节点，以便将 llms.txt 文件自动上传到指定位置。
- 集成其他 API：可以在工作流中集成其他 API 以增强功能，例如使用 OpenAI 的语言模型进行更复杂的内容分析。