使用 Bright Data、Gemini 和 Pinecone 创建适用于 LLM 的 AI 准备向量数据集

适用人群

目标用户群体

- 数据科学家：需要处理大量数据并进行分析。
- 开发者：希望集成 AI 处理和数据存储功能的开发者。
- 产品经理：需要快速获取和分析市场数据的产品经理。
- 研究人员：需要提取和格式化数据以进行深入研究的学者和研究人员。
- 企业决策者：希望通过数据驱动决策的管理层。

解决的问题

- 数据提取：自动化从网页提取数据的过程，减少人工干预。
- 数据格式化：将提取的数据格式化为结构化 JSON 格式，便于后续使用。
- 向量存储：将处理后的数据存储到 Pinecone 向量数据库中，以便进行高效检索和分析。
- 实时通知：通过 Webhook 实时通知用户数据处理的结果，提升工作效率。

工作流程

工作流程详细步骤

1. 手动触发：用户点击‘测试工作流’按钮开始流程。
2. 设置 URL 和 Webhook：定义要抓取的网页 URL 和 Webhook 地址。
3. 发起网页请求：向 Bright Data API 发送请求，获取指定网页的数据。
4. 数据格式化：使用 Google Gemini 模型对获取的数据进行格式化，生成结构化 JSON 数据。
5. 信息提取：提取关键信息并进行整理，准备进一步处理。
6. 文本分割：将长文本分割为适合 AI 处理的短文本。
7. 生成嵌入向量：使用 Google Gemini 生成数据的嵌入向量。
8. 存储向量：将生成的嵌入向量存储到 Pinecone 向量数据库中。
9. Webhook 通知：将处理结果通过 Webhook 发送到指定 URL，通知用户处理完成。

自定义指南

- 修改 URL：在‘设置 URL 和 Webhook URL’节点中，替换为您需要抓取的网页地址。
- 调整数据处理逻辑：根据需要修改‘信息提取器’和‘结构化 JSON 数据格式化’节点中的参数和模板，以适应不同的数据格式。
- 更换 API 密钥：在相应的节点中更新 Pinecone 和 Google Gemini 的 API 凭证，以确保数据存取的安全性。
- 添加/删除节点：根据业务需求，您可以添加或删除工作流中的节点，以实现更复杂或更简单的功能。