使用 Bright Data、Gemini 和 Pinecone 创建适用于 LLM 的 AI 准备向量数据集

用于Bright Data、Gemini和Pinecone,自动化创建适合大型语言模型的向量数据集,简化数据提取、格式化和持久化过程,提高数据处理效率,支持快速集成与应用。

2025/7/8
21 个节点
复杂
kujft2fojmovqamjzowtamlepqagw76tddpkw7hg5dzhqu2wmanualcomplexlangchainsticky noteadvancedapiintegration
分类:
Complex WorkflowManual Triggered
集成服务:
LangChainSticky Note

适用人群

目标用户群体


- 数据科学家:需要处理大量数据并进行分析。
- 开发者:希望集成 AI 处理和数据存储功能的开发者。
- 产品经理:需要快速获取和分析市场数据的产品经理。
- 研究人员:需要提取和格式化数据以进行深入研究的学者和研究人员。
- 企业决策者:希望通过数据驱动决策的管理层。

解决的问题

解决的问题


- 数据提取:自动化从网页提取数据的过程,减少人工干预。
- 数据格式化:将提取的数据格式化为结构化 JSON 格式,便于后续使用。
- 向量存储:将处理后的数据存储到 Pinecone 向量数据库中,以便进行高效检索和分析。
- 实时通知:通过 Webhook 实时通知用户数据处理的结果,提升工作效率。

工作流程

工作流程详细步骤


1. 手动触发:用户点击‘测试工作流’按钮开始流程。
2. 设置 URL 和 Webhook:定义要抓取的网页 URL 和 Webhook 地址。
3. 发起网页请求:向 Bright Data API 发送请求,获取指定网页的数据。
4. 数据格式化:使用 Google Gemini 模型对获取的数据进行格式化,生成结构化 JSON 数据。
5. 信息提取:提取关键信息并进行整理,准备进一步处理。
6. 文本分割:将长文本分割为适合 AI 处理的短文本。
7. 生成嵌入向量:使用 Google Gemini 生成数据的嵌入向量。
8. 存储向量:将生成的嵌入向量存储到 Pinecone 向量数据库中。
9. Webhook 通知:将处理结果通过 Webhook 发送到指定 URL,通知用户处理完成。

自定义指南

自定义指南


- 修改 URL:在‘设置 URL 和 Webhook URL’节点中,替换为您需要抓取的网页地址。
- 调整数据处理逻辑:根据需要修改‘信息提取器’和‘结构化 JSON 数据格式化’节点中的参数和模板,以适应不同的数据格式。
- 更换 API 密钥:在相应的节点中更新 Pinecone 和 Google Gemini 的 API 凭证,以确保数据存取的安全性。
- 添加/删除节点:根据业务需求,您可以添加或删除工作流中的节点,以实现更复杂或更简单的功能。