N8N 工作流导航
首页
搜索
🇨🇳 中文
菜单
首页
搜索
🇨🇳 中文
使用 Bright Data、Gemini 和 Pinecone 创建适用于 LLM 的 AI 准备向量数据集
用于Bright Data、Gemini和Pinecone,自动化创建适合大型语言模型的向量数据集,简化数据提取、格式化和持久化过程,提高数据处理效率,支持快速集成与应用。
2025/7/8
21 个节点
复杂
下载
分享
kujft2fojmovqamj
zowtamlepqagw76t
ddpkw7hg5dzhqu2w
manual
complex
langchain
sticky note
advanced
api
integration
分类:
Complex Workflow
Manual Triggered
集成服务:
LangChain
Sticky Note
总结
总结
适用人群
目标用户群体
-
数据科学家
:需要处理大量数据并进行分析。
-
开发者
:希望集成 AI 处理和数据存储功能的开发者。
-
产品经理
:需要快速获取和分析市场数据的产品经理。
-
研究人员
:需要提取和格式化数据以进行深入研究的学者和研究人员。
-
企业决策者
:希望通过数据驱动决策的管理层。
解决的问题
解决的问题
-
数据提取
:自动化从网页提取数据的过程,减少人工干预。
-
数据格式化
:将提取的数据格式化为结构化 JSON 格式,便于后续使用。
-
向量存储
:将处理后的数据存储到 Pinecone 向量数据库中,以便进行高效检索和分析。
-
实时通知
:通过 Webhook 实时通知用户数据处理的结果,提升工作效率。
工作流程
工作流程详细步骤
1.
手动触发
:用户点击‘测试工作流’按钮开始流程。
2.
设置 URL 和 Webhook
:定义要抓取的网页 URL 和 Webhook 地址。
3.
发起网页请求
:向 Bright Data API 发送请求,获取指定网页的数据。
4.
数据格式化
:使用 Google Gemini 模型对获取的数据进行格式化,生成结构化 JSON 数据。
5.
信息提取
:提取关键信息并进行整理,准备进一步处理。
6.
文本分割
:将长文本分割为适合 AI 处理的短文本。
7.
生成嵌入向量
:使用 Google Gemini 生成数据的嵌入向量。
8.
存储向量
:将生成的嵌入向量存储到 Pinecone 向量数据库中。
9.
Webhook 通知
:将处理结果通过 Webhook 发送到指定 URL,通知用户处理完成。
自定义指南
自定义指南
-
修改 URL
:在‘设置 URL 和 Webhook URL’节点中,替换为您需要抓取的网页地址。
-
调整数据处理逻辑
:根据需要修改‘信息提取器’和‘结构化 JSON 数据格式化’节点中的参数和模板,以适应不同的数据格式。
-
更换 API 密钥
:在相应的节点中更新 Pinecone 和 Google Gemini 的 API 凭证,以确保数据存取的安全性。
-
添加/删除节点
:根据业务需求,您可以添加或删除工作流中的节点,以实现更复杂或更简单的功能。