RAG:上下文感知分块 | 通过 OpenRouter 和 Gemini 从 Google Drive 到 Pinecone

用于RAG平台,通过自动化工作流程从Google Drive获取文档,分割文本为多个部分,并利用OpenRouter和Google Gemini生成向量,最终存储在Pinecone向量数据库中,提升搜索检索效率。

2025/7/8
17 个节点
复杂
xziqk6ndzgvgbzfd手动复杂splitinbatcheslangchaingoogle driveextractfromfilesplitout便签高级文件存储
分类:
Complex WorkflowManual Triggered
集成服务:
SplitInBatchesLangChainGoogle DriveExtractFromFileSplitOutSticky Note

适用人群

此工作流适合以下人群:
- 数据科学家:希望从 Google Drive 中提取文档并将其转换为向量以便进行机器学习和自然语言处理。
- 开发者:需要自动化处理文档和数据存储的流程。
- 研究人员:想要利用 AI 模型分析和检索文本数据。
- 企业用户:需要高效管理和检索文档信息的公司和团队。

解决的问题

此工作流解决了以下问题:
- 文档处理效率低:自动化从 Google Drive 下载文档并提取文本,节省手动操作时间。
- 文本数据的组织与管理:通过将文档分割成多个部分,便于后续处理和分析。
- 向量数据库的建立:将文本转换为向量并存储在 Pinecone 中,提升搜索和检索的效率。
- 上下文理解:利用 AI 模型生成文本块的上下文信息,增强信息检索的准确性。

工作流程

工作流的详细步骤如下:
1. 手动触发工作流:用户点击‘测试工作流’按钮启动。
2. 从 Google Drive 获取文档:下载指定的 Google 文档。
3. 提取文本数据:将下载的文档内容提取为文本格式。
4. 分割文档文本:根据预设的分隔符将文档文本分割成多个部分。
5. 准备分割后的部分进行循环处理:将分割后的文本部分准备好,以便后续处理。
6. 使用 AI 代理生成上下文:为每个文本块生成上下文信息。
7. 合并上下文和文本块:将生成的上下文与对应的文本块合并。
8. 将文本转换为向量:使用 Google Gemini 将合并后的文本转换为向量。
9. 存储向量到 Pinecone:将生成的向量存储到 Pinecone 向量数据库中。

自定义指南

用户可以通过以下方式自定义和调整此工作流:
- 修改 Google Drive 文件 ID:更改 Get Document From Google Drive 节点中的文件 ID,以下载不同的文档。
- 调整文本分割逻辑:在 Split Document Text Into Sections 节点中修改分隔符,以适应不同格式的文档。
- 更改 AI 模型参数:在 OpenRouter Chat Model 节点中调整 AI 模型的参数,以优化上下文生成的效果。
- 修改 Pinecone 存储设置:根据需要调整 Pinecone Vector Store 节点中的索引名称和存储模式,以适应不同的应用场景。