RAG:上下文感知分块 | 通过 OpenRouter 和 Gemini 从 Google Drive 到 Pinecone

适用人群

此工作流适合以下人群：
- 数据科学家：希望从 Google Drive 中提取文档并将其转换为向量以便进行机器学习和自然语言处理。
- 开发者：需要自动化处理文档和数据存储的流程。
- 研究人员：想要利用 AI 模型分析和检索文本数据。
- 企业用户：需要高效管理和检索文档信息的公司和团队。

解决的问题

此工作流解决了以下问题：
- 文档处理效率低：自动化从 Google Drive 下载文档并提取文本，节省手动操作时间。
- 文本数据的组织与管理：通过将文档分割成多个部分，便于后续处理和分析。
- 向量数据库的建立：将文本转换为向量并存储在 Pinecone 中，提升搜索和检索的效率。
- 上下文理解：利用 AI 模型生成文本块的上下文信息，增强信息检索的准确性。

工作流程

工作流的详细步骤如下：
1. 手动触发工作流：用户点击‘测试工作流’按钮启动。
2. 从 Google Drive 获取文档：下载指定的 Google 文档。
3. 提取文本数据：将下载的文档内容提取为文本格式。
4. 分割文档文本：根据预设的分隔符将文档文本分割成多个部分。
5. 准备分割后的部分进行循环处理：将分割后的文本部分准备好，以便后续处理。
6. 使用 AI 代理生成上下文：为每个文本块生成上下文信息。
7. 合并上下文和文本块：将生成的上下文与对应的文本块合并。
8. 将文本转换为向量：使用 Google Gemini 将合并后的文本转换为向量。
9. 存储向量到 Pinecone：将生成的向量存储到 Pinecone 向量数据库中。

自定义指南

用户可以通过以下方式自定义和调整此工作流：
- 修改 Google Drive 文件 ID：更改 Get Document From Google Drive 节点中的文件 ID，以下载不同的文档。
- 调整文本分割逻辑：在 Split Document Text Into Sections 节点中修改分隔符，以适应不同格式的文档。
- 更改 AI 模型参数：在 OpenRouter Chat Model 节点中调整 AI 模型的参数，以优化上下文生成的效果。
- 修改 Pinecone 存储设置：根据需要调整 Pinecone Vector Store 节点中的索引名称和存储模式，以适应不同的应用场景。