来自 Google Drive 的向量数据库加载器

用于Google Drive,自动化加载文件至向量数据库,定时提取和处理PDF、文本及JSON文件,提升数据管理效率,支持批量处理,集成LangChain和Postgres PGVector存储,简化文件操作,确保数据高效存储与检索。

2025/7/8
15 个节点
复杂
6rb8rvhkzj4t0kne计划复杂langchainsplitinbatchesgoogle drive计划触发器便签从文件提取自动化高级cron逻辑路由文件存储
分类:
Schedule TriggeredComplex Workflow
集成服务:
LangChainSplitInBatchesGoogle DriveSchedule TriggerSticky NoteExtractFromFile

适用人群

适合使用此工作流的人群


- 数据科学家: 需要从 Google Drive 中提取和处理文档数据。
- 开发者: 想要自动化文档处理和嵌入生成的工作流程。
- 研究人员: 需要定期更新和存储文档数据以供分析。
- 企业用户: 希望通过自动化提高工作效率,减少手动操作。
- 学生: 需要整理和分析大量文档的学习材料。

解决的问题

此工作流解决的问题


- 文档处理效率低下: 自动化从 Google Drive 下载、处理和存储文档数据,节省时间。
- 数据整理困难: 将不同类型的文档(PDF、文本、JSON)提取并存储到数据库中,便于后续分析。
- 人工操作繁琐: 通过调度触发器实现定期自动化运行,减少人工干预。

工作流程

工作流过程详细说明


1. 调度触发器: 每天凌晨 03:00 自动启动工作流。
2. 搜索文件夹: 从指定的 Google Drive 文件夹中查找所有文件。
3. 批量处理文件: 将找到的文件进行批量处理。
4. 下载文件: 下载每个文件以便后续处理。
5. 文件类型判断: 根据文件类型(PDF、文本、JSON)进行分类。
6. 提取内容: 使用相应的提取节点处理不同类型的文件,提取文本内容。
7. 生成嵌入: 使用 OpenAI 的嵌入模型生成文档的嵌入表示。
8. 存储向量: 将生成的嵌入存储到 PostgreSQL 数据库中。
9. 移动文件: 将处理完成的文件移动到指定的文件夹,以便于管理。
10. 结束流程: 完成所有操作后,工作流结束。

自定义指南

用户如何自定义和适应此工作流


- 修改调度时间: 在调度触发器中更改 triggerAtHour 的值以调整工作流的运行时间。
- 更改搜索文件夹: 更新 Search Folder 节点中的 folderId 来指定新的文件夹。
- 调整文件处理逻辑: 根据需要修改 Switch 节点中的条件,以支持不同的文件类型或处理方式。
- 更新数据库连接: 在 Postgres PGVector Store 节点中更新数据库凭据以连接到不同的数据库。
- 自定义文件移动操作: 修改 Move File 节点中的 folderId 以改变文件移动的目标文件夹。