[1/3 - 异常检测] [1/2 - KNN 分类] 批量上传数据集到 Qdrant (作物数据集)

适用人群

此工作流适合以下人群：
- 数据科学家：需要处理和分析图像数据集以进行机器学习模型训练。
- 机器学习工程师：希望将图像数据上传到 Qdrant 进行高效的相似性搜索和分类。
- 云计算开发者：需要集成 Google Cloud Storage 和 Qdrant 进行数据存储和检索。
- 研究人员：希望利用图像数据进行异常检测和分类实验。

解决的问题

该工作流解决了以下问题：
- 高效上传：自动化批量上传图像数据集到 Qdrant，减少手动操作。
- 数据处理：通过 Voyage API 生成图像的嵌入，确保数据在 Qdrant 中的可用性。
- 异常检测：过滤掉特定类别的图像（如西红柿），以便进行更准确的异常检测测试。
- 数据索引：在 Qdrant 中创建索引以优化后续查询性能。

工作流程

工作流过程详细说明：
1. 手动触发：用户点击“测试工作流”按钮以启动工作流。
2. 获取 Google Cloud Storage 数据：从指定的 Google Cloud Storage 存储桶中获取图像数据。
3. 提取字段：为每个图像生成公共链接和作物名称。
4. 检查 Qdrant 集合：检查指定的 Qdrant 集合是否存在。
5. 创建集合：如果集合不存在，则创建新的 Qdrant 集合，并设置向量大小和相似性度量。
6. 设置索引：在 Qdrant 中为作物名称字段创建索引，以优化后续的查询。
7. 处理图像数据：将图像数据转换为 Voyage API 可接受的格式，并生成嵌入。
8. 生成 UUIDs：将图像数据分批处理并生成唯一标识符（UUID），用于 Qdrant 中的点 ID。
9. 批量上传到 Qdrant：将生成的嵌入和图像描述批量上传到 Qdrant。
10. 完成上传：工作流结束，数据已成功上传并可用于后续分析。

自定义指南

用户如何自定义和调整此工作流：
- 修改存储桶名称：在 Google Cloud Storage 节点中更改 bucketName 参数，以指向不同的存储桶。
- 调整图像过滤条件：在过滤节点中修改条件，以排除其他作物类别或添加新的过滤条件。
- 更改嵌入模型：在嵌入图像节点中，替换 model 参数以使用不同的 Voyage 模型。
- 调整批处理大小：在 Qdrant 集群变量节点中更改 batchSize 参数，以控制每批上传的图像数量。
- 更新 Qdrant 集合名称：在 Qdrant 集群变量节点中修改 collectionName，以适应不同的数据集。