用于Qdrant,自动批量上传作物数据集,生成图像嵌入并优化数据存储。通过Google Cloud Storage集成,确保高效处理,支持异常检测与KNN分类。此工作流程简化了数据管理,提升了模型训练的准确性与效率。
此工作流适合以下人群:
- 数据科学家:需要处理和分析图像数据集以进行机器学习模型训练。
- 机器学习工程师:希望将图像数据上传到 Qdrant 进行高效的相似性搜索和分类。
- 云计算开发者:需要集成 Google Cloud Storage 和 Qdrant 进行数据存储和检索。
- 研究人员:希望利用图像数据进行异常检测和分类实验。
该工作流解决了以下问题:
- 高效上传:自动化批量上传图像数据集到 Qdrant,减少手动操作。
- 数据处理:通过 Voyage API 生成图像的嵌入,确保数据在 Qdrant 中的可用性。
- 异常检测:过滤掉特定类别的图像(如西红柿),以便进行更准确的异常检测测试。
- 数据索引:在 Qdrant 中创建索引以优化后续查询性能。
工作流过程详细说明:
1. 手动触发:用户点击“测试工作流”按钮以启动工作流。
2. 获取 Google Cloud Storage 数据:从指定的 Google Cloud Storage 存储桶中获取图像数据。
3. 提取字段:为每个图像生成公共链接和作物名称。
4. 检查 Qdrant 集合:检查指定的 Qdrant 集合是否存在。
5. 创建集合:如果集合不存在,则创建新的 Qdrant 集合,并设置向量大小和相似性度量。
6. 设置索引:在 Qdrant 中为作物名称字段创建索引,以优化后续的查询。
7. 处理图像数据:将图像数据转换为 Voyage API 可接受的格式,并生成嵌入。
8. 生成 UUIDs:将图像数据分批处理并生成唯一标识符(UUID),用于 Qdrant 中的点 ID。
9. 批量上传到 Qdrant:将生成的嵌入和图像描述批量上传到 Qdrant。
10. 完成上传:工作流结束,数据已成功上传并可用于后续分析。
用户如何自定义和调整此工作流:
- 修改存储桶名称:在 Google Cloud Storage 节点中更改 bucketName
参数,以指向不同的存储桶。
- 调整图像过滤条件:在过滤节点中修改条件,以排除其他作物类别或添加新的过滤条件。
- 更改嵌入模型:在嵌入图像节点中,替换 model
参数以使用不同的 Voyage 模型。
- 调整批处理大小:在 Qdrant 集群变量节点中更改 batchSize
参数,以控制每批上传的图像数量。
- 更新 Qdrant 集合名称:在 Qdrant 集群变量节点中修改 collectionName
,以适应不同的数据集。