[2/3] 设置用于异常检测的类中心(2种类型)(作物数据集)

用于Qdrant,通过设置聚类中心和阈值分数,自动检测作物数据集中的异常。该工作流程结合了距离矩阵和多模态嵌入模型两种方法,确保准确识别作物类别中的异常情况,提升数据分析效率。

2025/7/8
48 个节点
复杂
spmntyrle9ydvwfa手动复杂splitoutsticky note高级api集成
分类:
Complex WorkflowManual Triggered
集成服务:
SplitOutSticky Note

适用人群

此工作流适合以下人群:
- 数据科学家: 需要进行异常检测和数据分析的专业人士。
- 农业研究人员: 关注作物数据和分类的研究人员。
- 开发者: 希望集成 Qdrant 和 Voyage AI 的开发者。
- 企业分析师: 需要分析作物数据以优化生产的分析师。
- 教育工作者: 在教学中使用数据分析的教师。

解决的问题

此工作流解决了在农业数据集中进行异常检测的问题。通过设置聚类中心和阈值分数,用户可以有效识别作物数据中的异常情况,从而优化农业生产和管理。使用两种不同的方法来确定聚类中心,确保结果的准确性和可靠性。

工作流程

  • 手动触发工作流: 用户点击‘测试工作流’按钮,开始执行。
    2. 获取集合中的总点数: 通过 API 请求获取 Qdrant 集合中的点数,以便设定限制。
    3. 聚类距离矩阵: 使用 Qdrant API 获取聚类的距离矩阵,分析各个点之间的相似度。
    4. 构建稀疏矩阵: 使用 SciPy 库构建稀疏矩阵,计算最相似的点作为聚类的代表。
    5. 设置聚类中心的 ID: 将计算出的聚类中心 ID 存储在 Qdrant 中。
    6. 获取聚类中心向量: 通过 API 请求获取聚类中心的向量和负载信息。
    7. 准备搜索阈值: 计算聚类中心的对立向量,并准备搜索相关的阈值。
    8. 搜索分数: 查询最远离聚类中心的点,计算其分数。
    9. 设置聚类阈值分数: 将计算出的阈值分数更新到 Qdrant 中。
    10. 文本嵌入: 对作物描述进行嵌入,获取文本的向量表示。
    11. 获取文本聚类中心: 查询与文本描述最相似的聚类中心。
    12. 设置文本聚类中心 ID: 将文本聚类中心的 ID 存储到 Qdrant 中。
    13. 准备文本搜索阈值: 重复以上步骤以计算文本聚类的阈值。
    14. 最终更新: 更新所有聚类中心和文本聚类中心的阈值分数,完成异常检测的准备工作。
  • 自定义指南

    用户可以通过以下方式自定义和调整此工作流:
    - 修改 Qdrant 集合 URL 和名称: 在‘Qdrant cluster variables’节点中,更新 URL 和集合名称以匹配自己的数据。
    - 调整聚类参数: 在‘Medoids Variables’和‘Text Medoids Variables’节点中,修改聚类的样本大小和限制,以适应数据集的规模。
    - 更改文本描述: 在‘Textual (visual) crop descriptions’节点中,更新作物描述,以更好地反映具体作物的特征。
    - 调整阈值计算方法: 根据具体应用场景,修改阈值计算的逻辑,确保其适应特定的异常检测需求。
    - 添加更多数据源: 可以在工作流中集成其他数据源,以增强数据分析的深度和广度。