🦙👁️👁️ 通过比较找到最佳本地Ollama Vision模型

用于Ollama,自动下载并处理图像,提取详细描述和上下文信息,生成结构化数据,直接保存到Google文档中,便于协作与分析。解决从图像中提取有意义见解的挑战,适用于房地产、市场营销和研究等领域。

2025/7/8
19 个节点
复杂
手动复杂便签splitinbatchesextractfromfile谷歌驱动splitoutgoogledocs高级api集成文件存储
分类:
Complex WorkflowManual Triggered
集成服务:
Sticky NoteSplitInBatchesExtractFromFileGoogle DriveSplitOutGoogleDocs

适用人群

目标受众


- 开发者: 需要处理和分析图像的技术人员。
- 数据分析师: 需要提取图像中的结构化数据和详细描述。
- 人工智能爱好者: 对使用本地托管的 Ollama 视觉模型感兴趣的用户。
- 房地产专业人士: 需要对房地产相关图像进行详细分析的人士。

此工作流适合任何需要从图像中提取深度信息的人群,尤其是在需要详细描述、上下文分析和结构化数据提取的应用场景中。

解决的问题

解决的问题


此工作流解决了从图像中提取有意义的洞察力的挑战,具体包括:
- 识别对象: 列出所有可见对象及其描述。
- 分析空间关系: 确定对象之间的相对位置。
- 提取文本元素: 识别和提取图像中的所有文本。
- 提供上下文信息: 通过视觉线索推断设置和时间。

这些功能对于房地产、市场营销、工程和研究等领域尤为重要,能够帮助用户在决策时获得更全面的信息。

工作流程

工作流步骤


1. 从 Google Drive 下载图像文件: 获取待分析的图像。
2. 处理图像: 使用多个 Ollama 视觉模型(如 Granite3.2-Vision、Llama3.2-Vision)对图像进行分析。
3. 生成详细描述: 根据分析结果生成结构化的 markdown 格式描述。
4. 保存结果到 Google Docs: 将生成的描述直接保存到 Google 文档中,便于分享和进一步分析。

此工作流能够高效处理图像并输出可供直接使用的结果,极大地提高了工作效率。

自定义指南

自定义指南


- 更换图像来源: 如果需要,可以将图像来源替换为其他提供商(如 AWS S3 或 Dropbox)。
- 修改分析提示: 在 "通用图像提示" 节点中调整提示,以适应具体的分析需求。
- 添加后处理节点: 可添加额外节点,将结果集成到其他平台,如 Slack 或 HubSpot。

通过这些自定义选项,用户可以根据自身的需求灵活调整工作流,以实现最佳效果。