使用 OpenAI 和 Google Sheets 轻松比较 LLMs

适用人群

目标受众

- 开发者：希望比较不同语言模型性能以选择最佳方案。
- 产品经理：需要评估AI响应以确保符合用户需求。
- 数据科学家：希望在多种模型中进行详细分析和比较。
- 非技术团队成员：希望通过Google Sheets轻松查看和评估模型输出。

解决的问题

- 非确定性输出：语言模型的输出具有随机性，难以直接比较。
- 评估效率：手动比较多种模型的输出耗时且容易出错。
- 数据记录：需要将模型的响应记录到Google Sheets以便后续分析和团队讨论。

工作流程

工作流程步骤

1. 接收聊天消息：用户通过聊天界面发送消息。
2. 定义模型：指定要比较的语言模型（如 openai/gpt-4.1 和 mistralai/mistral-large）。
3. 循环处理：对每个模型进行循环，发送相同的用户输入。
4. 模型响应：每个模型独立处理输入并生成响应。
5. 记录上下文：将用户输入和模型响应的上下文信息记录下来，以便后续分析。
6. 结果整合：将两个模型的结果进行汇总，便于直接比较。
7. 写入Google Sheets：将所有相关数据（如用户输入、模型响应和上下文）写入Google Sheets。
8. 展示结果：在聊天界面中展示两个模型的响应，便于用户进行即时比较。

自定义指南

- 修改模型列表：在 Define Models to Compare 节点中，可以更改要比较的模型ID。
- 调整Google Sheets格式：根据需要修改Google Sheets中的列和格式，以适应团队的评估标准。
- 扩展模型数量：如果需要比较更多模型，需在工作流中添加相应的逻辑和节点。
- 设置系统提示：在 AI Agent 节点中定义系统提示和工具，以匹配具体的用例需求。