使用 Google Gemini 和 Bright Data 网页抓取器总结 Glassdoor 公司信息

用于Glassdoor,通过自动化工作流程提取公司信息,利用Google Gemini和Bright Data Web Scraper进行数据总结,提升信息获取效率,节省时间,提供更清晰的公司概况。

2025/7/8
14 个节点
中等
ddpkw7hg5dzhqu2wrkoa98eai3ietrlu手动中等langchain便签等待高级逻辑条件api集成
分类:
Manual TriggeredMedium Workflow
集成服务:
LangChainSticky NoteWait

适用人群

此工作流适合以下人群:
- 数据分析师:希望提取和总结 Glassdoor 上的公司信息以进行分析。
- HR 专业人士:需要了解公司文化和员工反馈,以改善招聘策略和员工体验。
- 市场研究员:需要获取竞争对手的员工评价和公司概况,以进行市场分析和定位。
- 开发者:希望利用自动化工具来简化数据提取和处理流程。

解决的问题

此工作流解决了从 Glassdoor 提取公司信息并进行自动化总结的需求。通过使用 Bright Data Web Scraper API,用户可以快速获取公司概况、员工评价等重要数据,并通过 Google Gemini 模型进行智能总结,从而节省了大量的手动数据处理时间。

工作流程

  • 手动触发:用户点击‘测试工作流’按钮开始流程。
    2. 发送 HTTP 请求:向 Bright Data API 发送请求,触发数据提取。
    3. 设置快照 ID:获取并存储快照 ID,以便后续查询。
    4. 检查快照状态:定期检查数据提取的进度,确保提取完成。
    5. 等待 30 秒:在每次检查状态后,等待 30 秒以避免频繁请求。
    6. 下载快照响应:在快照完成后,下载提取的数据。
    7. 数据处理:使用递归字符文本分割器和默认数据加载器处理下载的数据。
    8. 总结数据:通过 Google Gemini 模型对提取的数据进行总结。
    9. 发送 Webhook 通知:将总结结果发送到指定的 Webhook 地址,便于后续处理或查看。
  • 自定义指南

    用户可以通过以下方式自定义和适应此工作流:
    - 修改 Glassdoor URL:在‘HTTP 请求到 Glassdoor’节点中,更新请求的 URL 以提取不同公司的数据。
    - 调整等待时间:在‘等待 30 秒’节点中,可以根据需要调整等待时间,以适应不同的数据提取速度。
    - 更改总结模型:在‘Google Gemini Chat Model’节点中,用户可以选择不同的模型或参数,以满足特定的总结需求。
    - Webhook 地址:在‘配置 Webhook 通知’节点中,用户可以替换为自己的 Webhook 地址,以便接收总结结果。