该工作流解决了从多个网页中自动提取产品信息的难题,减少了手动数据收集所需的时间和精力。 - 通过将提取的数据自动添加到 Google Sheets,用户可以轻松管理和分析数据,提升工作效率。
工作流程
手动触发:用户点击‘测试工作流’以启动流程。 - 获取要抓取的 URL:从指定的 Google Sheets 中提取需要抓取的网页链接。 - 批量处理 URL:将提取的 URL 分批处理,以便逐个抓取。 - 发送请求以抓取网页:通过 Brightdata API 发送请求,获取网页的原始 HTML 内容。 - 清洗 HTML:利用自定义代码清洗 HTML,去除不必要的标签和内容,只保留重要信息。 - 提取数据:使用 LangChain 提取清洗后的 HTML 中的产品信息,包括名称、描述、评分、评论数和价格。 - 结果处理:将提取的结果分离出来,并整理成适合 Google Sheets 的格式。 - 将结果添加到 Google Sheets:将提取到的产品信息自动添加到指定的 Google Sheets 中,便于后续分析和使用。
自定义指南
修改数据源:用户可以更改 Google Sheets 的文档 ID 和表格名称,以适应不同的数据源。 - 调整提取逻辑:可以根据需要修改提取数据的逻辑,改变提取的字段或格式。 - 更改抓取的网页:用户可以通过更新要抓取的 URL 列表,灵活调整抓取的目标。 - 自定义 HTML 清洗规则:可以根据具体需求修改清洗 HTML 的代码,以保留或去除特定的标签和内容。