新闻提取

用于News Extraction,通过自动化提取新闻网站的最新帖子,生成每篇文章的摘要和关键词,并将结果存储到NocoDB数据库中。每周定时运行,确保获取最新信息,提升信息处理效率。

2025/7/4
36 个节点
复杂
计划复杂openaisticky noteschedule triggernocodbitemlists自动化高级api集成cron
分类:
Schedule TriggeredComplex Workflow
集成服务:
OpenAiSticky NoteSchedule TriggerNocoDbItemLists

适用人群

目标受众


- 新闻编辑:需要定期提取和汇总新闻内容。
- 数据分析师:希望从新闻中提取关键字和摘要以进行进一步分析。
- 开发者:想要自动化从特定网站获取新闻的过程。
- 市场营销人员:需要快速获取行业动态以制定营销策略。
- 学术研究者:需要最新的新闻数据来支持研究或论文。

解决的问题

解决的问题


- 自动化提取:从没有 RSS 提供的新闻网站自动提取最新新闻,解决了手动查找和提取信息的繁琐。
- 信息汇总:通过生成摘要和关键词,帮助用户快速获取新闻的核心信息,节省时间。
- 定期更新:通过定期调度,确保用户获取最新的新闻数据,保持信息的时效性。

工作流程

工作流程步骤


1. 调度触发器:每周在特定时间自动触发工作流。
2. HTTP 请求:从指定的新闻网站获取 HTML 内容。
3. HTML 提取:提取包含新闻链接和发布日期的 HTML 元素。
4. 创建单个项目:将提取的链接和日期转换为单独的 JSON 项目。
5. 过滤最近的新闻:选择过去 7 天内的新闻,以确保信息的时效性。
6. 提取个别新闻:对每个链接发起请求,提取新闻标题和内容。
7. 生成摘要和关键词:使用 OpenAI 的 GPT-4 模型生成每篇新闻的摘要和关键词。
8. 合并数据:将提取的内容、日期、链接、摘要和关键词合并为一个完整的数据集。
9. 存储到数据库:将最终结果存储到 NocoDB 数据库中,以便后续访问和分析。

自定义指南

自定义指南


- 修改调度时间:在调度触发器节点中,可以调整 triggerAtDaytriggerAtHourtriggerAtMinute 来更改工作流的执行时间。
- 更新 CSS 选择器:在提取 HTML 内容的节点中,可以根据目标网站的结构,修改 CSS 选择器以提取不同的元素。
- 更改数据库配置:在 NocoDB 节点中,更新数据库表名和字段映射,以适应不同的数据存储需求。
- 调整过滤条件:在选择最近新闻的代码节点中,可以更改日期范围,获取不同时间段的新闻。
- 增加其他处理步骤:可以在工作流中插入新的节点,例如发送电子邮件通知或生成报告,以满足特定需求。