用于Colombian Invoices Processing,自动化处理个人电子发票,定期每30分钟从Gmail接收并提取.zip附件。提取PDF和XML文件中的关键信息,如发票类型、号码、日期、NIT、金额等,并进行校验。将发票数据上传至Google Drive并重命名,同时更新Google Sheets以避免重复,确保数据整合与存储高效可靠。
此工作流适合以下人群:
- 个人用户:需要处理和管理个人电子发票的用户。
- 小型企业:希望自动化发票处理和存档的小型企业。
- 会计师:需要高效提取和整理发票数据的会计专业人士。
- 数据分析师:需要分析发票数据以进行财务报告的分析师。
该工作流解决了以下问题:
- 手动处理发票的繁琐:通过自动化流程,减少手动干预,提高效率。
- 数据提取不准确:利用先进的技术(如 LangChain 和 OpenAI),准确提取发票中的关键信息。
- 存档和管理困难:自动将发票存储在 Google Drive 和 Google Sheets 中,便于后续查找和管理。
工作流过程详细说明:
1. 邮件触发:每 30 分钟 从 Gmail 中轮询,查找带有 .zip
附件的电子邮件。
2. ZIP 文件处理:提取所有文件,筛选出 PDF 和 XML 格式的文件进行处理。
3. 数据提取与处理:使用 LangChain Agent + OpenAI (GPT-4o-mini) 提取发票的关键信息,包括:
- 文档类型(发票或信用票)
- 发票号码
- 发票日期(格式:YYYY-MM-DD)
- 发票开具人和接收人的 NIT(不含验证数字)
- 开具人的公司名称
- 税前金额、增值税、发票总额
- CUFE
- 购买摘要(最多 20 个字,格式化句子)
4. 数据验证:确保 总额 = 税前金额 + 增值税,使用计算器节点进行验证。
5. 存储:将原始 PDF 上传到 Google Drive,并重命名为 YYYY-MM-DD-NUMERO_FACTURA.pdf
。同时,将发票详细信息插入或更新到 Google Sheets 中,使用唯一的 Key
(NIT_Emisor + Numero_Factura
)避免重复。
用户如何自定义和调整此工作流:
- 调整邮件触发频率:根据需要更改 Gmail 轮询的时间间隔。
- 修改文件筛选条件:可以根据不同的文件类型或名称模式调整 ZIP 文件的筛选条件。
- 自定义数据提取逻辑:根据特定的发票格式或信息需求,修改数据提取的提示和逻辑。
- 更改存储位置:用户可以选择不同的 Google Drive 文件夹或 Google Sheets 文档进行存储。
- 增加额外的验证步骤:根据需要,添加更多的验证节点以确保数据的准确性和完整性。