AI Pulse

自动识别PDF表单字段,开源工具一键生成可填写表格

自动识别PDF表单字段,开源工具一键生成可填写表格

CommonForms 是个开源项目,包含 pip 可安装的包、两个模型,还有数据集预处理代码。装完之后,输一条命令就能把 PDF 变成可填写的表单。

比如最简单的用法:`commonforms <input.pdf> <output.pdf>`,默认在 CPU 上跑。还能通过参数调模型、设备、置信度阈值,支持 CPU 加速或者检测签名区域。想用自己的模型也行,通过参数指定路径就好。项目也提供了 Python API,开发者可以直接集成到自己的应用里。

作者还提供了托管服务 detect.semanticdocs.org,不想本地安装的话可以在线用。不过目前没说是不是免费、有没有限制。

两个模型——FFDNet-L 和 FFDNet-S——来自一篇2025年的学术论文。论文和 CommonForms 数据集都是公开的,数据集放在 HuggingFace 上,研究人员可以复现结果,或者在此基础上改一改。

项目作者是 Joe Barrow。他在说明里说,非学术用户用了也欢迎联系他。

📎 阅读原文 · GitHub

📬 订阅 AI Pulse

每天两次更新,不错过重要信号

▲ 回到顶部