自动识别PDF表单字段,开源工具一键生成可填写表格
CommonForms 是个开源项目,包含 pip 可安装的包、两个模型,还有数据集预处理代码。装完之后,输一条命令就能把 PDF 变成可填写的表单。
比如最简单的用法:`commonforms <input.pdf> <output.pdf>`,默认在 CPU 上跑。还能通过参数调模型、设备、置信度阈值,支持 CPU 加速或者检测签名区域。想用自己的模型也行,通过参数指定路径就好。项目也提供了 Python API,开发者可以直接集成到自己的应用里。
作者还提供了托管服务 detect.semanticdocs.org,不想本地安装的话可以在线用。不过目前没说是不是免费、有没有限制。
两个模型——FFDNet-L 和 FFDNet-S——来自一篇2025年的学术论文。论文和 CommonForms 数据集都是公开的,数据集放在 HuggingFace 上,研究人员可以复现结果,或者在此基础上改一改。
项目作者是 Joe Barrow。他在说明里说,非学术用户用了也欢迎联系他。