葡萄牙语医疗病历里九成敏感信息，现在能被开源模型精准揪出

📅 2026 年 4 月 21 日 📖 约 4 分钟 @MaziyarPanahi on 𝕏 AI开源医疗

35个专攻葡萄牙语（含巴西变体）医疗场景的PII识别模型刚开源，最高F1分89.21%，前十全在88.56%以上。拿真实病历测试，身份证号、医保卡、电话、地址这些敏感字段，它能稳稳抓出将近九成。

覆盖54类实体，从巴西CPF、RG、CNPJ、SUS卡，到Rua/Avenida开头的街道名、+55区号电话、IBAN、银行账号、邮箱、职业，连日期格式都按本地习惯认。不是拿英语模型翻译微调糊弄的，而是真正在巴西和葡萄牙语料上训出来的。

模型全家桶挺全：DeBERTa-v3、mDeBERTa、RoBERTa、XLM-RoBERTa、ModernBERT，还有临床特供版、Longformer长文本版，甚至BGE-M3和Arctic嵌入模型都塞进来了，参数量从33M到568M不等。全走Apache 2.0协议，没API、不绑云，自己服务器就能跑，患者数据不出机房。

LGPD、GDPR、HIPAA合规要求？基本够得着。巴西医院、葡萄牙诊所能用，安哥拉、莫桑比克、佛得角的公卫系统也别错过。

OpenMed搞的，Hugging Face已上架。我试了下加载速度，比某些国产医疗SaaS快多了——至少不用先注册再扫码再填单位证明。

📎 阅读原文 · @MaziyarPanahi on 𝕏