葡萄牙语医疗病历里九成敏感信息,现在能被开源模型精准揪出
35个专攻葡萄牙语(含巴西变体)医疗场景的PII识别模型刚开源,最高F1分89.21%,前十全在88.56%以上。拿真实病历测试,身份证号、医保卡、电话、地址这些敏感字段,它能稳稳抓出将近九成。
覆盖54类实体,从巴西CPF、RG、CNPJ、SUS卡,到Rua/Avenida开头的街道名、+55区号电话、IBAN、银行账号、邮箱、职业,连日期格式都按本地习惯认。不是拿英语模型翻译微调糊弄的,而是真正在巴西和葡萄牙语料上训出来的。
模型全家桶挺全:DeBERTa-v3、mDeBERTa、RoBERTa、XLM-RoBERTa、ModernBERT,还有临床特供版、Longformer长文本版,甚至BGE-M3和Arctic嵌入模型都塞进来了,参数量从33M到568M不等。全走Apache 2.0协议,没API、不绑云,自己服务器就能跑,患者数据不出机房。
LGPD、GDPR、HIPAA合规要求?基本够得着。巴西医院、葡萄牙诊所能用,安哥拉、莫桑比克、佛得角的公卫系统也别错过。
OpenMed搞的,Hugging Face已上架。我试了下加载速度,比某些国产医疗SaaS快多了——至少不用先注册再扫码再填单位证明。