一、医疗大模型 “双合规” 核心内涵
**
医疗大模型备案的 “双合规” 是指同时满足数据合规与模型合规两大要求:
- 数据合规:训练 / 推理数据需符合《个人信息保护法》《医疗数据安全指南》等规定,核心是临床数据的去标识化 / 匿名化处理,避免泄露患者隐私;
- 模型合规:模型开发、训练、部署过程需遵循医疗行业技术标准,确保输出结果的准确性、安全性,且不违反医疗伦理规范。
其中,临床数据脱敏是数据合规的关键前提,也是备案材料审核的重点环节。
二、临床数据脱敏实操模板(直接复用)
以下模板覆盖门诊、住院、检验、影像等核心临床数据类型,采用 “原始字段 - 脱敏规则 - 脱敏后示例” 结构,兼顾合规性与数据可用性:
数据类别 | 原始字段 | 脱敏规则 | 脱敏后示例 | 适用场景 |
患者标识信息 | 姓名 | 拼音首字母 + 随机 3 位数字(去标识化);或直接替换为 “患者 XXX”(匿名化) | LXY632 / 患者 089 | 模型训练、案例展示 |
身份证号 | 保留前 6 位(行政区划码)+ 后 4 位,中间 10 位用 “*” 屏蔽 | 110105********3672 | 医保关联、数据溯源(去标识化) | |
手机号 | 保留前 3 位 + 后 4 位,中间 4 位用 “*” 屏蔽 | 138****5678 | 联系信息脱敏 | |
病历号 / 就诊卡号 | 原始编号 + 随机前缀(如 “MED-”),或替换为纯随机字符串 | MED-892736 / XQZ928371 | 数据存储、模型推理 | |
诊疗核心数据 | 诊断结果 | 疾病名称泛化处理(避免具体亚型泄露),编码保留国标码 | 原发性高血压(I10)→ 高血压(I10) | 训练数据、统计分析 |
医嘱内容 | 去除患者标识信息,药品名称保留通用名,剂量 / 用法保留规范表述 | “患者 089 口服氨氯地平片 5mg qd” | 模型推理、临床辅助决策 | |
手术记录 | 隐去术者姓名、手术室编号,保留手术名称、术式国标编码 | “腹腔镜胆囊切除术(ICD-9-CM 51.23)” | 手术相关模型训练 | |
检验 / 检查数据 | 检验报告单编号 | 原始编号 + 机构缩写,中间插入随机字符 | HOS-LAB-7291XZ3 | 检验数据关联分析 |
影像数据(DICOM) | 去除 DICOM 标签中的患者姓名、身份证号、住院号,保留设备信息、影像参数 | 设备:GE Revolution / 患者 ID:匿名 037 | 影像分析模型训练 | |
敏感关联信息 | 家庭住址 | 保留到地级市,去除区县及详细地址 | 北京市 朝阳区 → 北京市 | 非地理关联类模型训练 |
联系方式 | 仅保留 “是否有紧急联系人” 标识,隐去具体号码 | 有紧急联系人:是 | 基础信息统计 |
脱敏规则补充说明:
- 去标识化:保留数据统计特性,可通过额外密钥还原(适用于需溯源的场景,如模型验证);
- 匿名化:彻底去除所有可识别患者的信息,无法还原(适用于公开数据集、通用模型训练);
- 敏感字段必脱敏:诊断结果中的传染病、罕见病等敏感疾病,需按 “泛化 + 编码” 双重处理,避免隐私泄露。
三、脱敏后合规核验要点(备案必查)
- 不可还原性验证:通过技术手段检测脱敏数据是否可通过拼接、关联等方式还原患者身份,需提供验证报告;
- 数据可用性保障:脱敏后的数据需满足模型训练 / 推理需求,避免过度脱敏导致数据失效(如检验数值、影像特征不可篡改);
- 合规文档留存:
- 脱敏操作日志(含操作人员、时间、规则版本);
- 第三方合规评估报告(建议由具备医疗数据安全资质的机构出具);
- 患者知情同意书(如使用非匿名化数据,需证明已获得患者授权)。
四、“双合规” 备案实践建议
- 建立全流程脱敏体系:将脱敏嵌入数据采集、传输、存储、使用全环节,采用自动化脱敏工具(如医疗专用数据脱敏系统),减少人工操作风险;
- 模型合规联动:脱敏数据需与模型训练目标匹配,例如临床辅助诊断模型的脱敏数据,需保留核心诊疗特征,避免影响模型准确率;
- 备案材料聚焦重点:在备案申请书中明确脱敏规则、合规验证结果,附上本文模板的实际应用案例,提升审核通过率。
