第26篇:数据分类分级:DISC架构下的数据敏感度标记体系 核心数据绝不出域、重要数据经审批有限流动、一般数据按策略流动——分类分级标签随数据生命周期动态附着一、一份被忽略的分类分级清单某企业的数据分类分级项目已经完成了三年。那份Excel清单被存档在合规部门的共享盘里文件名是“数据分类分级清单_V3.0_最终版”。三年来企业新增了四十多个数据源、两百多张新表、上千个新字段但没有一个人打开过那份清单来更新它。它静静地躺在共享盘里像一个被遗忘的纪念碑——纪念着那个“我们终于完成了数据分类分级”的季度。[1]上个月法务部门在应对一次监管审查时需要确认“薪酬数据的安全等级是什么”。合规经理打开那份三年前的清单找到薪酬数据那一行——“重要数据”。但当IT部门配合排查时发现三年来薪酬系统新增了十几个自定义字段——包括股权激励明细、长期激励计划、高管递延薪酬——这些新字段在旧清单中根本不存在。这些数据的安全等级是什么没有人能回答。这不是个案。在大多数完成了数据分类分级的企业中分类分级都是一次性工程——请外部顾问做几周访谈输出一份Excel清单内部审核通过存档。项目结项的那一天就是清单开始过时的那一天。数据资产在持续增长和变化但清单永远停留在项目结项的那一刻。数据分类分级如果不是动态的、自动的、与数据生命周期绑定的就等于没有做。DISC-DAMA的分类分级体系要回答的核心问题是如何让分类分级从“一次性的静态文档”变成“持续自动更新的动态免疫系统”。二、传统分类分级的局限传统DAMA体系下的数据分类分级有三个致命缺陷。缺陷一静态性。 分类分级项目启动时顾问团队对现有数据进行一次全面梳理输出一份清单。但数据资产不是静态的——新系统上线、新表创建、新字段添加每天都在发生。从项目结项的那一天起清单就开始过时。三个月后新增的数据没有分类标记。一年后清单中相当一部分信息已经与实际情况不符。三年后清单沦为一张废纸。没有人有动力去更新它因为更新意味着重新启动一次耗时数月的项目。缺陷二人工作。 传统分类分级高度依赖人工判断。数据管理员逐一审查数据表和字段根据分类分级标准判断敏感等级。这个过程有几个不可回避的问题。效率低——一个有几百张表、几千个字段的企业人工审查需要数周甚至数月。主观性强——同一个字段不同的管理员可能给出不同的敏感等级判断。不可持续——做完一轮后没有人愿意再做第二轮因为工作量太大。缺陷三与执行脱节。 这是最关键的缺陷。分类分级的结果是一份文档或清单——它告诉你“薪酬数据是重要数据”、“客户联系方式是个人信息”。但安全策略的执行——脱敏、加密、访问控制、出域审批——需要另外的人工配置两者之间没有自动化联动。清单上说薪酬数据是重要数据但数据仓库中的薪酬视图并没有自动应用脱敏规则。清单上说核心数据绝不出境但ETL管道照常将数据搬运到云端数据湖。分类分级成了“知道了”但“做不到”的纸上谈兵。三、DISC-DAMA动态分类分级体系DISC-DAMA的分类分级体系建立在三个核心原则之上。原则一自动标记——数据在创建时自动获得敏感身份。数据在被创建的那一刻治理能力胶囊自动对其进行初步分类分级。自动标记基于三个维度的规则。第一个维度基于数据源类型。某些数据库天然含有高敏感数据——薪酬数据库中的所有数据默认标记为“重要数据”因为其中包含员工的个人收入和身份信息。军工客户的订单数据库默认标记为“核心数据”因为涉及国防安全。公开的行业分析报告默认标记为“一般数据”。第二个维度基于字段模式匹配。治理能力胶囊内置了敏感数据模式库——身份证号正则表达式、手机号正则表达式、银行账号模式、统一社会信用代码模式。当胶囊扫描新创建的数据时自动对字段值进行模式匹配。匹配到身份证号模式的字段自动标记为“重要数据-个人信息”。匹配到银行账号模式的字段自动标记为“重要数据-金融信息”。模式匹配不是百分之百准确的——胶囊会为每个自动标记标注置信度。高置信度的标记自动生效低置信度的标记推送通知给数据治理经理人工确认。第三个维度基于业务上下文。同一个字段在不同业务上下文中可能有不同的敏感等级。客户名称在公开的行业报告中是一般数据但在军工客户的订单中是重要数据。数据编织的知识图谱提供业务上下文——它知道这个字段来自哪个数据源、与哪些业务实体关联、被哪些能力胶囊使用。基于这些上下文信息治理能力胶囊自动调整敏感等级。分类分级标准参照中国《数据安全法》的三级分类体系[2]。核心数据是关系国家安全、国民经济命脉、重大公共利益的数据一旦泄露可能损害国家利益——如军工客户数据、核心技术研发数据。核心数据的流动规则是绝不出域——任何出域请求自动拦截不进入审批流程。重要数据是关系企业核心竞争力和客户重大权益的数据一旦泄露可能严重损害企业或客户利益——如薪酬数据、客户个人信息、供应商合同数据。重要数据的流动规则是经审批可有限流动——出域需审批并自动脱敏经脱敏后的数据可按策略流动。一般数据是不涉及敏感信息的数据——如公开的产品目录、行业分析报告、经过脱敏处理的统计数据。一般数据的流动规则是按预设策略流动——系统自动执行默认策略无需审批。原则二标签随数据流动。分类分级标签不是贴在数据源上的而是贴在每一份数据上的。当数据被查询、复制、迁移时标签跟随数据一起移动。治理能力胶囊在每次数据访问时检查标签自动应用对应的安全策略。当能力胶囊查询费用数据时数据虚拟化引擎在查询执行前检查所涉及字段的标签。查询涉及“费用金额”字段——标签为“一般数据”放行。查询涉及“供应商银行账号”字段——标签为“重要数据-金融信息”自动应用脱敏规则将银行账号替换为掩码。查询涉及“军工客户标识”字段——标签为“核心数据”如果查询来自外部审计师自动拦截并触发审批流程。当数据从一个数据面复制到另一个数据面时——比如从华东数据面复制到华南数据面用于灾备——标签跟随数据移动。目标数据面的安全策略自动识别标签并应用相同的保护级别。当数据被能力胶囊处理后输出结果时输出结果继承源数据的标签。如果分析结果中包含重要数据的聚合值输出结果仍标记为“重要数据”在传出数据面前需经审批和脱敏。原则三持续更新。分类分级不是一次性工程而是持续运行的动态过程。数据编织的主动元数据引擎持续扫描数据资产。当发现新的数据源或字段时自动进行初步分类分级并推送通知给数据治理经理审核。当已有数据的敏感等级需要调整时——如法规变更导致某类数据从“重要”升级为“核心”——批量更新标签并自动调整安全策略。所有标签变更和标签触发的安全动作都被能力血缘追踪记录供合规审计追溯。四、分类分级标签的技术实现标签存储在数据虚拟化引擎的元数据层中与每个虚拟视图、每个物理字段关联。标签的数据结构包含敏感等级、分类依据、标签更新时间、标签审核人。敏感等级是核心、重要或一般。分类依据标注所依据的法规条款以便合规审计追溯。标签更新时间记录最后更新日期超过一定期限未复审的标签自动触发复审提醒。标签审核人记录最后审核通过的管理员确保责任明确。标签的执行在数据虚拟化引擎的安全策略执行点完成。当能力胶囊发起数据查询时引擎检查所查询字段的标签自动应用对应的安全策略。核心数据自动拦截或触发审批流程——审批通过后临时放行审批有效期过后自动恢复拦截。重要数据自动脱敏——姓名遮盖、身份证号遮盖、金额聚合为区间值。一般数据放行——按预设策略执行默认安全规则。标签的审计通过能力血缘追踪完成。每次标签变更——新标签创建、标签等级调整、标签过期——都被记录为一条不可篡改的日志。每次标签触发的安全动作——拦截、审批、脱敏、放行——都被记录。审计师可以追溯任意时间点任意数据资产的安全状态。五、薪酬数据的完整分类分级流程让我们用薪酬数据来完整展示这套体系的运作。[1]薪酬数据接入数据面时治理能力胶囊自动识别字段——员工姓名、身份证号、基本工资、绩效工资、社保缴纳基数。胶囊自动匹配敏感模式——身份证号匹配正则表达式自动标记为“个人信息-重要数据”基本工资和绩效工资标记为“薪酬信息-重要数据”。胶囊自动设定标签并推送通知给数据治理经理审核确认。当外部审计师请求导出薪酬数据时审计师在能力市场中订阅“薪酬审计分析胶囊”胶囊携带数据访问声明。主权合规网关验证胶囊的身份和权限签发临时准入令牌。数据虚拟化引擎在执行查询时检查薪酬数据的标签——检测到“重要数据”标签自动触发脱敏策略。员工姓名被替换为匿名ID身份证号被遮盖为前六位加星号工资信息被聚合为按部门的平均值和区间分布。审计师收到的是脱敏后的数据——可以看到薪酬的统计特征但无法识别任何个体的薪酬信息。整个流程自动完成无需人工干预每个步骤都被能力血缘追踪记录。数据分类分级不是一份一次性的文档而是一套动态运行在数据面上的免疫系统。在传统模式下分类分级是一张静态的照片——拍完就定格了之后发生的一切变化都与它无关。在DISC-DAMA的世界里分类分级是一个持续运转的免疫系统——新数据诞生时自动被标记已有数据的敏感等级随法规变化自动更新每次数据访问都自动检查标签并执行对应安全策略。每一份数据都有自己的“敏感身份证”无论它走到哪里身份随身携带规则自动执行。下一篇预告《数据合规审计从“承诺合规”到“证明合规”》——传统审计依赖合同条款和厂商承诺DISC-DAMA审计依赖技术证据。下一篇将拆解能力血缘追踪如何提供不可篡改的审计证据链TEE远程证明如何让硬件自证代码完整性以及独立第三方审计师如何独立验证每一次数据处理行为的合规性。让合规从“我相信你”变成“我验证你”。引用内容注释与来源说明[1] 场景与示例开篇“被遗忘的分类分级清单”场景及第五节“薪酬数据完整分类分级流程”的示例均为基于企业数据分类分级管理普遍痛点和DISC-DAMA动态分类分级理念的虚构典型化描写或示例性演示。其中涉及的企业、人物、具体数据如数据源数量、字段数量和系统名称如共享盘路径、数据库名称均为创作。[2] 中国《数据安全法》三级分类体系《中华人民共和国数据安全法》于2021年9月1日起施行。第二十一条规定国家建立数据分类分级保护制度将数据分为一般数据、重要数据和核心数据。法律全文中国人大网