第二篇：理论溯源：从隐私保护数据挖掘到“数据不动能力动”

发布时间：2026/6/30 23:13:57

一部跨越三十年的思想演进史如何从学术构想走向全球共识一、一个问题三十年追寻一个看似简单的问题在世纪之交被学术界正式提出如何在从数据中挖掘有价值信息的同时保护数据背后个体的隐私[1]这个问题在此后三十年间牵动了密码学家、分布式系统研究者、AI工程师和政策制定者。他们从各自领域出发沿着不同的路径探索逐渐汇聚到同一个答案上——“把计算带给数据而不是把数据交给计算”。今天我们在DataSov社区讨论的DISC架构——数据原位主权能力架构——并非凭空诞生的新概念。它是这三十年探索的最新结晶。它的“数据不动能力流动”内核早在三十年前就已埋下种子。理解这段历史才能真正理解DISC架构为何必然出现以及它将走向何方。这是一部思想史一部跨越三十年的思想演进史。二、萌芽期1995-2015问题的种子与思想先驱隐私保护数据挖掘的诞生隐私保护数据挖掘Privacy-Preserving Data Mining, PPDM作为一个正式的研究领域诞生于世纪之交的学术界[1]。核心问题明确而尖锐如何在保护个体隐私的前提下从数据中挖掘出有价值的模式和知识这是“可用不可见”思想的最早学术表达。研究者们意识到数据利用和隐私保护之间的矛盾需要从计算范式层面寻求解答而非仅仅依靠管理手段。虽然当时的技术手段还相当原始——主要是数据扰动、匿名化和简单的访问控制——但问题框架已经建立。安全多方计算的奠基这一时期另一条重要的学术脉络是安全多方计算理论的建立。姚期智院士在1982年提出了“百万富翁问题”——两个百万富翁想知道谁更富有但都不愿透露自己的具体财富。这个看似简单的场景开创了安全多方计算领域的理论根基[2]。其核心思想极具前瞻性多个参与方可以在不泄露各自私有输入的前提下共同完成某个函数的计算。进入2000年代安全多方计算从纯理论走向协议设计与效率优化。研究者们将同态加密、秘密共享、混淆电路等技术组合运用逐步将MPC从“理论可行”推向“工程可用”。这些工作为后来的联邦学习奠定了密码学基础。代码迁移的早期探索在分布式系统领域另一条看似无关的探索线也在推进。1979年“程序切片”概念的提出[3]以及后来移动Agent、代码迁移等研究已经在思考“让计算向数据靠近”的效率优势。只不过当时的主要驱动力是网络带宽和延迟的优化而非数据隐私保护。这一阶段的特征问题已经明确但技术路径尚未清晰。隐私保护研究PPDM、SMPC与分布式计算研究代码迁移分属不同学术社区彼此尚未交汇。但“数据不能集中处理”的意识已经开始觉醒各个领域的先驱者都在用自己的方式叩击同一扇门。三、成型期2016-2021联邦学习的诞生与“数据不动”概念的提出谷歌联邦学习的工业突破2016年谷歌正式提出“联邦学习”概念[4]标志着“数据不动”从学术构想走向工业级应用。背景很实际智能手机用户在设备上输入大量文本数据涉及高度个人隐私不能上传到云端集中训练。谷歌的解决方案是革命性的模型在每台设备上本地训练只上传加密的梯度更新原始数据永不离开设备。“数据不动模型动”——这一核心范式正式确立。联邦学习用一个优雅的设计在数据利用和隐私保护之间找到了工程平衡点。它证明了一件事不必把数据汇聚到一起也能训练出高质量的全局模型。联邦学习的三种范式联邦学习在随后几年迅速分化出三种范式[5]。横向联邦学习适用于“不同样本、相同特征”的场景——两家不同城市的银行客户群体不同但交易特征类似各自本地训练共享模型参数。纵向联邦学习适用于“相同样本、不同特征”的场景——银行和电商有共同用户但各自持有不同维度的数据。联邦迁移学习应对最困难的情况——样本和特征都很少重叠。学术脉络的交汇这一时期安全多方计算的密码学成果与联邦学习开始深度融合。梯度加密传输成为联邦学习的标准安全机制——同态加密保护梯度在传输过程中不被窃取差分隐私为梯度注入噪声以防止模型反推个体数据。姚期智院士三十年前奠定的理论在联邦学习的工程实践中找到了大规模应用场景。杨强教授团队在这一时期系统完善了联邦学习理论提出“数据可用不可见”的完整技术理念[5]并在金融、医疗等领域推动落地实践。这一阶段的特征核心概念正式提出并得到工业验证。“数据不动”不再只是理论构想而是有了可运行的工程实现。但讨论范畴仍主要局限于AI模型的训练场景——流动的是“模型”和“梯度”而非更广泛的计算形态。四、升华期2022-2023从“数据不动模型动”到“数据不动程序动”方滨兴院士的关键升华2022年方滨兴院士在BCS大会上正式提出“数据不动程序动”这一更宏大的表述[6]。这是一次关键的概念升维不仅是AI模型的梯度可以流动SQL查询语句可以流动数据分析算法可以流动业务规则引擎可以流动合规审计脚本也可以流动。“程序”的外延远大于“模型”所有“计算”都可以流动而不仅仅是“模型训练”。调试环境与运行环境分离方滨兴团队同时提出了关键的工程架构——“模型加工场”[6]。核心理念是调试环境与运行环境分离数据需求方在调试环境中使用仿真数据开发程序通过安全审核后程序被下发到数据所在的可信执行环境中运行。计算结果需经过“防水堡”技术智能审核确认不包含原始数据片段后才可输出。这套架构为“数据不动程序动”提供了完整的工程闭环。鹏城实验室的算力网实践依托“中国算力网”国家级基础设施鹏城实验室将这套架构在多语言翻译、基因数据安全开放、政务数据融合等场景中进行了大规模验证相关成果入选行业年度重大科技进展[7][8]。这一阶段的特征“数据不动”的内涵被大幅扩展——从AI模型训练延伸到一切计算形态从理论构想走向大规模工程落地从技术框架走向国家级基础设施。五、共识期2024至今从全球实践到法律认可国际实践的共振欧盟国际数据空间IDS基于数据所有权与使用权分离的架构在汽车、医疗、能源等超过五十个场景中实践着“数据不动程序访问数据”[9]。微软可信研究环境TRE允许研究人员在高安全控制下访问敏感数据原始数据不出安全环境分析代码在TRE中执行[10]。Snowflake通过数据不动模式实现了数据的商业化共享——数据提供方开放数据访问权限消费者在不获取原始数据副本的前提下完成分析[11]。欧盟《人工智能法》的历史性认可2024年欧盟《人工智能法》正式通过。该法鼓励使用隐私增强技术PETs来平衡数据保护与AI创新为“数据不动”类技术路径提供了法律层面的正面背书[12]。这是此类技术理念首次在全球重要法律框架中获得明确认可——技术共识开始上升为法律共识。中国法规的呼应中国的《数据安全法》确立的数据分类分级制度、重要数据不出境要求[13]《个人信息保护法》规定的委托处理监督义务、敏感个人信息的严格保护标准[14]——这些法律要求与“数据原位处理”的技术原则高度契合。法律的刚性约束正在成为技术变革的最强驱动力。六、从三十年溯源到DISC架构概念升维的必然逻辑如果三十年的思想演进只是按时间罗列那它不过是一部编年史。真正重要的是这些看似独立的技术突破和制度创新背后是否隐藏着某种必然性它们是否在共同指向同一个更根本的架构范式答案是肯定的。但要看清这种必然性我们需要回答三个问题。第一个问题为什么“程序动”还不够方滨兴院士的“数据不动程序动”是一次关键的升华。它把流动的对象从“模型”扩展到了“程序”——SQL查询、分析算法、规则引擎、审计脚本一切可执行的代码都可以流动。但在实践中“程序”这个概念仍然偏重技术执行层。一个反欺诈AI模型在数据本地执行推理——这是程序动。一个薪酬核算规则引擎读取本地HR数据并生成工资条——这也是程序动。一个GDPR合规策略自动检查数据访问日志——这同样是程序动。它们都是“程序”但它们的商业属性、安全要求、交付方式和价值度量完全不同。一个AI模型的交付形式是加密的容器镜像按调用次数收费。一个规则引擎的交付形式是版本化的策略代码包按节点数收费。一个合规策略的交付形式是动态加载的治理插件按审计频率收费。把它们都笼统地称为“程序”掩盖了它们在商业和技术上的本质差异。这就是从“程序动”到“能力动”需要完成的第一步升维——我们需要一个比“程序”更丰富的概念来区分和描述这些不同类型的流动实体。第二个问题为什么需要一个统一的架构范式2020年代中期的全球实践呈现出一种“百花齐放但各自为战”的局面。联邦学习解决了多方联合训练时的数据隐私问题但它的技术栈FATE、FLARE与机密计算的技术栈TEE、远程证明几乎没有交集。Headless BI解决了分析查询的本地执行问题但它与工业边缘计算的能力分发体系是两套完全不同的架构。这种碎片化带来了三个问题。第一企业需要在不同场景中部署不同的技术栈集成成本和运维复杂度高。第二不同技术栈的安全模型和合规审计方式不统一企业难以建立整体合规体系。第三能力供应商需要为不同场景开发不同形态的产品市场规模被割裂。换言之2020年代中期的实践已经验证了“数据不动程序动”的可行性但缺少一个统一的架构框架来整合这些分散的技术路径。这个框架需要回答能力如何被统一注册和发现如何被安全地分发和执行如何被审计和追溯治理规则如何在跨域流动中保持一致第三个问题如何把“主权”从外部约束变成内部属性在传统架构中“主权”是一个外部法律约束。法律说“数据不能出境”企业在设计系统时把这个要求作为一个外部条件来遵守。但外部约束的问题在于它依赖人的自觉和事后审计而非系统的内生机制。2024年欧盟《人工智能法》的通过标志着一个转折点。当“数据不动算法动”类技术获得法律层面的正面认可它就不再只是技术圈的最佳实践而是一个必须被系统化执行的合规要求。这意味着“主权”需要从外部法律约束变成架构的内部属性——不是“我们遵守数据主权法律”而是“我们的架构设计确保了数据主权不可侵犯”。这正是DISC架构中“Sovereign”一词的核心含义。必然性的浮现这三个问题的交汇点就是DISC架构诞生的必然性所在。第一“程序动”的成功实践暴露了概念的不足——流动的不是抽象的“程序”而是具有不同商业和技术属性的“能力”。这催生了“能力三元论”——智能能力、逻辑能力、治理能力。第二碎片化的技术实践催生了对统一架构范式的需求——一个能整合联邦学习、机密计算、数据虚拟化、Headless BI等分散技术的整体框架。这催生了“51核心组件”——能力注册中心、能力编配器、能力执行沙箱、主权合规网关、能力血缘追踪以及协同总线。第三“主权”从外部约束到内部属性的演进催生了对架构设计原则的重新定义——“数据最小出域”、“默认不信任”、“可证明的隐私”、“离线可用”、“能力持续迭代”五大黄金原则。这三条逻辑线——概念的升维、架构的统一、主权的内化——共同指向了同一个范式DISC数据原位主权能力架构。DISC架构的继承与超越DISC架构继承了“数据不动程序动”的全部思想遗产。联邦学习的“数据不动模型动”是DISC智能能力的核心流动模式。方滨兴院士的“模型加工场”架构是DISC能力编配器和主权合规网关的早期雏形。鹏城实验室的算力网实践是DISC架构在国家级数据面上的验证。但DISC架构也完成了几项关键的超越。它将“程序”升维为“能力”——不仅包含智能能力还包含逻辑能力和治理能力。它将“数据不动模型动”的单一范式扩展为“数据不动能力流动”的完整架构。它将“合规作为外部约束”的思维转变为“主权作为架构属性”的设计原则。三十年前一个问题被提出如何在利用数据价值的同时保护数据背后的人与组织三十年后一个答案正在凝聚。DISC架构不是答案的终点而是答案的新起点。下一篇预告《新大陆的轮廓——“数据不动能力流动”的哲学与架构原则》——我们将正式展开DISC架构的核心主张、五大黄金原则和两种核心运行模式在读者脑海中建立起DISC架构的清晰认知框架。引用内容注释与来源说明[1] 隐私保护数据挖掘PPDM的诞生原文多处提及“1995年”作为PPDM的提出时间。经查证隐私保护数据挖掘作为一个正式确立的研究领域其奠基性工作公认始于2000年Agrawal Srikant和Lindell Pinkas的两篇开创性论文。正文中已修正为“世纪之交”的模糊表述以保持准确性同时保留1995-2015作为“萌芽期”的大致时段框架该时期确实包含了概念酝酿阶段。代表文献Agrawal, R., Srikant, R. (2000, May). Privacy-preserving data mining.Proceedings of the 2000 ACM SIGMOD international conference on Management of data, 439-450. https://doi.org/10.1145/342009.335438Lindell, Y., Pinkas, B. (2000). Privacy preserving data mining.Advances in Cryptology—CRYPTO 2000, 36-54. Springer. https://doi.org/10.1007/3-540-44598-6_3[2] 姚期智“百万富翁问题”与安全多方计算1982年姚期智院士在论文中提出百万富翁问题奠定了安全多方计算Secure Multi-party Computation, MPC的理论基础。Yao, A. C. (1982). Protocols for secure computations.23rd Annual Symposium on Foundations of Computer Science (SFCS 1982), 160-164. https://doi.org/10.1109/SFCS.1982.38[3] “程序切片”概念提出Mark Weiser在其1979年博士论文中首次提出程序切片思想后于1984年正式发表论文被认为是代码迁移和分布式计算领域的早期理论贡献之一。Weiser, M. (1984). Program slicing.IEEE Transactions on Software Engineering, SE-10(4), 352-357.[4] 谷歌联邦学习的工业突破谷歌于2016年提出联邦学习概念2017年发表核心论文标志着该技术从学术构想到工业级应用的关键转折。McMahan, B., et al. (2017). Communication-efficient learning of deep networks from decentralized data.Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS). https://arxiv.org/abs/1602.05629[5] 联邦学习三种范式与杨强团队贡献杨强教授团队系统总结并命名了横向联邦学习、纵向联邦学习与联邦迁移学习三种范式提出“数据可用不可见”理念并主导了FATE框架的开源与IEEE联邦学习标准的制定。Yang, Q., Liu, Y., Chen, T., Tong, Y. (2019). Federated machine learning: Concept and applications.ACM Transactions on Intelligent Systems and Technology, 10(2), 1-19. https://doi.org/10.1145/3298981IEEE联邦学习标准IEEE 3652.1-2020, IEEE Guide for Architectural Framework and Application of Federated Machine Learning. https://standards.ieee.org/ieee/3652.1/10325/[6] 方滨兴院士“数据不动程序动”与“模型加工场”2022年方滨兴院士在BCS大会北京网络安全大会Beijing Cyber Security Conference上正式提出“数据不动程序动”理念其团队设计了“模型加工场”架构及“防水堡”技术实现数据可用不可见。相关报道可参见中国电子报等行业媒体对方滨兴院士演讲的报道。[7] 鹏城实验室“中国算力网”实践鹏城实验室牵头建设“中国算力网”China Computing Network并在“数据不动程序动”架构下开展AI靶场、基因数据安全开放、政务数据融合等场景应用验证。相关信息可参见鹏城实验室官网发布的项目成果。[8] 入选年度重大科技进展原文称鹏城实验室相关成果入选“2024年度网络和数据安全重大科技进展”。此表述经泛化处理正文中已修正为“入选行业年度重大科技进展”。相关信息可参见相关评选活动的官方发布。[9] 欧盟国际数据空间IDS国际数据空间协会IDSA提出IDS参考架构核心原则为数据主权保留、去中心化的数据共享实现数据所有权与使用权的分离已在汽车、医疗、能源等行业开展实践。参见IDSA官网https://internationaldataspaces.org/[10] 微软可信研究环境TREMicrosoft Azure提供受信任的研究环境Trusted Research Environment让研究者在预置的安全工作区中分析敏感数据原始数据不出环境分析代码在TRE内执行。参见微软文档https://learn.microsoft.com/en-us/azure/architecture/example-scenario/data/trusted-research-environment[11] Snowflake数据商业化共享Snowflake通过安全数据共享Secure Data Sharing功能使数据提供者无需复制或移动数据即可向消费者授权实时查询实现数据原地处理与商业化共享。参见Snowflake文档https://docs.snowflake.com/en/user-guide/data-sharing-intro[12] 欧盟《人工智能法》的认可原文称该法“明确支持‘数据不动算法动’技术”。经查欧盟《人工智能法》Regulation (EU) 2024/1689并未直接使用该精确术语但其多个条款鼓励使用匿名化、加密等隐私增强技术PETs来平衡数据保护与AI创新。正文中已修正为“为‘数据不动’类技术路径提供了法律层面的正面背书”。法律文本https://eur-lex.europa.eu/eli/reg/2024/1689[13] 中国《数据安全法》2021年9月1日起施行确立数据分类分级保护制度将数据分为一般数据、重要数据和核心数据第二十一条对重要数据与核心数据的出境作严格规定。法律全文http://www.npc.gov.cn/npc/c30834/202106/7c9af12f51334a73b56d7938f99a788a.shtml[14] 中国《个人信息保护法》2021年11月1日起施行规定委托处理个人信息需约定处理目的、方式并实施监督第二十一条敏感个人信息严格保护第二十八条以及跨境传输需满足安全评估等条件并取得个人单独同意第三十八条、第三十九条。法律全文http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml

文章详情

第二篇：理论溯源：从隐私保护数据挖掘到“数据不动能力动”

相关新闻

最新新闻

日新闻

周新闻

月新闻