杜宝坤

V1

2022/10/17阅读:31主题:全栈蓝

隐私计算的前世今生

一 前言

时光荏苒,一晃儿从开始写公众号到今天截止,已经一年了,时间过的海真是快啊!熟悉我的朋友大抵都知道我最初是做纯工程的,做搜广推的架构工程,后续转到了算法领域(机器学习框架与算法都涉及),后来由于项目需要,临危受命负责了京东零售的联邦学习的框架与算法,又开始搞隐私计算,这一路走来可以说是颇为折腾,感觉自己没有几天是放松的时间,不是在学习就是在学习的路上,没办法,谁让自己爱折腾呢!

刚刚看了下,在这一年的时间里,原创文章写了86篇,公众号内容结合自己的从事过的方向,大致分为五大专栏:

隐私计算 29篇
机器学习算法 24篇
机器学习框架 13篇
高性能计算 14篇
神奇数学 6篇

高T的技术要求是能在保持本专业方向的技术深度的同时,具备兼顾其他技术方向的横向拓展与迁移能力。我个人也一直是按照这个要求严格要求自己,但是我拓展的领域基本都是一个全新的领域,同时我对自己的额外要求是每个领域都要做到专家级别,所以可以说是难度很大。不过个人就是喜欢折腾,对于新的事物很好奇,所以也就一路推过来了,好在过往的成绩证明我做的都还不错,也算是没丢人。

掌握横向扩展领域有个很大的好处就是在涉及到大型项目需要多个领域方向的时候,你会比较得心应手,就比如联邦学习这种典型的多学科交叉新兴领域,对于整体的技术规划、技术选型、协议设计、算法设计、分布式架构、性能优化等有很大的帮助,但是难度也是确实非常大的。

对于很多事情,我都是后知后觉者。其实从事互联网十多年的时间里,很早就有写点文章和大家分享的念头,但是一直也没有实施,终于在去年十月份,由于某些原因,自己算是开悟了,开始写了起来。写公众号的时候,我也想过是专门写一个领域还是多个领域,但是感觉自己写一个领域太浪费,所以将自己涉及的领域就都写了写。

回想起自己刚刚做联邦学习的时候,也是懵懵懂懂,很多密码学方面的知识理解的不够深刻,但是不服输的性格驱动了自己不断的前进,从理论和落地都得到了突破,在这个过程中,网络中很多的博主写的文章给了我很大的帮助,助力我走到现在。所以也萌生了自己写公众号的想法,分享下自己在隐私计算领域的一些心得,也为整个行业进一些微博之力,如果哪位同学能够从中受益,吾亦深感荣幸,同时鉴于个人能力限制,如果有写的不妥的地方,欢迎大家帮忙指正,共同进步。

回忆刚开始写公众号的时候,由于对文章有一定的要求,所以最初文章写起来不是那么顺畅,一度也到过进行不下去的境地,也想过放弃,本身工作性质就比较忙,业余时间就比较少,所以挑战还是非常大的。但是好在自己都坚持下来了。正所谓“万事开头难,后续皆坦然”。在陆续写了十几篇文章后,慢慢找到了感觉,就爱上了写文章去分享,也就不觉得是个苦差事了,现在的状态是一周不写一篇,就会感觉浑身不舒服,哈哈。

由于我自己比较轴,所以写文章也比较轴,每次写之前都是做了充足的调研,力争把事情讲清楚、说明白,至少从我自己这里来说,我是努力的朝着这个方向去做的。

感谢很多读者的鼓励和支持,也感谢很多从业的朋友的信任,技术是无边界的,希望大家一起共同推动技术的进步。

从业者的困惑
从业者的困惑

本篇文章和大家共同分享下隐私计算的前世今生,从产生、发展到目前的关键性的节点,让大家对隐私计算发展过程有个整体性的认识。

二 隐私计算的前世今生

隐私计算虽然是一个全新的技术理念与方向,但是其并非一个单独的技术领域,而是多个领域的有机交叉、组合与融合。

同时由于隐私计算在最近几年的飞速发展,导致其体系化的理论不够成熟,网络上很多对隐私计算体系介绍的文章本身存在很大的问题,比如有的介绍里面将多方安全计算与秘密分享并列划分到同一个层次,这种分法就很有问题,会对立志于隐私计算的从业者带来极大的困扰。

为了能够把隐私计算的体系结构划分清晰,笔者结合自身在多个技术方向均有深度涉及的优势,并且结合自身在隐私计算领域多年的摸爬滚打与经验积累,针对隐私计算的相关技术特性,对隐私计算的技术体系进行了整理、归纳、总结与推演,特将隐私计算的技术总结如下:

  • 五大基座:数学基座、安全基座、工程基座、

  • 三大方向:安全多方计算、可信执行环境、联邦学习

按照这三大方向,笔者列举了隐私计算发展史的关键性历史事件,将整体隐私计算分为三个时代:1.0时代、2.0时代和3.0时代,如下图所示。

三 隐私计算1.0时代

隐私计算1.0时代的时间周期是1949年到1982年,代表性的技术突破是安全多方计算Secure Multi-Party Computation,即MPC。

在这个阶段,技术上出现很多划时代的里程碑式的突破,例如克劳德·香农开启了现代密码学、同态加密理念的提出以及隐私计算三大方向之一的安全多方计算的横空出世,这些理论与实践为隐私计算的兴起以及后续的高速发展与应用奠定了坚实的理论根基。

代表性的事件如下所示:

  1. 20世纪40年代,现代信息学之父克劳德·香农在备忘录《密码学的一个数学理论》的基础上,发表一篇重要论文《保密系统的通信理论》,被认为是开启了现代密码学时代。

  2. 1976年,Whitfield Diffie和Martin Hellman共同发表学术论文《New Direction in Cryptography》,创建了公钥加密体制,构建了现代密码学的里程碑。

  3. 1977年,Ron Rivest、Adi Shamir和Leonard Adleman发明非对称式加密算法RSA,解决了对称加密的秘钥泄露难题,使密码达到了新的阶段,并且产生深远的影响。

  4. 1978年,Ron Rivest、Leonard Adleman和Michael L. Dertouzos提出同态加密问题,并在当年提出了满足同态属性的算法,但是并未有完全解决其安全性问题。同态加密问题的提出标志着加密技术的研究从静态引向动态,是理论上的巨大创新,极大的助力了隐私计算的发展。

  5. 1979年,秘密分享(Secret Sharing, SS)最早由Shamir和Blakley提出。

  6. 1981年,不经意传输(Oblivious Transfer, OT)由Rabin提出。

  7. 1982年,姚期智教授在论文《Protocols for Secure Computations》中提出了“百万富翁问题”,开创性地引入了安全多方计算概念,开创了隐私计算的新纪元。

至此,隐私计算三大方向之一的安全多方计算:Secure Multi-Party Computation,MPC横空出世。开启了隐私计算的1.0时代,隐私计算正式走进大众的视野。

四 隐私计算2.0时代

隐私计算2.0时代的时间周期是从1983年到2015年,代表性的技术突破是可信执行环境Trusted execution environment,TEE。

这个阶段,零知识证明、混淆电路、基于秘密分享的MPC、半同态加密、差分隐私等协议和算法陆续出现。同时隐私计算三大方向之一的Trusted execution environment,TEE 可信执行环境也划时代的提出,并且硬件厂商Intel发布了商用TEE方案“英特尔软件防护扩展”(Intel Software Guard Extensions, Intel SGX),开创了隐私计算的新纪元。

代表性的事件如下所示:

  1. 1985年,S. Goldwasser、S. Micali和C. Rackoff首次提出零知识证明(Zero-Knowledge Proof, ZKP)概念(9)。其目的是解决如下问题:证明者如何向验证者证明自己拥有某一特定的数据,但证明过程不能透露任何有关该数据的信息

  2. 1986年,姚期智教授提出混淆电路(Garbled Circuit, GC)技术,实现了第一个多方(两方)安全计算方案。

  3. 1987年,Goldreich等人提出了基于电路的秘密共享方案GMW,并将其应用于多方安全计算。

  4. 1999年,Paillier在欧密会(EUROCRYPT)上首次提出支持加法同态的公钥密码系统。

  5. 2006年,C. Dwork提出差分隐私(Differential Privacy, DP),通过引入噪声对数据进行扰动,并要求输出结果对数据集中的任意一条记录的修改不敏感,使攻击者无法根据背景知识推断出敏感信息。

  6. 2009年,OMTP工作组率先提出一种双系统解决方案,即在同一个智能终端下,除多媒体操作系统外再提供一个隔离的安全操作系统,这一运行在隔离硬件之上的隔离安全操作系统用来专门处理敏感信息以保证信息安全,该方案是可信执行环境(Trusted Execution Environment, TEE)的前身。

  7. 2009年,Craig Gentry提出了首个全同态加密方案(Fully Homomorphic Encryption, FHE,同时支持密文下的加法和乘法运算,标志着全同态计算时代的开始,并逐渐发展出多种不同的全同态加密方案。

  8. 2015年Intel推出商用TEE方案“英特尔软件防护扩展”(Intel Software Guard Extensions, Intel SGX)(18)。

至此,隐私计算三大方向之二的安可信执行环境:Trusted execution environment,TEE横空出世。开启了隐私计算的2.0时代,隐私计算开启软硬件一体化的时代。

五 隐私计算3.0时代

隐私计算3.0的时间周期是从2016年至今,代表性的技术突破是联邦学习Federated Learning。

这个阶段,伴随着机器学习尤其是深度学习的快速发展,隐私计算融合了机器学习的知识,隐私计算三大方向之一的联邦学习联邦学习横空出世,划时代的提出了机器学习的新的范式,将隐私计算与机器学习相融合,并且由于其优秀的表现力,在众多领域落地。

  1. 2016年,Google AI团队提出联邦学习的算法框架应用于移动互联网手机终端的隐私保护(19)。

  2. 2019年,微众银行杨强教授团队提出纵向联邦学习、迁移联邦学习,并发布FATE开源系统。

至此,隐私计算三大方向之三的联邦学习:Federated Learning,FL横空出世。开启了隐私计算的3.0时代,数据要素的流通从数据分析扩展到数据建模,极大的拓展了隐私合规下的数据使用场景。

隐私计算三大方向:安全多方计算、TEE、联邦学习正式形成三足鼎立之势,支撑隐私计算领域。

六 公众号文章导读

公众号里面已经积累了不少的文章,并且根据隐私计算的五大基座、三大方向进行分类阐述,下面对公众号文章进行导航总结,方便大家阅读,共同推进隐私计算行业的发展,为隐私计算发展略尽绵薄之力。

七 番外篇

个人介绍:杜宝坤,隐私计算行业从业者,从0到1带领团队构建了京东的联邦学习解决方案9N-FL,同时主导了联邦学习框架与联邦开门红业务。 框架层面:实现了电商营销领域支持超大规模的工业化联邦学习解决方案,支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。 业务层面:实现了业务侧的开门红业务落地,开创了新的业务增长点,产生了显著的业务经济效益。 个人比较喜欢学习新东西,乐于钻研技术。基于从全链路思考与决策技术规划的考量,研究的领域比较多,从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流,邮箱:baokun06@163.com

八 公众号导读

自己撰写博客已经很长一段时间了,由于个人涉猎的技术领域比较多,所以对高并发与高性能、分布式、传统机器学习算法与框架、深度学习算法与框架、密码安全、隐私计算、联邦学习、大数据等都有涉及。主导过多个大项目包括零售的联邦学习,社区做过多次分享,另外自己坚持写原创博客,多篇文章有过万的阅读。公众号秃顶的码农大家可以按照话题进行连续阅读,里面的章节我都做过按照学习路线的排序,话题就是公众号里面下面的标红的这个,大家点击去就可以看本话题下的多篇文章了,比如下图(话题分为:一、隐私计算 二、联邦学习 三、机器学习框架 四、机器学习算法 五、高性能计算 六、广告算法 七、程序人生),知乎号同理关注专利即可。

一切有为法,如梦幻泡影,如露亦如电,应作如是观。

分类:

后端

标签:

后端

作者介绍

杜宝坤
V1