隐私计算:数据乌托邦的现实之境

如果说绝对平等、按需分配的乌托邦只能是空想,那么日趋重要的数据资源要公平合理地分配使用,是否就注定无解?

数据常被比作石油资源,数据又和土地、劳动力、资本、技术并列为第五大生产要素。但与其他传统生产要素相比,数据的独特性在于,一旦被人或机器“看见”,就能被无限地复制传播,也可能迅速被大量使用者利用,滥用的责任就难以厘清,数据价值也会随着不断流通而逐渐丧失。

由于这些数据的先天特质,一般认为数据本质上是无法安全流通的,或者说明文数据的流通是个伪命题。这一困境直接加大了数据共享的难度——数据的原始拥有者只要一拿出数据,就可能在极短时间内面对数据滥用和价值归零。但谁都明白,完全“雪藏”数据也是不现实的,没有大数据人工智能就无从谈起,每个人在享受到智能手机便利性的同时必然要贡献自己的数据。

让数据可用不可见

解决数据分享悖论的努力在近几年似乎迎来了曙光。

形而上学层面,人们开始意识到,真正应该分享的并不是数据本身,而是数据经过计算处理后产生的价值。也就是说,数据需要保护和隔离,但数据价值却在于共享联合。换句话说,就是要把数据的使用权从所有权中分立出来。

以此为指引,在技术层面,隐私计算技术的出现终于实现了数据的“可用不可见”,并且已从实验室走向应用,乃至商业落地,一跃成为当红数据流通与分享解决方案。

图片来源:微众银行与毕马威《深潜数据蓝海:隐私计算行业研究报告2021》

所谓数据可用不可见,就是输入方可以在不直接共享原数据的前提下让使用方得到数据计算产生的结果,使用方也能从更多来源的数据计算中获得更多更准确的计算结果和数据价值。在整个过程中,原始数据始终掌握和保留在数据所有者手中,而数据价值却被安全地挖掘出来。

一个典型的例子是,当我们手机上许多APP在使用刷脸支付的时候,这些APP并没有真的得到我们脸部的图像数据,而只是一个计算结果:正在刷脸的人是否就是账户所有者本人。反过来说,无论是否是本人,这些APP都只能根据计算结果来判断下一步操作,而不是直接获得刷脸者的照片。

由此及彼,这样的理念应用在更大场景中,产生的价值也是巨大的。比如在医疗领域,不同医疗机构的数据可以集合起来计算,将能帮助医生更快理解更多疾病,也能极大提升“AI医生”的诊断能力。而在金融领域,不同金融机构的数据放在一起计算后,风控能力就可大大提升,不法分子就会一处碰壁处处碰壁。当然,这一切的前提仍然是所有原始数据始终都在各自所有者手里。

需要指出的是,由于隐私计算的发展尚处早期,各方对其理解和应用并不完全相同。比如,隐私计算这一名称就有不同版本,如隐私增强计算、隐私安全计算等,但在一般交流中都可用隐私计算来表示。

隐私计算究竟包括哪些核心技术?如果从软件和硬件视角来看,隐私计算不仅包含软件算法,也包括硬件环境。其中软件方面主要指多方安全计算(MPC)、同态加密(HE)、差分隐私(DP)等算法,而硬件环境则主要指基于芯片的可信执行环境(TEE)。如果从技术属性来看,也可分为源于密码学的技术路径,如MPC、 HE,以及源于人工智能的技术路径,如联邦学习。此外,区块链技术近年来也被用于隐私计算,在分布式架构、数据确权和溯源方面不断优化隐私计算。

目前各界对隐私计算的基本共识是,无论采用何种技术路径,大家的目标都是为了实现数据的可用不可见。要实现这一目标,并非单一技术可以达成,而是多种技术路径的综合使用。因此,与其说隐私计算是“技术”,不如说是解决方案。

如此美好的工具自诞生之日起就被寄予厚望,受关注程度也不断提高。2020年10月19日,全球权威的IT研究与顾问咨询公司Gartner发布2021年前沿战略科技趋势,其中将隐私增强计算与行为互联网、分布式云、超级自动化等并列为最前沿的九大趋势,极大提升了隐私计算的知晓度。

尽管初看隐私安全计算给人感觉十分前沿和复杂,但隐私安全计算的一些技术路径已经相当成熟而接地气了。比如刚才提到的手机刷脸支付,就是由于手机芯片中有一个TEE区域,用于指纹和面部识别。而在B端,医疗和金融领域已经诞生了许多隐私计算的落地应用,并且还将持续成为热门应用场景。

炙手可热,冷静思考

隐私计算前途无量,但要说可以力挽狂澜从此解决数据共享难题,恐怕暂时有点想多了。

首先隐私计算并不能解决所有的数据问题。比如,若参与数据计算的各方完全没有信任基础,在看不到数据的前提下又如何能确定数据符合要求?又比如,人工智能数据需要标记,这类可用可见的数据是否会成为安全漏洞?事实上,很多数据问题都可能发生在隐私计算之外。

其次,隐私计算自身还存在不少问题。

隐私计算的技术路径仍处于探索期,尤其在面对上百万级大数据时的性能问题仍然突出。在非技术层面,中国信息通信研究院云计算与大数据研究所副总工程师王蕴韬列举了隐私计算的三大问题:第一、隐私计算产品很难自证安全。第二,隐私计算产品的法律适配性值得探讨。第三,不同的隐私计算平台形成新的数据孤岛,隐私计算平台间的互联互通值得持续关注。

最后,隐私计算的大规模推广应用仍然面临现实问题。其中令隐私计算技术供应商十分头疼的是,对用户而言,隐私计算固然能保护数据、提升合规性,但能够带来多少真正的商业价值却无从知晓。另外,缺乏既有客户案例,难以说服新客户尝试隐私计算,也无奈成为了“先有鸡还是先有蛋”的挑战。

在这些问题中最引人担忧的是不同隐私计算平台形成的新数据孤岛,毕竟这与隐私计算实现数据安全共享流动的初衷相悖,也将直接影响隐私计算的发展前景。目前,这一问题已经引起隐私计算业界的关注,解决思路集中于打造更上层、更大范围的隐私计算基础设施。

国内隐私计算“四小龙”之一——翼方健数CEO罗震提出了数据和计算互联网概念。他认为,从发展路线来看,隐私安全计算的发展将会经历单体、联盟、生态网络三大阶段,分别包括单体平台(局域网)、平台联盟(专业网络)及数据和计算互联网。

这一发展路径的核心要义就在于实现了不同隐私计算平台的互联互通。也就是说,在隐私计算让原始的数据孤岛通过私有的隐私计算协议连接起来形成更大的岛链的同时,不同岛链又可以通过通用的隐私计算方式连接起来,最终形成数据和计算互联网。

随着发展阶段的演进,各参与方之间信任度的要求逐步降低,数据的流通共享和利用效率则逐步提升。随着互联互通的深入,隐私计算所需的技术和资源消耗会变得愈加经济高效。等到数据和计算互联网阶段,生态网络形成,数据即使在没有信任的平台间也可通过授权被所有参与者利用,以最合适的隐私计算方式、应用计算方法以及算力完成计算。

国内隐私计算代表性企业华控清交董事长兼CEO张旭东则展望了国家数据流通网,并对资源的集约化利用提出了相似观点。他认为,支持数据流通的可用不可见、可控可计量,需要消耗较大计算和通讯资源,需要有基础设施,好比是一个有公信力的“中央厨房”。

国家数据流通网是基于计算合约的算力和通讯带宽的结合体,是国家数据流通监测管理和宏观调控的基础设施。这个基础设施在投入时需要花大量成本,但投入后使用的边际成本大幅下降,可靠性、安全性大大提高。

张旭东还强调,国家数据流通网作为基础设施需要以松解耦的架构设计确保通用性:一套计算框架,适配不同应用场景。他表示,数据流通就是不同形式的数据结合使用节点都可以打通,如果数据和算法是捆绑的就不能实现通用,只有解耦才能构成通用模式。这其包括了三大解耦,即算法和算力解耦;数据和算法解耦;数据、算法、算力与应用解耦。

  • 以上内容仅代表作者个人观点,不代表氢云资讯观点及立场
  • 以上内容及观点不构成任何投资建议,据此投资后果自负

上一篇:
下一篇:
评论已经关闭