近日,火山引擎数据安全中心Jeddak隐私计算平台(以下简称“Jeddak”)亮相2022世界人工智能大会,作为面向数据安全与隐私计算的综合平台,Jeddak可以直面解决生产领域最棘手的端到端数据安全、特别是计算环境下的隐私保护问题。
在2022世界人工智能大会可信隐私计算高峰论坛上,火山引擎吴烨带来《Jeddak Project-隐私计算实践应用与探索》的议题,该议题聚焦在隐私计算上的能效平衡和应用生态两个维度,就安全性与计算效率的实用化挑战和技术突破,分享了抖音集团的落地经验,希望可以给隐私计算行业提供实践参考。
近年来,各国政府越来越重视用户隐私的问题,相继制定了以隐私为重点的数据保护法规。与此同时,企业对于数据的流通交易和共享也存在切实需求,如何打破“数据孤岛”,保障数据安全动态的使用,成为当前企业重点关注和迫切需要解决的问题。隐私计算技术的出现,是解决数据可用不可见的突破口,逐渐成为数字经济发展的新基建。
在隐私计算领域,能效平衡和应用生态是两个关键的挑战,因此如何既满足安全性的要求又能满足实用化的效率要求,是业内一直探索的方向;同时由于隐私计算起步较晚,当前缺少一些杀手锏级别的应用。针对上述的两个挑战,抖音集团启动了Jeddak Project,推出面向数据安全与隐私计算的综合平台,实现端到端的数据安全和计算过程中的隐私保护。
如果说隐私计算构成了用户信任的护城河,那隐私计算背后的功臣莫属密码学,众所周知同态加密是密码学的皇冠,那么Jeddak是如何落地同态加密的呢?
在企业内部,很多的财务和人事的敏感数据,从数据治理角度看是需要进行访问控制的;但是从业务角度需要对敏感数据进行分析处理,Jeddak使用ABE技术授权专业人员完成。但由于数据属于高敏类型,分析人员往往没有获取明文数据的权限,借助Jeddak-HE让分析人员实现安全外包计算。宏观上看,上述流程实现了端到端的全生命周期的数据保护,整个分析处理是在密文下完成的。
为了解决统计查询以及用户数据采集场景中的隐私泄露问题,Jeddak基于差分隐私技术,实现数据脱敏和隐私度量,自研了面向查询保护的 DPSQL (Differentially Private SQL Query Service)服务,将差分隐私计算应用到数据的SQL查询中,比如与ClickHouse数据库结合,实现统计查询的差分攻击保护。
在面对需要利用多方数据进行联合查询时,Jeddak-MPC也有不俗实力。比如一方拥有人群的特征数据,另一方拥有购买标签数据,需要联合分析广告的投放效果。首先MPC的底层实现对用户是透明的,用户通过使用常规的SQL发起任务,Jeddak将SQL重写技术与MPC算子结合,从而在各方数据均不出域的情况下实现联合查询,目前Jeddak-MPC已支持亿级的联合查询。
同时,在金融领域的联合营销案例中,需要基于人群特征和金融标签两方数据建立营销模型,实现存量客户促活。Jeddak-FL提供了丰富的算法协议支持,以及完整的联邦学习任务。首先通过高性能PSI来实现训练样本的对齐,用联邦特征工程进行训练预处理,之后利用树模型/深度神经网络来实现联邦建模,最后通过离线或在线预测的方式进行打分和投放,实现在保护各方数据不出域情况下的营销闭环。
在典型的企业场景中,数据提供方如客户服务部拥有大量的CRM数据,但是需要定期提交给相关数据治理部门来更新和纠错,比如电话号码的缺失、合适的规则校验等,这一场景属于公司内部十分常见的上下游数据使用情况。如何保障数据协同过程中不出现隐私泄露,保护数据安全和计算的完整性与机密性。Jeddak-TEE让数据提供方和数据治理方分别加密各自数据,之后安全传输至沙箱进行数据融合。在数据沙箱中,其他实体无法修改运行的服务逻辑,也无法窥探在沙箱中的数据。计算任务完成后,平台侧仅可获取到预期的结果,规避了数据直接提供给数据治理部门的合规风险。
路漫漫其修远兮,火山引擎Jeddak平台及相关解决方案将会出现在火山引擎云安全系列产品矩阵中,服务更多的火山引擎云客户。火山引擎安全研究团队也希望联合行业同行一起深入实际应用场景,通过创新突破解决数据安全隐私的卡脖子问题,完成真正高效、易用的数据“可用不可见”过程,实现合规下的数据价值最大发挥,努力为用户带来丰富和便捷的安全计算功能。