文|杨春白雪 中国信通院互联网法律研究中心研究员
2023年2月13日,联合国大数据和数据科学专家委员(UNCEBD)会发布《隐私增强技术指南》(The PET Guide)。指南重点关注隐私增强技术在官方统计数据中的应用,旨在帮助各国的国家统计局更好地理解和运用隐私增强技术处理敏感数据,提升数据的准确性和安全性,进而助力政府科学合理决策。
隐私增强技术是用于安全处理和共享敏感数据的技术,旨在平衡隐私保护和数据可用性,可以分为输入端和输出端两大类。指南的主体部分包含五个章节:第一章是背景简介,第二章是方法分类,第三章是各国案例研究,第四章是技术标准,第五章是法律和监管。
一、背景简介
官方统计数据是世界各国政府做出明智决策的可靠信息来源。为保证官方统计数据的可信性、相关性、及时性和高质量,处理调查和普查获得的个人和企业数据在所难免。由于其中涉及到大量敏感数据,政府、企业、个人和数据保护机构都对此高度关注。利用隐私增强技术可以有效降低数据安全风险,从数据全生命周期维度保护个人隐私和数据安全,增强数据主体的信心和信任,进而平衡统计分析的灵活性和隐私保护的有效性之间的矛盾。
为此,联合国设立了隐私增强技术实验室(UN PET Lab),希望通过实验评估、培训交流和支持服务三大功能,助力各国更好地了解和运用隐私增强技术。
二、方法分类
指南重点介绍了七种隐私增强技术的技术概况、发展历史、安全模型和使用成本等。一是多方安全计算(sMPC),是指允许对多方输入的数据进行联合计算,每一参与方只能获得正确计算结果,对其他参与方的输入数据保密的输入端技术。多方安全计算常见的技术选择是混淆电路(Garbled Circuit)和线性秘密共享(linear secret sharing)。二是同态加密(HE),是指直接对加密数据进行计算产生加密结果,由数据控制者自行解密的输入端技术。同态加密可以应用于将数据外包给不受信任的第三方处理者、不完全信任的计算环境等,实践中往往应用于医疗领域。三是差分隐私(DP),这是一种严格强调随机性的输出端隐私标准,旨在量化数据库中单个记录的最大信息量,防止因多次查询后计算结果的微小改动反向推导而导致的隐私泄露。四是合成数据,是指将敏感数据集转换为具有相似统计学特征、但不透露个人信息的新数据集的输出端隐私技术,可以运用在需要共享敏感数据的领域。五是分布式学习,是指利用多个计算节点训练机器学习、深度学习模型的隐私协议,保证用户数据永远不会离开设备,可以分为联邦学习(FL)和拆分学习(SL)两种。六是零知识证明(ZK),是指允许一方向另一方证明某项声明的真实性,而无需提供作为前提的相关秘密信息。近年来,零知识证明被广泛运用于加密货币、身份验证的相关应用程序。七是可信执行环境(TEE)和安全飞地,是指与计算机主处理器和内存隔离并进行加密通信的数据处理环境,可以缓释输入隐私、代码隐私、代码验证风险。以上七种隐私增强技术,相关机构可以根据实际需要选择特定技术或者技术组合。
指南第三章详细列举了十八个涉及隐私增强技术的具体案例,涉及跨部门使用、多种技术组合、多国合作参与、公私部门协作等具体场景,涵盖美国、加拿大、欧盟、英国、意大利、荷兰、韩国、印度尼西亚等国家和地区。其中,十五个案例仍处于构思或部署阶段,另外三个已经实际投入使用。
指南第四章概述了隐私增强技术的标准情况,包括关键技术标准和间接相关标准等。自《联合国隐私保护技术手册》出版以来,与隐私增强技术和人工智能相关的标准制定活动显著增加,尤其是在机器学习领域。与以往注重事后经验积累不同,隐私增强技术的相关标准制定活动越来越关注对“已知的已知”和“已知的未知”两种潜在危害的事前防范,相关标准也更加关注精细的技术细节。
三、法律监管
目前,世界主要国家和地区尚未出台专门针对隐私增强技术的监管政策,其技术特性也使得隐私增强技术难以纳入到现有的规制框架。随着政府、机构和企业等对隐私增强技术的认识不断提高,对于隐私增强技术在不同应用场景下的合规性确认需求也愈发迫切。
指南提出了五大合规要点:一是强烈建议任何涉及到使用隐私增强技术进行数据分析的项目都应当尽早咨询法律专家,尽量在技术参数部署之前完成相应的合规审查,否则会大大增加合规成本和违法风险。二是立法一般不会强制性使用隐私增强技术,但是隐私增强技术客观上可以满足法律对于“数据最小化”“数据保护设计”“默认数据保护”等要求,特定监管机构可能会针对某些特殊场景推荐或要求使用特定的隐私增强技术。三是隐私增强技术的使用必须要与现行法律、政策和社会文化规范相协调一致,以负责任的态度开辟新的发展机遇。四是涉及到使用来自两个及两个以上司法管辖区的数据集会使情况变得更加复杂,应当充分考虑跨境数据规制等要求。五是不同法系和司法管辖区对于同一隐私增强技术在特定场景下的使用是否适当可能会做出不同判断,希望立法者及时发布隐私增强技术适用的案例指导。
具体举例而言,美国《加州消费者隐私法》(CCPA)适用于企业和服务提供商,但可能不适用于政府部门和非盈利机构等;而欧洲《通用数据保护条例》(GDPR)项下的数据保护责任适用于数据控制者和处理者,包括政府部门和非盈利机构。根据GDPR,出于历史研究或统计目的等对个人数据进行的某些处理可能会被豁免或受到相对宽松的监管,具体细节取决于欧洲经济区(EEA)具体国家和地区的法律要求。荷兰《统计法》明确禁止公开发表用于统计学目的的个人、家庭及组织数据,涉及到公司或组织数据,有正当充分理由认定公司或组织对此无异议的可以发布。英国信息专员办公室(ICO)一直在就隐私增强技术开展咨询,并发布了《匿名化、假名化和隐私增强技术指南》。欧洲对于隐私增强技术的更多监管动向还应当关注《欧洲数据战略》《数据治理法》《数字服务法》《数字市场法》和《人工智能法案》等法律文件。
在具体操作流程方面,指南建议了四步流程法。一是列出参与数据处理、技术开发等任一环节的所有参与者。从法律角度,隐私增强技术的主要参与者有五类,分别是立法者、监管机构、受保护客体、义务主体、隐私增强技术生产商或供应商。二是确认每个参与者适用的法律范围,包括法律施加的确认性要求和禁止性规范。明确隐私增强技术的法律监管环境非常重要,对于数据安全、最小化、公平性、准确性、问责制等方面的要求可能同时并行于多部法律规范。此外,还要考虑数据处理者如何影响隐私增强技术参与者对数据的使用,例如限制向其他参与者披露派生数据产品。隐私增强技术在超出数据处理、使用、披露限制以外对数据主体产生的影响也应当关注,例如对某些数据集的长期访问可能是保证准确性和可问责性的需要,但会因对数据主体的保护要求而被禁止。三是分析隐私增强技术部署与相关法律要求的一致性,指南指出类似于“隐私增强技术是否合法”的问题并非有效提问,因为几乎没有法律会对该问题给出是或者否的准确答案,这是基于对隐私增强技术的不了解或者是奉行技术中立原则的法律设计,保证法律在保持稳定性、相关性、灵活性的基础上适应现代技术快速发展的需要。四是上述相关问题在数据的全生命周期都要纳入考量和重新审视。在构思设想和需求建立阶段,尽早引入法律专家以充分识别法律风险很有必要,包括对功能性需要和非功能性需要的法律建议;在设计研发阶段,数据的规划采集涉及到划定主要数据和辅助数据的范围,需要考虑到不同司法管辖区下对数据安全和隐私保护的具体监管要求,例如特定目的、从第三方获取数据、跨境数据流动等;在模型构建阶段,经处理后的人工数据、合成数据或真实数据被用于集中式或分布式构建模型和测试模型。由于合成数据通常来源于处理后的真实数据,难免涉及到隐私保护、偏差引入、异常值修正等问题;在模型部署阶段,经过测试的模型正式开始处理真实的实时数据,发挥功能性效用,输出决策结果;在操作监控阶段,隐私增强技术模型收集、处理、分析并输出数据,流程中还包括不间断的身份认证、合规评估、偏差修正、结果确认等监控功能;在模型退役阶段,数据需要经处理以满足安全删除、存档或重新利用的相关要求,要充分考量法律在数据安全和隐私保护方面的合规要求,尤其要防止未经授权的反向数据解析,及时采取适当措施解决去识别化的安全风险。
声明:本文来自CAICT互联网法律研究中心,版权归作者所有。