中国隐私风险指数分析报告

泰伯智库顾问委员孟小峰团队 | 2020-04-27 17:41:04

《中国隐私风险指数分析报告》基于约3000万真实用户数据和约30万App数据,对当前移动应用场景下用户隐私数据被收集的情况进行调研分析。该报告提出中国隐私风险指数体系,旨在从数据拥有者(移动用户)、移动应用程序(Mobile Application,简称App)和数据收集者(即App开发者)三个角度揭示当前用户隐私数据被收集的现状,及其产生的隐私风险状况。  

《2018年度中国隐私风险指数分析报告》作为该报告的第一版,在2019年初发布后,经多家新闻媒体转载,获得逾30万的阅读量,引起国内社会各界的巨大反响。鉴于此,孟小峰教授团队(中国人民大学网络与移动数据管理实验室)在该发布报告基础上,基于2019年度数据完成了《2019年度中国隐私风险指数分析报告》。2019年度报告继承了2018年度报告的理论和分析基础,以完成对2018-2019两年内中国隐私风险指数分析的对比;同时,对先前的分析方法进行了进一步的扩展,并提出了移动应用程序分析的新角度。

本年度分析报告的主要成果如下:

三千万大规模真实数据集:约3000万用户集上的179个属性标签、30万余App数据。

三类分析对象:数据拥有者(移动用户)、移动应用程序(App)及数据收集者(App开发者)。

三个主要贡献:分析了2018至2019两年间中国隐私总体风险指数变化趋势、提出了移动应用程序隐私风险分级机制、揭示了当前国内移动应用市场的数据收集与隐私泄露现状。

六组分析结论:大规模数据收集现状、移动应用程序分析、移动应用程序分级体系分析、区域隐私风险指数分析、人群隐私风险指数分析、行为隐私分析指数分析。

本年度分析报告较去年的重大变化如下:

完成2018-2019两年中国隐私风险指数对比分析。

提出移动应用程序隐私分级机制,为App治理提供依据。

新增不同类型App数据收集现状分析和数据垄断相关因素分析。

本年度分析报告的亮点结论如下:

2019年度总体隐私风险指数为0.57,较2018年增长26.66%。

2019年度App平均安装量同比增长14.81%,用户平均权限数据泄露量同比增长15.46%。

移动应用程序目前最高风险等级为P2-L9 ,其App数量虽占比不到1‰,但其用户量却占总体近70%。

近两年数据垄断态势居高不下,10%的权限数据收集者可获取99%的权限数据。

中国隐私风险指数

中国隐私风险指数是一个反映我国在特定时段内数据拥有者(移动用户)因个人数据被收集者(App开发者)获取而面临的隐私风险及数据收集者造成的隐私风险相对数的宏观指标,用来反映不同移动用户个体或群体面临隐私风险的差异。

模型思想

本报告对移动场景下的隐私风险进行分析并量化,以具体数值揭示隐私风险程度相对大小。隐私风险量化指通过识别用户的泄露数据源,基于从该数据源泄露数据的可能性及泄露后对用户隐私产生的危害综合评估用户的隐私风险程度。通过调研,权限分析是最简单有效的App隐私风险分析方法,其基本思想是移动用户数据是通过App权限请求而泄露的,相应地,数据收集者也是基于App权限权限来获取用户数据的。进而,该报告从移动场景下三大数据主体——数据拥有者(移动用户)、移动应用程序、数据收集者(本报告仅讨论App开发者)角度入手,构建基于权限的隐私风险量化模型。

指数体系


基于数据拥有者(移动用户)和数据收集者(App开发者)的隐私风险量化结果,本报告进一步制定中国隐私风险指数体系,从数据收集者角度揭示移动用户数据的流向,并从自然属性、社会属性、行为属性等维度揭示不同数据拥有者群体的隐私风险特征,最终分析汇总成《中国隐私风险指数分析报告》。

数据集

本报告数据集由基于中国现有333个地级行政区分层抽样的约3000万( 30,687, 356)个样本用户的App使用数据、179个维度的用户属性画像数据(自然属性、社会属性、地域信息及行为属性等)、通过爬取第三方应用网站得到30万余(306,969)个App数据(App名称、类别、开发者、版本、权限、大小、评分等)组成。

注:本报告中的用户数据均来源于匿名处理后的移动设备数据。

总体对比分析

2019年度总体隐私风险指数为0.57,较2018年增长26.66%。相应地,2019年度App平均安装量同比增长14.81%,用户平均权限数据泄露量同比增长15.46%。

该结论说明当前中国用户的个人隐私泄露风险并没有得到有效控制,仍在大幅提升。而总体的隐私增长率与用户平均App安装量和用户平均权限数据泄露量呈正相关,对App的有效治理将是遏制隐私风险的增长的重要举措。 

表1 2018、2019年中国总体隐私风险情况对比

大规模数据收集分析

 本部分对大规模数据收集现状进行分析。对比2018年的分析结论,2019年App开发商仍保持高垄断状态。延续2018年对总体数据收集现状和主要数据垄断企业的分析,本部分新增不同App类别下数据收集现状分析和数据垄断相关因素分析。主要结论如下:

数据总体状况:数据收集的垄断状况依旧严峻。前10%的数据收集者获取了99%的权限数据,比现实世界财富获取的“二八定律”更为残酷。

分类数据收集状况:在不同的App类别下,前10%的数据收集者均收集了不少于97%的权限数据。其中,工具类、社交类和游戏类数据垄断情况最为严重。

数据垄断相关因素分析:数据收集者开发App数量越多、用户使用量越高,涉及的垄断领域越多,其权限数据收集量越大,产生的隐私风险指数级上升。

图1  数据收集者权限数据获取分布(前0.01%、前0.1%、前1%、前5%、前10%)

移动应用程序(App)分析

本部分为2019年度报告新增内容。基于移动应用程序(App)量化模型,本部分对共30万的不同类别App的权限请求情况、权限设置造成的隐私风险情况(P1)、使用量带来的隐私风险情况(P2),以及不同生存周期App的现状进行了分析。主要结论如下:

App权限请求情况:医疗类、社交类、购物类和理财类App请求较多权限,而游戏类、工具类、儿童类、摄影图片类请求较少权限。

总体上,权限设置隐私风险值(P1)较高,且差异较大;使用量隐私风险值(P2)较低,且差异较小。

在不同生存周期下,App的数量与使用量隐私风险值(P2)均呈现以下趋势:“短期保留”App > “长期保留”App > “临时安装”App。

移动应用程序分级体系分析

本部分为2019年度报告新增内容。基于权限设置隐私风险值(P1)和使用量隐私风险值(P2),本部分构建移动应用程序隐私风险分级机制。基于该机制,通过分析不同隐私风险级别App的用户新增情况和用户分布情况,以期能够为App治理提供数据和理论依据,使得App治理更具有序性和可操作性。主要结论如下:

高隐私风险App数量少,用户量高;而低隐私风险App数量虽多,用户量不足高隐私风险App的百分之一。

高隐私风险App用户新增量少且稳定;而随着App隐私风险级别降低,用户新增量明显增加,且波动变大。

不同级别App对应的用户分布情况相同,即公务人员用户、低受教育程度用户、中消费水平用户、低收入能力用户、已婚用户、25~36岁用户、女性用户的占比均高于同属性下其他群体。

表2 权限设置隐私风险(P1)分级的典型App

表3 使用量隐私风险(P2)分级的典型App

区域隐私风险分析

本部分延续2018年区域隐私风险指数分析,并对2018年度与2019年度省级区域隐私风险指数排名变化情况进行对比。对大多数区域而言,2019年度区域隐私风险指数变化不大。主要结论如下:

经济发达地区和经济落后地区隐私风险相对较高,中等发达地区隐私风险相对较低。

2018至2019年间仅少数省级区域隐私风险指数排名升降幅度较大,大多数省份变化不大。

旅游城市和沿海发达城市隐私风险普遍较高。

图2  2018、2019省级区域隐私风险指数排名对比

人群隐私风险分析

本部分延续2018年人群隐私风险指数分析。与2018年相比,2019年度人群收入能力与消费能力与隐私风险指数的相关性明显增强,即人群的收入水平和消费水平越高,其隐私风险指数越高。主要结论如下:

高隐私风险职业前三名依次为人力资源人员、导游、机场工作人员。

高收入高消费人群隐私风险最高,低收入低消费人群隐私风险最低,且消费能力对隐私风险的影响高于收入水平。

女性人群风险高于男性人群。

行为隐私风险分析

本部分延续2018年对12类用户行为的隐私风险指数分析。对比2018年分析结果,2019年各类行为属性的隐私风险总体指数方差增大,隐私风险排名基本保持不变。主要结论如下:

不同购物偏好人群中,喜欢返利的人群隐私风险升高至第一,而经常购买二手闲置的人群隐私风险由2018年的第二降至最低。

不同教育行为中,从事金融教育隐私风险依然最高,关注公务员考试的人群隐私风险由2018年的第三降至最低。

不同直播行为中,喜欢收看美妆直播节目的人群隐私风险指数升至第一,收看游戏直播的人群隐私风险指数降至最低。

总结

本报告基于3000万用户数据和30万App的量化分析,揭示了当前严峻的数据垄断形势和App隐私风险问题,即近两年来,用户个人隐私风险持续增高,移动应用市场数据垄断形势居高不下,高隐私风险App与低隐私风险App之间用户量差异凸显。

2020年4月6日,中共中央国务院发布《关于构建更要素市场化配置体制机制的意见》,提出要加快培育数据要素市场的概念。将数据作为生产要素,需要综合考虑数据在其生命周期内涉及的多方参与主体的权利、责任和利益,解决目前严峻的数据垄断问题。同时,也对数据评估和监管问题、数据安全流通共享和隐私保护等问题提出了较高的要求。

本报告的重要意义在于,一方面,本报告对数据收集现状和App隐私现状分析量化的诸多结论,可为数据评估和监管提供依据;另一方面,本报告所提出的隐私量化模型与App分级机制,可为App的治理提供新思路,如对App先分级再治理等,可促进数据要素市场的培育。

本研究得到国家自然科学基金项目“大数据开放与治理中的隐私保护关键技术研究”(项目号:91646203)、“移动用户隐私保护与数据安全共享理论与方法”(项目号:61941121)支持。

孟小峰,泰伯智库顾问委员、国际计算机协会地理空间信息分会(ACM SIGSPATIAL)中国主席、中国人民大学教授。

参考文献:
[1] M Zhu, Q Ye, X Yang, and X Meng. Poster: AppPrivacy: Analyzing Data Collection and Privacy Leakage from Mobile Apps[C]. IEEE Symposium on Security and Privacy (S&P). 2019:41-42.
[2] 孟小峰, 朱敏杰, 刘俊旭. 大规模用户隐私风险量化研究[J]. 信息安全研究, 2019,5(9):778-788.
[3] 孟小峰, 朱敏杰, 刘立新, 等. 数据垄断与其治理模式研究[J]. 信息安全研究,  2019,5(9):779-797.
[4] 孟小峰,王雷霞,刘俊旭. 人工智能时代的数据隐私、垄断与公平[J]. 大数据,2020,6(1):35-46.
[5] 中国消费者协会.《100款App个人信息收集与隐私政策测评报告》,2018-11-28.
[6] 孟小峰, 张祎. 计算社会科学促进社会科学研究转型[J]. 社会科学, 2019,7:3-10.
[7] 孟小峰. 人工智能浪潮中的计算社会科学[J]. 人民论坛·学术前沿,2019,20:32-39.
[8] 孟小峰, 刘立新. 区块链与数据治理[J]. 中国科学基金, 2020,34(1):12-17.