大数据：是包容的工具还是排斥的工具？-中国民族文学网·中国社会科学院民族文学研究所

大数据：是包容的工具还是排斥的工具？

中国民族文学网　发布日期：2016-11-09 作者：Edith Ramirez等著 /郭翠潇译

　　【译者按：美国联邦贸易委员会（Federal Trade Commission）于2016年1月发布了一篇题为“Big Data: A Tool for Inclusion or Exclusion?”的报告[1]。该报告认可大数据在商业领域的应用正在帮助低收入和服务匮乏社群提供教育、信贷、医疗和就业机会，但同时也注意到大数据分析中的“隐性偏差”及其可能对低收入和服务匮乏人群产生的不利影响。报告提出了一些关键问题供企业考虑，旨在帮助企业在利用大数据分析时，确保给消费者带来利益的同时能够避免产生歧视性或排他性的后果，以限制大数据的危害。报告对大数据应用中的数据集代表性、数据模型是否包含偏见、大数据预测是否准确以及对利用大数据决策过程中的公平性和道德等问题进行了反思，对中国当前的大数据热提供了冷思考，颇具借鉴意义。这里将这篇报告的主要部分译出，供读者参考。】

　　我们身处大数据时代。现在几乎每人都有一部智能手机、每家都有一台电脑，市场上能连接互联网的设备越来越多，消费者数据流动在经济的各个角落，数据量持续快速增长。

　　对消费者数据的分析，往往对企业和消费者有价值，因为它可以引导新产品和新服务的开发、预测个人喜好，有助于为消费者提供定制服务和机会，引导个性化营销。与此同时，倡导者、学者及其他人提出要关注大数据分析的某些应用是否会损害消费者，特别是低收入和服务匮乏人群。

　　为了探讨这些问题，美国联邦贸易委员会（简称“FTC”或“委员会”）于2014年9月15日举行了一次公开研讨会，主题为“大数据：包容或排斥的工具？” 研讨会上，利益相关方齐聚一堂，讨论了大数据的潜力：既能为消费者创造机会，也会让他们失去这些机会。该委员会将此次研讨会信息和先前FTC一次有关评分产品替代性选择的研讨会信息，以及新近研究综合起来，形成了这篇报告。虽然“大数据”分析涵盖的范围非常广，但本报告只涉及包括消费者信息在内的大数据的商业用途，并重点关注大数据对低收入和服务匮乏人群的影响。当然，大数据也引发了许多重要的政策问题，如公告、选择、安全性等等，但这些不是本报告关注的主要问题。

　　“小”数据变成“大”数据，要经过几个阶段。大数据的生命周期可分为四个阶段：（1）采集；（2）汇集和融合；（3）分析；（4）使用。

　　本报告关注第四个阶段，讨论使用大数据分析带来的收益和风险；目前适用于大数据的消费者保护法和平等机会法；大数据领域的研究；企业应从这些研究中吸取的教训。最后，本报告旨在为企业提供有关大数据分析的重要法律和研究方面的指导，同时为企业提供建议，以最大限度地提高其收益、降低风险。

　　大数据的收益与风险

　　大数据分析可以提供很多社会改善的机会。除了更有效地为消费者匹配产品和服务，大数据还可以为低收入和服务匮乏的社区创造机会。例如，与会者和其他人指出，大数据正在帮助向低收入和服务匮乏社群提供教育、信贷、医疗和就业机会。同时，与会者和其他人也注意到“隐性偏差”和偏见可能会导致对低收入和服务匮乏人群产生不利影响。例如，与会者担心，企业可能会利用大数据把低收入和服务匮乏社群排除在外，不为他们提供贷款和就业机会。

　　适用于大数据的消费者保护法

　　与会者和评议人讨论了企业怎样使用大数据才能让企业本身和社会都受益，同时还能最大限度地减少法律和道德风险。他们明确指出，企业应该懂得相关法律，其中包括《公平信用报告法》，《平等机会法》和《联邦贸易委员会法》，这些法律可适用于大数据实践。[2]

　　大数据研究

　　与会者、学者和其他人还讨论了大数据分析可能通过哪些方式影响低收入、服务匮乏以及受保护群体。一些人指出，有研究表明，大数据分析的每个阶段——从选择用于预测的数据集，到通过大数据界定需要处理的问题，再到根据大数据分析结果做出决策——都可能会有错误和偏差，而这可能会导致潜在的歧视性危害。其他人则指出，这些担忧过于夸张或只是老生常谈，他们强调，大数据可以为低收入和服务匮乏人群创造机会而不是让少数群体处于不利地位。

　　为了让收益最大化，同时限制大数据的危害，委员会通过在这一领域的研究提出下列问题，鼓励企业去考虑：

　　你们的数据集代表性如何？企业应考虑其数据集是否缺少某些人群的信息，并采取措施解决代表性不足和某些人群比例过高的问题。例如，如果一家公司将服务对象设定为通过应用程序或社交媒体进行人际沟通的消费者，他们可能会忽略那些不那么精通此项技术的人群。

　　你们的数据模型是否包含偏见？企业应该考虑大数据生命周期的数据采集和分析阶段是否包含偏见，并制定战略来克服这些偏见。例如，如果一家公司有一套帮助他们做出聘用决定的大数据算法，但这套算法只考虑来自“顶级”院校的申请人，那么他们可能就纳入了高考录取决定中的偏见。

　　你们基于大数据的预测有多准确？企业应该牢记，虽然大数据非常善于检测相关性，但并不能解释哪些相关性是有意义的。有一个典型的例子可以说明大数据分析的局限性，那就是谷歌流感趋势——基于谷歌的搜索词来预测流感病例数量的机器学习算法。最初，该算法似乎对哪里流感更普遍做出了准确的预测，但随着时间推移，其产生的预测变得极不准确。这可能是因为该算法未能顾及某些变量。例如，该算法可能没有考虑到，如果当地发布了一条流感爆发的新闻，甚至流感正在世界各地爆发时，那么人们会更容易搜索跟流感相关的词。

　　你们对大数据的依赖是否引起道德或公平性的担忧？企业应评估一个分析模型中包含的因素，在模型预测价值上兼顾公平性考量。例如，一家公司认为住得离单位近的员工比住得远的员工更不容易辞职。然而，另一家公司因为考虑到种族歧视，尤其是不同的邻里街区有不同的种族构成，于是决定从其招聘算法中排除这一因素。

　　委员会鼓励企业通过为消费者提供利益和机会的方式来应用大数据分析，同时要避免违反消费者保护和机会均等法律，避免减损包容和公平的核心价值。委员会自己则将继续监控可能违反现有的法律——包括《联邦贸易委员会法》，《公平信用报告法》和《平等机会法》的大数据实践活动，并在适当情况下会引发执法行动。委员会也将继续调查大数据实践可能会对低收入和服务匮乏人群产生的不利影响，并提高人们在这方面的意识，同时，还会推广对这些人群产生积极影响大数据的使用。

　　作者：Edith Ramirez, 美国联邦贸易委员会主席

　　Julie Brill, Maureen K. Ohlhausen, Terrell McSweeny，美国联邦贸易委员会委员

　　译者：郭翠潇，中国社会科学院民族文学研究所资料中心助理研究员

　　[1]报告全文可在美国联邦贸易委员会官方网站下载：https://www.ftc.gov/reports/big-data-tool-inclusion-or-exclusion-understanding-issues-ftc-report

　　[2] 此处将原文对这三部法律的介绍和对大数据适用性的讨论省略未译——译者注

本文原载《办公自动化》2016年第13期

文章来源：中国民族文学网

凡因学术公益活动转载本网文章，请自觉注明
“转引自中国民族文学网（http://iel.cass.cn）”。

专题的相关文章

作者的相关文章