什么是算法歧视？种类、特征介绍

2022-03-29 10:39:37 作者：2200 3295

1.算法歧视

歧视，从字面上看其意思是有区别的予以看待：歧视，在本质上与不平等、非正义对等。对于歧视的概念在法律上的界定，从对不同国际公约的表述中“可以将歧视概括为基于外在环境和自身情况的差异，使得人们对他人或者特定群体因种族、性别、民族、宗教信仰、社会出身等存在的不同而产生的损害其机会或者待遇平等的一种概括性固定看法”。

算法歧视作为歧视的一种表现形式，它是人工智能机器的开发者或者使用者在使用智能机器决策时根据智能机器自身算法逻辑对目标对象进行划分，并施以不同标准对待而产生的歧视。它伴随着智能机器的决策系统的产生，渗入到人工智能技术所涉及的众多领域。

算法歧视的本质是由算法模型导致的对特定个人或群体的系统性的、重复性的不合理对待。因为算法歧视是计算机系统在收集和分析数据的过程中自动生成的，所以也有学者称之为“自动化歧视”。

算法歧视

2.算法歧视的种类

(1)数据带来的歧视

数据作为社会现实的数字化反映，涵盖了各种社会信息。这些由数据反映的社会关系会通过机器算法体现在相关决策的预测中。数据中反映的带有歧视性的信息也会被智能机器以决策的形式表现出来。数据作为人工智能发展的基础，“其来源十分广泛，包括各种交易数据，移动通讯数据，机器传感器数据，互联网上的开放数据等”。如果在涉及数据获取各环节发生错误那么错误的决策输出势必会带来包括歧视在内的一系列负面影响。

从数据的获取来看，数据采样发生偏差会使数据片面采集。在数据的采样上，采样的目的往往力求做到全样本，但是实际上全样本采样很难做到。当下，数据样本采集最多的当属少数的几家大型互联网平台，出于保护商业利益的原因这些互联网公司一般都不会公开数据，并且会限制这些数据被网络扒取，其结果就是数据的汇整难以为全。比如，人文社会科学在做实证分析时往往会适用问卷调查的方式做数据分析，但是在做调查问卷过程中往往因不严谨、不规范，造成抽样的不客观。原因是多样的，其中比较直接的是路人在被突然问卷调查时会有抵触心理，有时也会草率勾画、急于脱身等，这些都会让调查问卷流于形式，对问卷调查的结果造成影响。这些数据从采集上就发生了偏差，并不能真实反映客观的情况，使得数据的采用从一开始就入错了轨。又如，一旦样本采集不充足，使用重复数据的话会造成数据比重偏差。倘若数据挖掘不够深入，缺乏数据挖掘的能力，数据反映的也仅仅是浮于表面的事实，数据的不完整将会加重既有的社会偏见的比重。在现实社会中“人类社会既有的‘数据鸿沟’现象可能导致部分人的数据缺失，因此会被隔离在‘算法社会’之外。机器学习算法基于这一整体的‘数据集’形成的规则应用于具体社会场景，暗含着以整体特征来推断个体行为的逻辑，这便造成了算法歧视的问题”。诸如以上方式获取的数据若被采用都将直接从源头上造成“污染”。

从数据的处理上看，大量的数据供给并不是都能直接拿来利用，这就需要将数据通过一定的方式变成能够被采纳的描述。如通过科学合理的模型建造和数据解读。若在模型建造上发生错误，或者数据解读训练不够，或者有意为之以达到自己想要的结果，这些到最后都会使结果偏离客观真相。

前述无论是数据的采集还是对数据的解读，一旦发生偏差和错误就可能会造成算法作出有失客观、公正的决策，并且算法决策是用旧有数据提取的信息对未知目标进行的预测，过去的数据造成的歧视在得到算法的确认后都将每一次的输入生成的偏差结果作为下一次输入的反馈。可想而知，每一次的结果偏差将比上一次的更大。整个算法运作系统变成了类似“声反馈自激振荡”的歧视性循环，尤其是在受众颇多的公众决策中会造成一部分人因此而受到歧视。

(2)算法引起的歧视

算法是开发者、设计者主观思维的代码化，它从开始的设计目的、成功与否的指标、筛选数据、反馈验证等一系列流程，都体现着开发者、设计者的主观意愿。如果他们的偏见意识被嵌入进算法系统，那么算法就先天性的具备了偏见“基因”。在包含有深度学习的算法运行过程中，可能会产生非事先设定的决策路径，而得出具有“黑箱”的决策。因此，这种机器自主学习的算法也同样会产生具有歧视的决策。

按照歧视被识别的难易程度可以将歧视划分为“直接歧视和间接歧视”。《宪法》中规定有对民族、种族、性别等禁止性歧视的平等性原则，若用算法直接表达出具有以上禁止性歧视特征的评价的话，尚可直接寻求通过司法途径予以约束。当算法应用中通过对数据的整合，从中归纳出一些共性特征后，以此特征为依据将会作出带有评价性的决策，这其中也会包含一些歧视性的评价。而这些隐藏性的歧视即——间接歧视却不易被发现。比如，某个算法对大量的数据分析后，发现某种工作岗位，大多数都是男性群体并且该岗位薪资普遍较高，那么该算法模型在投递招聘信息时就会有选择性的投递给男性群体，从而忽略了女性群体的平等机会。这就势必会对适合此岗位的女性群体造成歧视。此外，算法会从大量数据中分析出数据主体是否残疾、身体健康状况等隐私特征，并可能以此对数据主体作出不利的评价，该歧视就不易被人发现。可以看出算法歧视的一个主要原因是算法错误的判断了不同目标之间的逻辑关系，即错误的判断了该岗位匹配男性优先于匹配女性。跟海量数据的“扒”取相似，算法决策往往侧重于关联性的强弱。一旦被算法判定有足够强的关联性就会被当作对目标对象作决策的根据。

少数个体会被算法歧视，群体也未能幸免。“根据 Edmund S.Phleps 提出、Dennis J.Aigner 等学者认为当劳动信息不完全的前提下，雇主依据统计的群体性特征作雇佣和工资决策时就会对处于不利的群体造成就业和工资的歧视”。假如，两位求职者，其工作经历、学历等方面不相上下，其中一人第一学历是名牌高校，另一人第一学历是普通高校，若雇佣者仅仅根据学校名气为依据便录取了第一学历是名牌大学的毕业生，而不去对工作能力方面做进一步的考查，对第一学历为普通高校的毕业生来说，构成实质上的歧视。若将该招聘模式做成算法，以此规律作统计依据，这种决策就会对该类群体产生算法歧视，并且这种歧视将会是大范围的。毕竟名牌大学生相对于普通大学生在数量上而言，差距明显。即使普通大学里的优秀生，也会被这种算法歧视损害权益。

3.算法歧视的特征

(1)机制化

虽然人脑的认知模式是科学界的终极奥秘，始终无法消除歧视和偏见，心理学研宄表明做出包含歧视性决定的人可能往往没有意识到其决策具有歧视，尤其是面对需要快速或自动回应的问题时，但是人类的决策机制通常是个别的和随机的，并且不具有连续性。与之相反，算法决策系统则是普遍的和持续的，往往具有很高的稳定性。当人类对算法决策的使用越来越频繁，有缺陷的算法可能为它的扩展性和重复性以更快的速度、更大的规模造成损害。人类在场景互动过程产生的主观感觉或价值判断总体上是一种可控的选择，而且人类的决策所产生的歧视往往是分散的，通常不会造成集成化的影响。因而，当算法决策取代人类决策时，它们往往会带来一种“不可避免的色彩”(Patina of Inevitability)，这种假象使得算法决策的结果看似是公平的，实际上很可能是缺乏根据的。

就目前技术发展的现实图景而言，大数据与算法的结合还不足以构成一个感知系统，即便深度学习能够借助随机的、自主的试错来不断趋近程序设定的目标，但是它们仍然不能用于处理具有复杂性、情感性以及创造性的事务。在这种情况下，人工智能作为自动化的决策系统，若输入包含歧视性的数据，那么产生具有歧视性的结果就几乎无法避免，而且它还会通过机器学习实现自我迭代，从而系统性、重复性地造成社会不公平，可以说恰恰是人工智能中持续生产的偏见，使得人类充满歧视的历史迈向了一个全新的阶段。

由数据建模产生的算法歧视具有机制化的特征，使得它对平等权的侵蚀更加广泛和深入，这导致“当今世界大多数的不公平，并不是来自个人的偏见，而是来自大规模的结构性偏见”。而人类大脑的认知系统还没有进化出察觉结构性偏见的能力，在这个人工智能时代，算法充斥人类社会各个角落，这种状况对于保护平等权来说不啻一个真实的坏消息。

(2)隐蔽性

算法歧视的隐蔽性主要归咎于算法黑箱，即自动化决策算法通过对原始数据的自动化分析产生高级认知的过程是缺乏透明性的。简而言之，所谓“算法黑箱”就是指在人工智能数据输入和结果输出的过程中，存在着人类无法得知甚至超越人类认知维度的秘境。如学者季卫东所言，在数据驱动的人工智能时代，“透明社会”与“算法黑箱”是我们不得不面临的一对根本矛盾。

更多行业知识，敬请关注三个皮匠报告行业知识栏目。

《AMiner：人工智能之数据挖掘(171页).pdf》

《2020算法的道德：算法对人工智能系统道德的贡献 - 恩智浦(英文版)(14页).pdf》