12月31日,市民在银川一商城内选购鼠年吉祥物。随着鼠年春节的临近,银川市各大商城内满目琳琅的春联、福字、挂饰等喜庆用品已悄然开售。中新社记者 于晶 摄

雷锋网版权文章,。详情见转载须知。

说到底,机器学习所能做的,是找到和它现在就能建模的东西类似的东西。机器学习系统很擅长找到和它们见过的车长得类似的车,也擅长找到和它们见过的人脸长得类似的人脸——这顺便也用非常简单的到底解释了为什么面部识别系统对于白人的脸识别准确率更高,就是因为往往是白人圈子设计的系统、组织收集的数据,所以见白人的脸见得更多而已。

数据分析这件事由来已久,从第一种税收的开始就需要分析数据;基于数据的科学和工具研究也为我们带来了许许多多的便利。但是指望不可靠的黑盒子在来告诉我们应该要什么、应该怎么做,就会在「理智」和「进步」的表面之下,实际带来更多的固定流程化处理、让人文关怀消失。科学技术能做什么当然重要,但更重要的是,它到底影响了谁、又是在谁的立场上做的这些决定。

机器学习的有害之处就是从这样的「保守」倾向里逐渐渗透出来的。如果你设计一个机器学习系统帮助警察预测他们应该抓谁,系统肯定会建议抓「和已经抓过的人类似的人」。人权数据分析组织的 Patrick Ball 是这样说的:「给警察配备的预测系统预测不了犯罪,它只能预测警察会做什么」。

英国有一个非医疗用药分类的例子。David Nutt 是一位杰出的精神药理学家,英国议会请他对非医疗用途的精神类药品的危险性排一个序,方便政府制定对应的药品管理政策。David Nutt 组织了一群专家做了详细的讨论,他们排了三个顺序出来:对使用者自己的危害的排序,对使用者的家庭的危害的排序,以及对社会整体的危害的排序。然后他对议会说,你只需要告诉我你最想保护哪一类,我就能给你一个准确的排序。排序本身并不难,有很多基于实证的证据可以参考,得到准确的结果;但「最想保护哪一类」是人类需要做的价值判断,没有「是否准确」之分。

另外,机器学习也没法提供可靠的推测意图的工具——人类学的一条基础定理就是,「如果没有对话,那么意图就是不可知的」。Cliff Geertz 在 1973 年的《Thick Description》文章里是这么说的,如果你在观察某个人,但你不让他知道你在观察他、他也不知道你在观察他,那你就分辨不出他到底是为了暗示什么而「挤眼」还是只是累了所以「眨眼」。

不过,警察根据自己的判断决定逮捕谁,和警察看到系统预测了一个人然后去逮捕他,两者也有一些区别。对不愿意了解其中细节的局外人来说,算法做出的决定更容易显得公众,毕竟「数学是没有歧视的」、「数学是不会说谎的」。只可惜,机器学习里并不仅仅有数学而已,要说「算法能客观地反应社会真实需求」,倒不如说「算法能真实反应设计它的人的观念和习惯」。