《教师生活365》网[师慧园]论坛

 找回密码
 必须实名注册
查看: 98|回复: 1
打印 上一主题 下一主题

批判"大数据崇拜"

[复制链接]

1万

主题

2万

帖子

20万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
204692
跳转到指定楼层
楼主
发表于 2015-11-25 01:11:29 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
批判"大数据崇拜"
潘绥铭
有什么用?
最近以来,对于“大数据”的崇拜,来势汹汹,甚嚣尘上。
但是,崇拜者和鼓吹者,多少也应该有一点做研究的起码常识吧?
无论在自然科学里,还是社会科学里,还是文本分析中,凡是进行数据分析,只有两种办法:
第一种方法是:研究者自己首先提出某个或者某些假设,然后去收集数据,然后进行统计检验,以便对于自己的假设做出适当的评价,主要结论应该是:该假设是否得以成立。也就是说,“没有假设,就没有研究”或者“好的假设就是成功的一半”。这,对于任何一种遵循“科学主义”的研究来说,不但是金科玉律,而且根本就是不可突破的底线啊。
可是,所谓的“大数据”,在收集数据之前,可曾有过任何一个假设吗?甚至,研究者究竟有没有猜测到:那些数据之间,可能存在着某种联系呢?例如,如果您把人们在网上购物时留下的痕迹,与他们在医院就诊时留下的记录,强行放在同一个数据库进行分析;那么,您就等于在假设:购物与生病之间,可能存在着某种联系。这并不是说,根本不可以提出这个假设,而是说,您事先是这么想的吗?如果没有,那么跟盲人摸象有什么区别呢?
尤其是,无论您从这样的“大数据”中分析出什么,都只能是误人子弟。例如,早在上个世纪,美国的统计学家就发现,股市的涨落,与女人裙子的长短,存在着相关关系。可是一直以来,在任何一个国外大学里,这都被用来说明“无假设,不统计”这一常识。可是现在却又被某些人翻出来,作为“大数据之所以伟大”的证据啦。
我的一位学生说得好:“这和去垃圾堆里翻安全套,本质上一致吧?”我再引申一下:没有假设,大数据就是垃圾堆!
如此下去,科学还有存身之地吗?
第二种研究方法,是从定性研究(质性研究)里的“求异法”借鉴来的,就是:不去寻找数据的“规律性”,而是通过分析,去发现“特定事物(现象)内部的多样化的存在”,或者“同一事物(现象)在不同载体中的多样化存在”。也就是说,研究者的假设是:任何事物(现象)都不可能是浑然一体,必定存在着万紫千红甚至千奇百怪的存在形式。研究者的目标,就是去发现和揭示这一点。因此,研究者全神贯注的,恰恰是数据中那些小概率的、奇异的、甚至缺失的情况。
正是在这个意义上,而且仅仅在这个意义上,大数据才会有用。例如,哪怕只有万分之一的人,确实是在网上购物之后才有病,或者有病之后才上网购物;那么也可以提示我们:为什么仅仅是这些人才会出现这样的联系呢?其中是不是蕴含着我们现在还不知道的某种学理呢?
所以说:这种“沙里澄金”的研究方法,主要是为了“发现”,而不是为了“检验”。但是只有这种方法,才能实现理论的独辟蹊径,而不仅仅是既有成果的“层层叠加”。
可是,我真的很好奇:那些“大数据崇拜者”,听说过这样的“论方法”吗?
什么叫“大”?
数据,早已有之;因此“大数据”的买点,其实仅仅在于一个“大”字。
鼓吹者们都在拼命宣扬:我们收集了多少多少人的,多少多少次的,多少多少种的记录,因此,只有我们的数据才是“大”数据!
可是,我就奇怪啦,大数据怎么看起来像是打群架,人多为王?
其实,如果我在自己的电脑上,安装上足够多的各种仪器,记录下从鼠标轨迹到上网痕迹直到我的表情动作的自拍;那么只需要一天,我所收集到的、仅仅关于我一个人用电脑的数据,也肯定是成千上万个G,足以成为货真价实的“大数据”。
如果我再给自己身上安上一大堆医学监测仪器,给自己的书房安上360度摄像头、温度计、红外线扫描甚至“地动仪”,而且24小时开动;那么您说,我这一个人的数据会有多大?
也就是说,数据大不大,根本不在于记录了多少人或者多少次或者多少种行为,而仅仅在于:监测手段用得多不多!
因此,现在之所以出现“大数据崇拜”,其实根本不是那些数据拥有者有什么高明之处,而是仅仅在于:人类的监测手段出现了爆炸式的增长。我们不但看到了火星上的水,还看到了我们自己的DNA!
当然,大数据崇拜者可以说:我们意识到了大量的监测数据的价值啊。可惜,如我前文所述,如果您都不知道该怎么用,那么您发现的,究竟是大数据的价值,还是大垃圾的价值?就算是废物可以再生,您也应该想想该怎么再生不是?
“大数据崇拜”里面,还有一个大大的猫腻,是死也不肯让别人知道的:大,是整体的大,还是片面的大?
以购物网站记录下来的数据为例,它确实可以容纳数千万人在购物时不知不觉地留下的近乎无穷无尽的痕迹;但是,这就能反映出这些人的购物偏爱吗?难道这些人就再也不在实体商店中买东西了吗?难道他们就只到您这一个购物网站来买东西吗?难道他们的偏爱就永恒不变吗?那么,您怎么能够确定:他们在不同的渠道中,在不同的情境之中,都会做出一模一样的选择呢?可是,如果您无法证明这一点,那么您的大数据就只能是大垃圾,一点儿也不冤。
交通监控录像、医疗记录、通讯记录等等,都足以号称自己是“大数据”。可是,所有这些数据,都仅仅是记录下了人们生活中的一个个零散的侧面。因此,这样的“大数据”再怎么大,也无法解决以下一系列常识性的问题:
1.人在生活的某个侧面里的表现,与他/她的整个人格与人生,难道不存在紧密的关联吗?农民工吃20元的盒饭都嫌贵;富豪买上千万的汽车也不眨眼;这难道仅仅是所谓的“消费选择”吗?
2.人类生活的各个侧面之间,难道不是相互影响着的吗?农民工吃20元的盒饭,却可以搭上200元的礼钱;富豪买上千万的汽车,却不肯做一点儿慈善;这也仅仅是所谓“购买习惯”吗?
3.任何一个人的生活,难道不是被社会、文化、历史等因素制约着吗?吃20元盒饭的,也有IT业白领,也是来自农村,却从来不被认为是农民工。比尔·盖茨的形象中,也从来不包括他的汽车是多少钱买来的;这,难道也是“可付资金”吗?
4.……
5.……
所以说,所谓的大数据,其实一点都没有超出原有的定量研究的局限性,那就是:裁剪生活,撕碎人生;非要把整体生存的“人”,视为一堆杂乱的零碎。如此这般,数据越大,岂不是错误越大?
当然啦,大数据崇拜者已经说了:我们很快就可以把方方面面的大数据,汇总为一个包罗万象的大“大数据”,例如全方位、不间断地监测所有人,就足以最终一劳永逸地解决那个“天问”:人类为什么做什么和不做什么。
额滴亲娘啊,这可真是道出了“司马昭之心”啦!
“大数据崇拜”唯一的功劳,其实就是迫使我们不得不认真思考一下:
在这种随时随地的、天罗地网般的、细致入微的、一生一世的被监测中,
我们的生活,真的还有意义吗?
能说明什么?
盲目崇拜或者大肆鼓吹所谓“大数据”的那些人,或者不知道,或者刻意回避了一个根本的问题:无论数据的规模多么大,它究竟能够反映出什么样的情况,能说明什么样的问题呢?
迄今为止,“大数据崇拜者”所列举的“丰功伟绩”,其实仅仅局限于反映出人类的某些可监测而且可记录的行为,例如各种网上活动、出行、通讯、接受各种服务等等。也就是说,如果人们不行动,或者不被监测到,那么大数据就不可能存在。
可是,就算毫无隐私,就算监测可以天罗地网,那人心呢?灵魂呢?企盼呢?人类精神家园一切的一切,都可以被“数字化测定”吗?如果至少现在还不能,那么大数据(且不论能不能分析)就是动物学,是植物学,甚至是矿物学。君不见,冰川也会运动啊。
当然,一些科学主义者早就发誓要突破人类精神的壁垒了。我并不怀疑他们的成功可能性;只想问:他们究竟是终于把人类精神给数字化了,还是给灵魂竖起一面哈哈镜呢?
“大数据崇拜者”很可能不知道,或者不敢承认:在人类生活中还有一种现象,叫做“主体建构”;就是:人们对于自己的行为所做出的解释,很可能与监测者的解释大相径庭,甚至背道而驰。最常见的就是,一切人际的误会,盖源于此。“无心插柳柳成荫”也是如此。
以网购的“大数据”为例,即使您总有一天可以把购买者的内心,全都数字化地一览无余,那您怎么知道人家就真的就是这样想的呢?科学嘛,总是需要验证的啊。
结果,
首先,您这种“客观测定”,离矿物学很近,可是人却是有主观意志的啊,您是怎么监测到的?连物理学还有个“测不准原理”呢,何况您老?
第二,您知道人类还会“自我呈现”吗?说不好听一些,就是表演。如果连测谎仪的结果,法律都还不予采信,那么您怎么筛除被监测对象的表演呢?
第三,难道您就不找被监测对象去核实一下?连司法审判还要听被告怎么说呢不是?难道真的把人当成石头?
第四,您听说过弗洛伊德吗?您知道除了“动机”,还有“无意识”吗?如果行为者自己都搞不清楚自己是怎么回事,那么您还怎么去核实呢?根据什么来判断真伪呢?
总而言之,一切试图用自然科学或者数字化来了解人类及其社会的尝试,不是都必然失败,而是都无法否定人类的“主体建构”的重要性;结果都必然是把真实的生活给削足适履了。
说到底,“大数据崇拜”,其实就是“唯科学主义”在人类历史面前一败涂地后的末日哀鸣。如果科学没能阻止希特勒的统治,也没能预测出此后人类的一切发展,那么就绝不是“艺不精”的问题,而是用错了地方,是越界跑到了自己无能为力的领域。
中国社会学,已经饱受“唯量化主义”的侵蚀,如果现在还放任“大数据崇拜”肆虐,那么可就真是泥菩萨过河自身难保了。
因此,我才如此声色俱厉,也因为我本人已经完成第四次全国随机抽样的量化问卷调查,深谙其弊,才更加有资格如此义愤填膺。
回复

使用道具 举报

1万

主题

2万

帖子

20万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
204692
沙发
 楼主| 发表于 2015-11-25 01:16:43 | 只看该作者
“大数据”不是万能的
刘建明


文章来源:《北京日报》2013年5月6日


自2011年,西方有关“大数据”(big data)的理论像旋风一样席卷知识界。大数据正在成为一股热潮,不仅是IT业的技术革新,也在不断冲击政治、商业、社会和其他科技诸多领域。对其模式的思考,以及如何应用它,已成为新一轮技术变革的最强音。但是,大数据技术也有两面性。
  大数据是巨量资料、浩瀚信息的另种称呼,实际是上世纪80年代末盛行一时的信息爆炸的同义语。从积极方面说,大数据确实已成为数据王国的主线,是下一步信息研究的主要对象。大众媒体、社交媒体和各个经济和社会领域如何使用大数据,正确评估大数据的商业价值,建立大数据的新兴产业,培育大数据的专业人员,将极大推动社会变革和经济发展。哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
  虚拟世界有取之不尽的资源,数据可以转化为资产和财富。每天各种机构、每个人和大量传媒发散的图片、文档、视频和言论杂乱无章、周而复始,人类早已无法掌控。而这些信息正是人类活动的真实记录,大量来自人类的心理层面和社会组织的内幕,通过大数据分析,人类完全有可能认识复杂、隐秘的社会和自然现象,使科学研究进入快速发展时期,过去的不可知领域可能将被人类彻底解开谜底。
  从消极方面看,大数据技术不是万能的,不能解决一切问题,它只是决策的一种量化手段。正确认识事物的是非和利害,遵循人文精神是更为重要的前提。缺少这个前提,大数据不仅毫无用处,而且能为谬论寻求支持的数据。有的文章说:“大数据的时代其实是弘扬理性精神的时代……美国在这方面就做得好很多,美国政府在各个领域都用数据分析,用数据决策,用数据创新。”美国确实重视数据,研究社会问题都搞民意测验或其他实证调查,已有80多年的传统。但2008年金融危机已过去5年,它的各种经济决策没有使其走出困境;它的情报部门搜集的许多数据都是虚假的(例如伊拉克有大规模杀伤性武器、向国际原子能机构提供虚假情报等)。尽管有大量脑库提供佐证与数据,美国历届政府都有重大失误。美国盖洛普民意调查所预测美国大选,每次通常搜集、分析十多万个数据,但多次预测出现错误。大数据本身不完全等于理性,决策基于数据分析而并非基于经验和直觉,是一种理性的表现,但更大的理性是人文法则。即重视人民的普遍要求,维护各民族的尊严和文化,尊重人的自由、平等和权利。不尊重其他民族的历史和风俗,奉行种族歧视,只知道本国利益而不考虑他国利益,在某些国际事务中实行双重标准,让美国政府在内政外交中屡屡受挫,给一些国家的老百姓造成不可弥补的伤害(例如多次对外战争滥杀平民)。
  遵循社会(国际)公德、人道主义、公正与正义、平等互利等友善原则,是分析数据的指导性准则。数据是有类别的,它真实与否,对全社会是否有利,哪种意见是绝大多数人拥护、赞成的,赞成的人是哪个阶层等等,数据本身还存在一定的模糊性。对社会问题提取大数据,主要了解绝大多数人的意见,依据人民是否满意做出结论,但大数据与人民的数量绝非完全等同。新闻传媒反映主流舆论,做出正确而精准的报道,仅仅依赖数据还远远不够。
  互联网、大众传媒和社交媒体每天提供的巨量信息有大量冗余、虚假和有害的内容,其中侵犯他人隐私权、生存权和精神健康权的信息与图像大肆泛滥,“价值密度较低”。人类不但不能把大数据一股脑地当作宝库,而且要冷静审视数据的两面性,抛弃有害和无用的信息,使数据分析立于价值和法律层面,避免浪费专业人员的时间和精力。
机器储存和分析难以囊括几十亿兆数据,即使储存了这些数据,专业人员也无法全部调阅,删除和忘掉无价值的、不相关的信息是处理大数据的重要原则。正如迈尔恩伯格在《删除:数字时代遗忘的美德》一书中所说,数字技术和全球网络压倒一切,使我们忘记自己的自然能力,我们必须重新恢复忘记。人类应采取的措施是“数字化节制、保护信息隐私权、建设数字隐私权基础设施、调整人类的现有认知、打造良性的信息生态、完全语境化”。“大数据的取舍之道,就是把有意义的留下来,把无意义的去掉。只有理解了在大数据中,需要的是什么,以及如何判断这种需要,才能举一反三地明白到底为什么要去掉那些不需要的。”


作者简介:刘建明,清华大学新闻与传播学院教授、博导。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 必须实名注册

本版积分规则

QQ|Archiver|手机版|小黑屋|《教师生活365》网[师慧园]论坛  admin.php?action=setting&operation=basic

GMT+8, 2024-9-11 05:13 , Processed in 0.251501 second(s), 30 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表