《教师生活365》网[师慧园]论坛

 找回密码
 必须实名注册
查看: 64|回复: 0
打印 上一主题 下一主题

大数据时代的数据困惑——教育研究的数据困境

[复制链接]

1万

主题

2万

帖子

20万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
204690
跳转到指定楼层
楼主
发表于 2015-4-17 09:01:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
   


大数据时代的数据困惑——教育研究的数据困境  





大数据时代的数据困惑——教育研究的数据困境




来源:《教育科学研究》2015年第1期  作者:高书国
摘 要:统计表明,整个人类文明所获得的全部数据有90%是过去两年内产生的。大数据时代给人类带来无限的数据信息、数据知识和数据财富。但中国教育还远离大数据时代和大数据精神,加之数据增长的不平衡性、数据共享的不公平性以及数据统计的不真实性,使得数据分析者、研究者与决策者再一次陷入结构性短缺、集团化占有、分散化使用和有限性分享等新的数据困惑之中。
关键词:大数据时代;教育数据;数据困惑
维克托·迈尔-舍恩伯格(Viktor Mayer-Schnberger)是最早洞见大数据时代发展趋势的数据科学家之一,2012年出版的《大数据》一书是“大数据”系统研究的先河之作。进入21世纪第二个十年,人类正式拉开了从小数据时代进入大数据时代的序幕。英国学者维克托·迈尔-舍恩伯格和肯尼思·库克耶在其著作中提出世界进入大数据时代:“大数据开启了一次重大的时代转型。”“这仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”[1]与全球大数据景象相比,教育信息化、数据化相对滞后,教育领域或成为大数据时代的“慢热领域”。教育特别是教育研究面临大数据时代的新的数据挑战和数据困惑。
一、从小数据时代进入大数据时代
人类原始时代早期所创造的数的概念、数的方法和数的科学,为东西方文化的发展提供了共同的智慧财富。人类对于数据价值的认识可以粗略地分为三个阶段:一是以经验科学为基础判断数据价值的“小数据”时代;二是以计算机为基础追求数据精细化时代——从小数据向大数据过渡时期;三是以系统性数据资源为基础深入挖掘数据关系的大数据时代。
(一)以经验科学为基础判断数据价值的“小数据”时代
早在数千年以前人类就开始计量数据、运用数据和分析数据。人类有记载的、最早的计数发生在公元前8000年。中国古书《易·系辞下》有记载:“上古结绳而治,后世圣人易之以书契。”古书《易九家言》记载为:“事大,大结其绳;事小,小结其绳,之多少,随物众寡。”在西方,自圣经时代开始,政府就通过人口普查来建立大型的国民数据库。[2]同样,在古代波斯也有结绳记事的记载。据说波斯王大流士给他的指挥官们一根打了60个结的绳子,并对他们说:“爱奥尼亚的男子汉们,从你们看见我出征塞西亚人那天起,每天解开绳子上的一个结,到解完最后一个结那天,要是我不回来,就收拾你们的东西,自己开船回去。”[3]
从古代人结绳记事起,人类数十万年依靠数量概念和数量科学推动着社会经济与人类自身的发展。人类的先知们凭借自身与观察到的经验,发现了数据对于自然界的物质生产、社会界的精神生产以及人类自身的自我生产、存在与发展的重要价值。
人口普查是一种国家层次的重要的“数据指标行动”。据有关资料记载,中国是世界上最早统计人口的国家之一。相传最早在公元前210多年前的夏禹时代就有过人口统计。中国古代封建王朝设立户部,“户部”主管户口、赋税等,是负责统计人口的机构。西周的人口统计不但有公开的人口调查,还有专司人口统计的官吏,称为“司民”。《周礼·秋官》载:“司民,掌登万民之数,自生齿以上,皆书于版,辨其国中,与其都鄙,及其郊野,异其男女,岁登下其死生。”这里,我们不难看出,周朝时人口普查就已经初步设立了年龄、“国别”、城乡、男女、生死等人口的重要指标。东汉时期的户口调查进一步制度化,称为“案比”,即案验、比较,在每年的八月进行。中国魏晋时期皇甫谧著《帝王世纪》有记载:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”南朝宋范晔《后汉书》与宋元之际马端临《文献通考》,都有同样记载。有的统计学者认为这是“我国最早的统计数字资料”。在数千年的农业社会中,人类不断探索新的科学技术,但是对于统计数据的收集、挖掘和使用始终处于较低水平。
(二)以计算机为基础追求数据精细化时代
计算机技术的发展与进步,成为20世纪影响经济社会和科技发展最为重要的事件之一。以计算机技术为引领的信息化、数字化时代,为数据收集、整理、分析和使用提供了前所未有的便利——数据收集更加便捷,数据整理更加科学,数据分析更加深入,数据使用更加广泛。但是,这一阶段计算机技术的主要应用范围局限在数值领域,追求数据的丰富性和精细化,成为这一阶段数据发展的典型特点。1997年《经济合作与发展组织教育要览》明确指出:“在现今的教育可比数据管理上仍有不足之处。因而,迄今所取得的进步已清楚表明在指标的涵盖范围、有效性、可比性、精确性和及时性上,还需要做很大的进一步改进。”[4]从更加科学的角度分析,在计算机出现之前,人类的经济和政治生活根本就不是以数据为基础的时代,进一步说“小数据时代是计算机背景下以数据为基础的时代”。小数据时代,由于数据的紧缺,研究者更加追求数据的精确性。中国学者张芳认为:“传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但‘质量’的概念被拓宽以后,‘统计数据质量’的概念也有必要拓宽。从ISO关于质量的定义出发,把用户的需求作为衡量统计数据质量高低的首要因素,那么可以把统计数据质量定义为‘影响统计数据满足用户需求的特征’。”[5]
自20世纪90年代起,网络技术、数码技术和电子信息系统的发展,推进计算机技术从数值领域发展到非数值领域。数据技术经历了一次革命性的变化,多媒体技术使得文字、图形、影像、音响和动画技术融为一体,数据的生产、复制和储存能力急骤增长。世界各国相继实施和推进数字化战略,数字城市、数字社区和数字家庭不断涌现。从磁盘、光盘,到互联网,传统媒体数字化转型,以手机带动的新型传输方式的发展,极大地提升了大规模数据传输速度。人类开始从小数据时代向大数据时代过渡。
(三)以数据战略资源深入挖掘数据关系的大数据时代
美国人迈克尔·考克斯和大卫·埃尔斯沃思被认为是第一次提出“大数据”概念的工程师。1997年10月,迈克尔·考克斯和大卫·埃尔斯沃思在第八届美国电气和电子工程师协会(IEEE)关于可视化的会议论文集中发表了《为外存模型可视化而应用控制程序请求页面调度》的文章。“可视化对计算机系统提出了一个有趣的挑战:通常情况下数据集相当大,耗尽了主存储器、本地磁盘甚至是远程磁盘的存储容量。我们将这个问题称为大数据。当主存储器(内核)无法容纳数据集,或者当本地磁盘都无法容纳数据集的时候,最常用的解决办法就是获取更多的资源。”[6]该文是在美国计算机学会的数字图书馆中第一篇使用“大数据”这一术语的文章。
2000—2010年,被视为“大数据时代”的奠基之年。互联网数据中心估计,2002年世界产生了5EB新数据,2006年为161EB数据,并预测在2006年至2010年间,每年为数字宇宙所增加的信息将是以上数字的六倍多,达到988EB,或者说每18个月就翻一番。而实际上,据2010年和2011年同项研究所发布的信息,每年全球所创造的数字化数据总量超过了这个预测,2010年达到了1200EB,2011年增长到了1800EB。
2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。经过十年的发展,新的数据标准、规则更加成熟,无线通信新技术在企业生产、市场流通与大众消费领域日益扩大。在云计算普及化以及信息环境更加完善的前提下,越来越多的企业、社区和家庭使用更高级别的数据标准,各种层次和各种功能的数据中心如雨后春笋应运而生,数字城市、智能网络和数据系统不断涌现。
与传统的数据观重视数据的因果关系有所不同,维克托·迈尔-舍恩伯格和肯尼思·库克耶认为:“大数据标志着人类在寻求量化和认识世界的道路上前进了一大步。过去不可计量、存储、分析和共享的很多东西被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门。社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的好处。”[7]为此,要建立以数据分析为基础的决策机制。决策将日益基于数据和分析而作出,而并非基于经验和直觉。不以牺牲事物的复杂性为代价而换取决策的速度。
综合参考网络上对于大数据时代的有关分析,我们认为大数据时代具有以下五个典型特征:第一个特征是数据量大(volume)。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。第二个特征是数据类型多样化(variety)。大数据时代数据类型和表现形式种类繁多,包括调查数据、网络日志、音频、视频、图片和地理位置信息等等,数据与数据之间的联系被数据的多样性所冲淡,多种类型的数据对数据的处理能力提出了更高的要求。第三个特征是数据价值(value)密度相对较低。随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。第四个特征是处理速度快(velocity)。在数据收集速度加快的同时,数据寿命明显缩短。对于数据挖掘的时效性要求日益提高。这是大数据区分于传统数据挖掘最显著的特征。第五个特征是关键数据仍是稀缺“资源”(resource)。由于网络、视频、扫描等数据采集工具不断丰富,应用范围日益扩大,流量数据十分庞大,并且占据了大量的人力、物力和财力。数据量的增加,并没有满足人们对于数据质量的要求,对质的研究的有用的关键数据依然稀缺。
二、大数据时代的数据困惑
维克托·迈尔-舍恩伯格和肯尼思·库克耶认为:“大数据的科学的价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。”[8]整体而言,大数据既是一场革命,又是一种挑战;既是一种财富,又是一种负担;既给人类带来更多的利益,又给人类带来更多的不确定性与更多的困惑。
(一)大数据既是一种财富,也是一种负担
大数据的价值不是自然而然地呈现出来,而是需要深入挖掘和发现的。有学者认为,大数据=海量数据+分析软件+挖掘过程。没有挖掘和发现,大数据的巨大价值就如同埋在地层深处的金子和石油。指标体系就是大数据时代发掘和发现其战略价值的最重要工具。哈佛大学数量社会科学学院院长加里·金认为:“这是一种革命,我们确实正在进入这场革命,庞大的新数据来源所带来的量化转变将在学术界、企业界和政界中迅速蔓延开来,没有哪个领域不会受到影响。”[9]
大数据时代给人类带来的并非全是福音,而常常使人们陷入两难之中。维克托·迈尔-舍恩伯格和肯尼思·库克耶认为:“人数存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。”[10]截至2010年,人类拥有的信息总量大约是1.2ZB(1ZB等于1万亿GB)。据专业部门预计,到2020年,世界上的数据存储总量将达35ZB,是目前数据总量的近30倍。(一般记作ZB,1ZB等于270字节。)快速增长的数据,既是一种财富,又是一种负担。人类面临如此大的数据,将如何选择?如何决策和如何使用?系统思维大师德内拉·梅多斯指出:“一个复杂的系统内部通常都有不计其数的调节回路,因此具有较强的自我纠正能力,可以适应不同的状况和影响。”[11]系统特别是自组织系统具有自我改进和自我完善的功能,构建指标体系是一个逐步调整和逐步完善的过程。与小数据时代相比,大数据时代对人类带来新的困惑。
(二)数据增长不平衡性突出,结构性短缺现象严重
随着数据的增长,“数据垃圾”不断增长,成为扰乱人类数据认知能力、分析能力和应用能力的“数据困惑”。数据困惑之一:数据增长的结构性缺陷。从数据增长的贡献度分析,社交数据、销售数据和网络数据是推动数据增长的巨大动力。经济数据、科技数据以及对人的行动的监控数据快速增长。数据困惑之二:数据权力的集中化状态。数据困惑之三:数据应用的分散化特点。数据困惑之四:数据效益的集团化倾向。
如果说大数据是一个更大的系统的话,这个系统是不完整的。德内拉·梅多斯认为:“如果某个系统在各个参与方看来都不合常理,它将导致各种低效、丑恶现象、环境退化以及人类的痛楚。但是如果我们将其消灭,我们就将推动整个系统。旧的已破,新的难立。这将是最可怕的事。”[12]进一步分析,与经济大数据相比,社会科学大数据趋势远远相对滞后,特别是社会科学专业数据增长缓慢。“社会系统是人类文化思考的外在体现,也是深层次的需求、情绪、优势和劣势的反映。改变它们绝非易事,不是简单说一句‘我们现在正面临严峻的挑战’,人们应能改变,也不是因为我们知道了改变的好处应能改变。”[13]教育是重要的社会系统,面对信息化和大数据的影响,教育特别是学校教育显得迟缓。关键数据特别是核心数据变化不大,全社会教育经费、企业教育经费、各省市人均教育经费、地方增长率经费占地方财政支出比例以及世界各国教育经费比较等在教育决策和教育研究中必备的数据,依然缺乏。数据的快速增长并没有解决数据结构性短缺问题,这也许是大数据时代的一种悲哀?由于管理体制和管理机制问题,传统的数据统计、分类和发布模式,依然限制着教育特别是教育经费统计数据和统计指标的健全和完善步骤。
大数据时代,并没有像人们想象的那样,实现数据的充分供给和有效使用。我们所面临的现实是,数据的多样化需求总是大于数据的供给。从我国现有教育统计数据分析看,数据供给与数据需求之间的结构性矛盾既长期存在,又随着教育改革和发展实际需要更加呈现局部紧张的现象。
(三)广大民众被数据化,不得不在“被大数据”中痛苦生存
“被数据化”即被迫数据化是大数据时代的突出特征和一大缺陷。鉴于政府管理、商业利益和公共安全需要,大数据时代政府、企业和相关组织成为最重要的数据权利核心。同时,为了获得必要的公共服务、进行商业交易和办理个人事宜,公民群体及公民个人不得不越来越多、越来越频繁地提供各种各样的个人相关信息资料。通常“被数据化”的方式有以下三种。
一是消费者被数据化。消费人群、消费行为最早、也最全面地进入大数据时代。电脑、手机、iPad销售商和运营商,各个银行、房地产公司和公共电视运营商收集全民的各种相关信息。电子地图软件在向人们提供方便的同时,也将人们的行为地点、行为路线收入囊中。非法的商业组织、企业事业单位,以伤害消费者的正当权利为代价,将公共信息作为产品进行出售从中谋利。
二是公民个人被数据化。进入现代化社会,公共管理任务日益加重。随着社会分配矛盾加深,个人或群体性公共安全事件频发。几乎所有城乡地区,公安、交通、公共场所监控视频实现“全覆盖”;政府部门、税务部门、各种管理部门不停地通过填写各种数据报表,收集公民个人和组织机构相关数据信息。
三是整体国家甚至世界都被数据化。出于政治、军事、外交和商业利益考虑,国家、地方及国际组织相互“数据化”,共同对敌对国家、合作国家和友好国家实施数据化。公民行为、国家行为被全面数据化。斯诺登揭露的美国政府和安全部门对世界各国的监控丑闻,足以显示大数据时代国家战略竞争的激烈程度和残酷程度。
三种“被数据化”模式,无理化程度一个比一个更严重,对于消费者和公民个人合法权利的侵害程度一个比一个更深刻。在国家利益面前,合法的个人隐私丧失殆尽,成为被牺牲者和不得不牺牲的东西。同时,大数据时代,数据垄断依然严重存在,引发了人们对“数据民主”的怀疑。让人们感到失望的是,“数据民主”时代并没有伴随大数据时代的到来而到来。数据垄断的目标,一是企业通过独享数据,可以获得超额的“数据利润”。二是政府所进行的数据垄断,成为一种新权力象征。不仅掌握公章就掌握了权力,而且掌握了数据也掌握了权力。依靠向使用者谋取利益的“数据寻租”现象也相继产生。
(四)教育仍“远离”大数据时代,数据短缺现象比较严重
整体而言,伴随教育事业的发展和教育改革的深化,教育统计数据日益丰富。一方面,教育数据持续增长。以中国教育经费统计为例,1990年,《中国教育经费统计资料》为435页,共70.7万字;2000年,《中国教育经费统计年鉴》为585页,78.7万字,比1990年增加34.5%和11.3%;2012年,《中国教育经费统计年鉴》为615页,94.8万字,比2000年增加5.12%和20.6%。同样,2012年与1990年相比,统计年鉴页码增加了180页(41.4%),文字和数据总量增加了24.1万字(34.1%),增长比例和增长速度可观。另一方面,教育数据的增长难以满足多样化的教育需求。从教育研究视角分析,数据的困境主要表现在以下几个方面。
一是公民个人教育与学习数据缺乏。教育是公民发展的第一要务。与发达国家相比,中国的教育统计更加关注国家、学校和教师,而对学生特别是学习者个人缺乏必需的关注。在中国的教育统计中,我们很难找到有关学习者个人学习时间、学习支出、学习回报的相关数据。需要指出,现有统计中反映学生学习质量、学生健康水平和质量保障等教育质量方面的数据缺乏。由于缺少公民个人教育和学习数据,教育研究终日里在“国家层面”转来转去,缺少真正反映公民群体需要和公民个人需要的高水平的研究成果。
二是非正规教育特别是终身学习数据缺乏。教育体系的成长有一个渐进的历史过程。20世纪90年代以来,世界各国制定战略规划和相关政策,着力推进正规教育体系的完善与正规教育的普及。由于中国教育管理体制和统计体系存在的分隔问题,非正规教育分别由教育部门、劳动人事部门、工会组织和其他专业部门管理,有关非正规教育和培训的数据统计难以进行,统计的科学性难以测量,反映政府组织、企业和社区终身学习的数据资料严重匮乏。此外,企业教育培训数据相对封闭。教育作为一个相对完整而封闭的系统自我循环,改制后的企业教育与培训远离学校,学校教育与社会教育和企业教育特别是企业教育与培训需求难以接轨,三者“老死不相往来”。教育与培训体系给教育信息管理数据化带来体制性制约。
三是关键地区和关键领域统计数据缺乏。统计数据的专业化是数据统计与数据应用的一大陷阱。由于地区行政管理体制不同,区域之间缺少数据的协作与协调,研究与决策过程中常常缺少能够反映一个区域的数据和指标。比如,有关长三角、珠三角、环渤海的数据,有关东部地区、中部地区和西部地区人口发展和教育发展的数据,均难以获得。学前教育和民族教育都是中国教育发展的重点领域和薄弱环节,中央和地方在进行学前教育发展研究与决策时,缺少学前教育和民族教育学龄人口、师资规模、办学条件、经费需求和社会需要等方面的数据,许多数据只能从个案调研中获得,直接影响教育研究水平和决策效果。
四是教育数据分析能力十分薄弱。教育研究机构的整体数据分析能力不能适应教育改革和发展特别是重大决策的需要。教育数据分析人才短缺,分析能力薄弱,分析成果严重不足。2012年,教育部曾组织全国中小学生健康情况调查,几乎收集了全国所有中小学生的健康情况数据。由于缺少必要的培训,上报数据问题严重;由于缺少分析人员和分析能力,所有数据至今躺在数据管理人员的计算机里,几乎已经“数死胎中”。
同时,与可以看到的数据相比,还存在一些“看不到”的问题:教育数据统计意识薄弱,统计手段相对落后,教育数据统计指标得不到时时更新;由于分析能力不足,造成经费资源、时间资源和人力资源浪费;缺少公开、丰富、持续的教育数据发布机制。数据的困乏,影响教育决策、教育研究和国民对于教育的知情权。可以说,中国教育统计远远没有进入所谓的大数据时代。
(五)教育数据与国际数据接轨困难,国际可比较性亟待提高
联合国开发计划署在2003年人类发展报告中提出:要“加强国际数据系统。对协调一致的国际统计数据的日益需要是一个严峻挑战。尽管更强大的国际统计有赖于国家统计,但是国际统计机构也需要变革。它们必须提高自己的能力来应对新的测量方法的挑战,并提供及时的数据,缩小数据上的差距和不一致性,改善与国家统计系统的合作,并加强相互间的协调,以提高国际标准和手段,并确保国际数据系列的一致性。”[14]可比较的国际教育统计数据十分缺乏。数据的可比较性是数据和指标的一个本质要求,也是数据能力建设的基本要求。缺乏数据的可比较性,已经成为指标设计和数据分析的最大障碍之一。其原因是:第一,指标设计缺乏国际标准;第二,数据采集口径缺乏要求,不规范;第三,教育发展阶段不相同,是影响各个国家和地区教育统计数据规范和质量的关键因素。
要科学判定数据的精确性与数据的模糊性价值。美国学者道格拉斯·W.哈伯德在《数据化决策》一书中一方面反复强调量化是减少不确定性的工具,另一方面又告诫人们:“量化的概念是‘减少不确定性’,而且没有必要完全消除不确定性,这是本书的核心观点。”“一个真正的量化过程不需要无限精确。而且,如果没有报告误差,也没有采用抽样和实验等实证方法,就认为数字是完全精确的,根本不是真正的量化。”[15]数据的精确性,既可能是一块蛋糕,也可能是一个陷阱。有时,甚至多样化的模糊数据和指标更加真实,研究者和决策教育对此必须加以理性的思考和科学的运用。否则,就会如罗伯特·J.德威利斯所说:“如果一个最差劲的测量是惟一可以利用的测量,那么使用它的代价会比得到的好处要大得多。”[16]在有些情况下,局部的精确并不一定反映整体的科学,我们不能简单地追求数据的精确性,而忘记甚至放弃模糊数据的科学性。
三、大数据时代,数据并非万能
数据是研究与分析的基础。一定要有高于数据之上的思想和理论框架,人类才能在大数据时代建起数据大厦,而不是数据沙漠。人类需要指标体系,没有指标体系人类将缺少一种重要的战略工具。但是,数据又不是万能的。在谈论了指标体系的功能作用之后,我们要阐述的最后一个重要观点是“指标数据并非万能!”
第一,数据具有欺骗性。美国著名投资家罗杰斯在一次记者采访中这样说道:“这是美国政府的说法!但你总得买东西:保险、食品、甚至是纸。几乎所有东西的价格都在涨。印度、中国、挪威、澳大利亚都面临通货膨胀的问题,到处都在通货膨胀,只有美国没有。这是美国劳工统计局(Bureau of Labor Statistics)做了手脚。我告诉你他们在撒谎。到纽约任何一家餐馆或食品店看看,你能说没有通货膨胀吗?(罗杰斯开始在他的笔记本电脑上敲字)。看看这个:2001年,纽约帝国大厦(Empire State Building)楼顶的门票是9美元。现在86层的门票是27美元,楼顶是44美元,快速通道门票67美元。2001年,现代艺术博物馆(Museum of Modern Art)门票是10美元,现在是25美元。2001年,打车从肯尼迪机场到曼哈顿要30美元再加上过路费。现在起价则要52美元。”[17]政府会制造假数据,或推迟数据收集、分析和公布的时间。
以数据为基础的技术决定人类的未来。“大数据是一种资源,也是一种工具。它告知信息但不解释信息。它指导人们去理解,但有时也会引起误解,这取决于是否正确使用。大数据的力量是那么耀眼,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。”[18]
第二,数据具有片面性。教育指标只是一种评估工具,虽然它可以对现实进行多维度描述与分析,但是世界的发展特别是人类发展并非一切都体现在数字之上,需要更多的政策工具才能更加客观、科学和全面地反映与评估人类的发展。虽然教育指标体系是教育决策与研究的重要工具,但是面临社会变迁、制度演化和文化发展,仅仅依靠这一工具是不够的。教育指标体系不能完全替代政策研究工具。
不是任何事物都能用数据形式来表现。组织气氛是一种能够感受到而没有任何物理痕迹并无法精确测量的心理现象。比如爱情、友谊或者仇恨等心理现象,都是难以用精确数据加以测量和表达的。再比如,大学学术精神、民主精神以及德育实效性等内容也难以用定量的数据加以统计和描述。
第三,数据具有依赖性。世界银行前行长詹姆斯·D.沃尔芬森认为:“没有放之四海而皆准的标准。但我确信,如果有适当的资源作配套,以及对什么起作用和什么不起作用进行评价,对应该增加什么和减少什么做出决定,对服务提供,实际上是对发展效果的新的思考方式将会结出丰硕的成果。”[19]
数据对人存在很强的依赖性。有人提出:“数据会说话!”但是,数据的话语,只有懂数据的人才能听到。同样的数据,不同的人可能会听到不同的声音。一个数据,可能会发出多个声音,什么声音是主流声音,需要人们加以辨别。数据之间的联系、矛盾与问题,需要研究人员加以揭示。离开了人,许多数据只不过是一个自然数而已。“数据之鸟”只有到了数据分析专家手中,才有可能变成会唱歌的黄鹂……
注释:
[1][2][7][8][10][18]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:9,19,23,15,20,247.
[3]百度百科.结绳记事[EB/OL]].http://baike.baidu.com/link.
[4]经济合作与发展组织教育研究与革新中心.经济合作与发展组织教育要览[M].教育部发展规划司,北京教育科学研究院组,译.北京:人民教育出版社,2000:前言4.
[5]张芳.统计数据质量涵义之我见[EB/OL].http://www.stats.gov.cn/.
[6]佚名.大数据发展简史[EB/OL].王丽华,译.http://developer.51cto.com/art/201303/383015.htm.
[9]李维刚.大数据时代来临[EB/OL].http://wenku.it168.com/d_000719819.shtml.
[11][12][13]德内拉·梅多斯.系统之美:决策者的系统思考[M].邱昭良,译.杭州:浙江人民出版社,2012:213,236,235.
[14]联合国开发计划署(UNDP).2003年人类发展报告——千年发展目标:消除人类贫困的全球公约[M].本书翻译组,译.北京:中国财政经济出版社,2003:35.
[15]道格拉斯·W.哈伯德.数据化决策[M].邓洪涛,译.世界图书出版公司,2013:43,46.
[16]罗伯特·F.德威利斯.量表编制理论与应用[M].魏勇刚,龙长权,宋武,译.重庆:重庆大学出版社,2004:14.
[17]华尔街日报网站.罗杰斯现在投资何处?[EB/OL].http://cn.wsj.com/gb/20131014/.
[19]世界银行.2004年世界发展报告:让服务惠及穷人[M].北京:中国财政经济出版社,2004:前言.




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 必须实名注册

本版积分规则

QQ|Archiver|手机版|小黑屋|《教师生活365》网[师慧园]论坛  admin.php?action=setting&operation=basic

GMT+8, 2024-7-14 09:13 , Processed in 0.222072 second(s), 30 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表