查看原文
其他

大数据应用 | 陈云松:大数据的功能

数据Seminar 2023-02-20

本文转载自公众号量化研究方法

作者:陈云松

来源:《社会远观》

大数据的功能

“大数据”一词在 2010 年之后爆红网络,人人视之为新的知识风口。与该词密切相关的主题,从“云计算”“数据分析”“人工智能”等计算机科学领域的专业词汇到“海量数据”“市场营销”“精准投放”等商业新概念,不一而足。对于一个新生事物市场的嗅觉往往最为灵敏,其次当属学术界。但不同于以往的是“大数据”这一学术词汇不仅在与计算机科学相关的学科中被关注,就连一向偏于保守滞后的人文社科领域的研究者也向它投去了目光。

大数据”一词 2004—2020 年谷歌趋势

五彩气泡一般的大数据,折射出诱人的光芒,但当我们伸手去够时,却好像什么都摸不着,对于人文社科学者而言尤其如此。读着顶级杂志《科学》上宣告计算社会科学时代到来的言论,人们很容易心驰神往,然而若是真正着手于大数据研究或大数据观察思考,脑海里却接连冒出问号: 到哪里寻找问题? 又如何给出一份合理的回答?对于初识大数据、没有接受过数据科学专门训练的人来说,这些都是棘手的拦路虎。那么,我们应该如何利用大数据?大数据究竟能为我们观察社会和分析社会带来什么呢?

史学需要史料,人文需要文本,社会科学需要数据和案例。首先,单就“大数据”本身而言,最直接的价值便是向它们提供来源多样的信息,以供分析和探索。对于社会学来说,有此数据在之前是不可想象的,传统社会调查方法对于日常信息鞭长莫及,社交网络上个体实时更新的生活动态却为它们开辟出了新的天地,对于文史学科来说,阐释新旨、发微显隐依赖于史料文献,许多珍本秘籍却难得一见。而近年来各类数字集库项目,能帮助学者们打破重重锁钥的限制,只需轻击鼠标,登录界面,就能遍览百世善藏。

其次,大数据技术为人文社科研究中的信息检索与分析提供了迅捷的通道。学海无涯,人生有穷,纵然是再勤奋的学者,面对浩如烟海的典籍,也会感到自身的渺小;社交媒体上的百万用户发布的文本信息数量如此庞大,如果单凭人力去阅读标记,难免效率和正确率低下。而大数据概念下的文本分析技术,却能够在几分钟里遍历文献,展示其脉络,归纳其主题。因此,大数据为人文社科研究提供了广阔的空间,如果运用得当,就能够产生巨大的作用,充当历史的显示器、社会的实验场。由此,在这一章,我们把大数据的社会价值归纳为五个方面。第一,大数据记录当代社会。历史是过去的社会,社会是未来的历史,一切社会的痕迹流传于后世,都将成为解读当代的史料,若是审之于当下,它们就能充当反映现实的记录。人们在审视自身所处的社会时,往往有“身在此山中”的迷思,而大数据提供的宏观视角,则有望为学者提供一处俯看当今时代的平台。引擎里的每一次网络搜索,平台上的每一则消息发布,微博中的每一条文本评论,都有望在大数据之手中聚个体而成群体,集微观而显宏观,融汇为记录与阐释当代的珍贵视窗。

第二,大数据重现宏大历史。历史的走向是复杂的,但并非无迹可循。然而单以个体史家之力,很难面面俱到,绘成一幅巨构长编。大数据及其配套平台和技术的出现,则为学者提供了一处能够交互的史料分析器。基于电子化的史料数据集成,再加以研究设计的巧思,学者们就能够看到特定议题的动态变迁一一边关的贸易、地理的探索、文明的兴衰、世界重心的迁移都能够呈现于一图一表之中。其考据之准确、视野之宏大,往往是传统研究方法不可比拟的。

第三,大数据澄清社会事实。社会中常常有一些未经验证但被广泛传播的刻板印象,比如有人指责网络话语会催生不文明的词汇,并对汉语造成污染; 还有人认为相较于男性而言,女性更容易迷信。这些刻板印象问题却多为传统的人文社科学者所忽略,因为它们只是听上去有意思而已,要解答起来又实在很不好下手。而借助大数据的视角,我们可以用强有力的实证资料来对这些说法加以证实或证伪,由此获得的真知会更加发人深省。

第四,大数据呈现复杂现象。对于一些复杂的社会现象和历史情境,现有的人文社科方法有时难以给予恰当的表达或描述。比如数百年来,人们的语言系统是否变得更加世俗了,再如自然科学和人文社会科学领域,学者在合作研究网络上有何差异、有何演化趋势,这些问题涉及诸多维度。相比于传统方法,大数据同样未必能提供精准的终极答案,却可能提供一些从前难以获得的可视化方式。这些变量或者图表能够为复杂问题给出特定范围中的有效回警。

第五,大数据提供文本远读。古往今来,人类社会活动的各类档案积累可谓浩如烟海。信息爆炸时代,不管是学者还是普通读者,往往很难从巨量的资料中精准获取我们所需要的知识。更重要的是,因为资料体量巨大,我们往往只能如盲人摸象一般,无法窥见全貌。因此,很多时候我们观察社会、了解文化的困扰从一书难求变为了纷呈乱目。而借助大数据及机器学习文本分析技术,我们可以解放自己的眼睛,从大历史、大时空的角度来总览特定主题、特定文本、特定社会文化现象的草蛇灰线和来龙去脉。如果说过去解剖麻雀般的案例研究方法是用显微镜观察局部.那么利用大数据的鸟瞰式观察就是用天文望远镜总览全局。

大数据的横空出世,如同一道幕布正在徐徐拉开。无论是普罗大众还是人文社科领域的学者,其实都无法预言大数据与人文社科的碰撞最终能激发出何等的轰鸣。本章的内容虽然远不能展示大数据的全部潜力,但可以借着幕布后透出的光亮,来为读者做引导式的简介。当今的人们所做出的涓滴尝试,都将汇聚成未来的浩瀚江海。大数据研究开拓出的广阔空间,正欢迎读者们投身于其中,开始属于自己的创造。
 
*注:内容仅做学术分享之用,若涉及侵权等行为,请先与本公众号联系删除,万分感谢。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧

往期推荐


Python教学 | Python 中的循环结构(下)【附本文代码和数据】

Python教学 | Python 中的循环结构(上)【附本文代码和数据】

Python教学 | Python 中的分支结构(判断语句)【附本文代码和数据】

数据治理 | 进阶版Git:使用Git分支特性进行多人协作

数据治理 | 团队必备!使用Git进行多人协同工作




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存