社科网首页|客户端|官方微博|报刊投稿|邮箱 中国社会科学网
English Russian 关于我们 2011年12月26日 星期日

李剑鸣:大数据时代的世界史研究

  李剑鸣,历史学博士,复旦大学历史学系教授,教育部“长江学者奖励计划”特聘教授。著有《历史学家的修养和技艺》、《美国的奠基时代(1585—1775)》和《文化的边疆:美国印第安人与白人文化关系史论》等。

01

 

 

  从前有个画家,面对壮阔秀丽的山水,愧于自己技法不够高明,无以尽山川之美,不禁感叹:“李成不在郭熙死,奈此千峰百嶂何!”几年前我到武汉大学参加吴于廑先生百年诞辰纪念会,在发言时提及这个掌故,借以表达一点类似的感慨:当前国内世界史研究的条件大为改善,可是却缺乏像吴先生那样的高明史家,一时还没有见到同这种研究条件相称的出色论著。

  当时我所谈到的研究条件的改善,是指在引入大量史料数据库后,世界史研究中资料匮乏的困难得到了极大缓解。那时,我并不知道“大数据”这个词,更无从领会它在历史研究中有什么意义。诚然,史学界早已有人在讨论数字化对治史的影响,不过所用的是“网络资源”“信息革命”这一类提法。刚刚过去几年,我们现在都已清楚地看到,大数据时代确实来临了。在今天,离开大数据来谈论历史研究,就不免有几分“桃花源里人”的意味。

02

  关于大数据对历史研究的意义和影响,尽管每个人的感受和看法不尽相同,但是都没有理由不加以重视。就世界史研究而言,大数据所带来的最大裨益,无疑在于获取资料的途径、方式和数量均得到了前所未有的改善,称之为“资料革命”并不为过。诚然,大数据并不是我们以往所习见的文献资料库。它依托于互联网和数字化技术,把海量资料汇集、存储和联结起来,并借助计算机技术和相应的软件来加以管理与利用。有论者称,大数据不是一般意义上的文献数据库,而是量化数据库(梁晨:《量化数据库:“数字人文”推动历史研究之关键》,《江海学刊》2017年第2期,第163页)。这种数据库的突出特点是体量大,据称须达到一个PB(即1024TB)才能称作大数据。实际上,任何单一的历史文献数据库,在容量上都达不到这个标准。即便如此,许多大型数据库所储存和可供利用的资料,相对传统载体的资料存储,依然堪称海量,往往令使用者作“不可思议”之叹。

  若干年前,当我们最初接触到“早期英文线"(EEBO)、“18世纪作品在线”(ECCO)、“美国早期印刷品”(EAI)、“美国解密文献系统”(DDRS)等数据库时,已然惊叹和欣喜不已。现在,这些都成了“微不足道”的小数据库。盖尔公司近期开发的“盖尔学术资源”(Gale Scholar)大型数据库,所收原始档案多达1.7亿页,不仅可供全文检索,而且提供“先进的文本分析和数据可视化工具”,全面支持“数字人文”研究。目前“google books”文本数据库中已有1500万册图书,已经赶上一家大型图书馆的藏书量。有朝一日,把美国国会图书馆的全部藏书以PDF格式数字化以后,就相当于一个只有20多个TB的数据库,可以存储在个人电脑上(周欣平:《大数据与社会科学和人文科学研究》,《大数据与中国历史研究》第1辑,北京:社会科学文献出版社2017年版,第189、190页)。就其他研究文献而言,“英文过刊数据库”(JSTOR)一直在扩充,目前所收史学期刊已达330种。另外,ProQuest和EBSCO所收文献也在急剧增加。在中文二手文献方面,中国知网旗下的各个数据库也在不断扩容。

  当然,史料和二手文献数量的激增,只是大数据带来的一个基础性的好处。更重要的是它革新了史料和文献的使用方式。据几位对大数据研究有切身体会的学者说,量化数据库有助于扩大史料的范围,克服史料芜杂的制约,突破传统的“选精”和“集萃”等利用史料方式的局限,可借助计算机及相应软件对海量史料进行处理。而且,它还把以往大量的微观数据变成了可利用的史料,并能从留传的传统史料中挖掘新的信息(梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期,第120~121页)。的确,仅就大数据提供的检索、统计、分析和验证等技术而言,史料的查找、引用和核对都由此变得极为便利。例如,借助数据库的基础检索和统计功能,就可以进行粗放的量化研究。如果我们要弄清“美德”(virtue)一词在18世纪英美的使用情况,通过对EEBO、ECCO和EAI等数据库的检索,就能得到可供统计和分析的基础数据。如果使用“谷歌书籍词频统计软件”,那么统计和分析功能将得到更大的提升。此外,大数据还势必冲击传统的“引书法”。以往多数学者引书,无论如何博学,也无论掌握的材料多么丰赡,都不免带有举隅和例证的性质。现在,在大数据所提供的海量资料面前,要恰当地筛选代表性文献,并将众多同类证据融入论述而不显烦琐,显然无法倚重传统的引用方式。而且,以往在检验论著的学术性时,往往苦于无法找到文中所引文献,以致无从评判其可信度。现在,借助大数据的便利,核对引文和查验资料来源的可靠性已变得易如反掌。这就为落实“言必有据、信而有征”这一治史守则,提供了切实可行的保障。

03

  不过,利用网络收集资料,借助数据库做简单的检索和统计,还不是真正的大数据研究。大数据方法的核心特征,是以特定的软件处理海量数据并做出量化分析,以获取传统的文献研究方法所不能获得的结论。因此,有论者认为这是史学的量化研究的“再度崛起”(韩炯:《从计量史学迈向基于大数据计算思维的新历史学》,《史学理论研究》2016年第1期,第65页),甚至就是“计量史学”的复兴(乔·古尔迪、大卫·阿米蒂奇著,孙岳译:《历史学宣言》,上海:格致出版社2017年版,第120~121页)。实际上,原来的计量史学和大数据方法是不可同日而语的。在大数据研究的框架中,无须复杂的统计学知识和技能,只要借助相应的软件工具,就可以处理海量的非量化史料,以取得描述性的结果。美国学者乔·古尔迪在2012年开发了一个叫作“纸机”(Paper Machine)的软件,“专供学者全面梳理大宗纸版文档之用”,并且“只需一个简单的图形界面,纸机便可将文本中的各类特征转化成可视图形”(乔·古尔迪、大卫·阿米蒂奇:《历史学宣言》,第112~113页)。类似的大数据处理软件还有多种,而且新软件还在不断问世。在这个意义上,大数据是一种全新的研究技术。过去的计量方法主要兴盛于经济史研究中,在人口史、社会史和政治史中也偶有运用。如今,只要有足够的数据支持,大数据方法似乎可以应用于任何课题的研究。例如,在概念史研究中,以往偏重引述文献以进行语义的铺陈和考辨;而现在借助大数据方法,则可对词频、用法和语境进行量化分析,以梳理概念含义的形成和流变。在史学史研究中,借助大数据方法,可以分析具体时期史家的性别、年龄、出身、学历、宗教背景等,还可以对历史著作的页数、发行量、收藏、借阅、参考文献、获奖情况等进行考察,以克服以往讨论史家、作品和流派的影响时常见的那种模糊而笼统的弊端。

 

 

  目前,对于大数据研究给历史学带来的冲击和机遇,不少学者已有敏锐的认识。当初计量史学的提倡者曾高调预言,奇妙的计算机程序和精确的量化研究,将把古老的历史学送进辉煌的科学殿堂。对于那些心态乐观的人,大数据方法再度激发了他们的科学主义之梦;他们不禁开始展望大数据推动史学科学化的灿烂前景(韩炯:《从计量史学迈向基于大数据计算思维的新历史学》,《史学理论研究》2016年第1期,第73页),并预言新的“计算历史学”即将诞生(马建强:《计算历史学:大数据时代的历史研究》,《学术论坛》2015年第12期,第99~105页)。

  可是,大数据研究果真具有神奇的魔力,足以一举把史学变成科学吗?

  如果我们承认“求是型学术”(scholarship of discovery)和“解释型学术”(scholarship of interpretation)的划分不无道理(梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期,第113页),那么历史学似乎始终难以摆脱“解释性学术”的特征。若要把历史研究变成科学,必须首先解决以下几个问题:第一,把人类的行为逻辑规律化,并将情绪、感知和语境等不确定因素排除在外;第二,摆脱时空阻隔和文化差异带来的观察和理解的障碍,克服人类过往经验不可复制、不可模拟带来的限制;第三,创造必要的条件和环境,以便能够运用“符合论真理观”来检验史家的描述、判断和结论的可靠性;第四,消除历史资料的不完整、不系统和不可靠所造成的制约。可是,所有这些问题并不会随着大数据方法的采用而消失。更何况,历史大数据同实验科学的大数据难以相提并论,它难以具备后者那种完整性、系统性、可靠性和可测度性。到目前为止,过去留下的数据大多是随机而零散的,这就给在历史研究中运用大数据方法造成许多障碍,而且时代越久远,制约就越严重。

  随着科学主义梦想而来的另一种可能是,大数据研究可用于回应后现代主义的挑战。后现代史学理念中最具冲击力和颠覆性的观点,在于指明历史写作的“虚构”性质,称历史学家不过是借助于“情节化”和“叙事结构”,以类似于小说家“发明”故事的方式,讲述一些“关于过去”的事情,最终得到的不过是某种“语言制品”。因此,历史知识与“真理”和“客观性”毫不搭界。如果把大数据研究引入史学,无疑能够增强方法上的科学性和证据上的可量化度,这样就有助于提高历史知识的确切性和可靠性,也使得历史文本在形式上同小说叙事迥然不同。于是,历史写作就拉大了同虚构的距离。不过,这一目标的实现,还有赖于大数据研究在史学领域的全面推进。

 

 

  但无论如何,大数据能够丰富史学的资源、路径和方法,这一点大约没有人会否认;在有机会利用的情况下,大约也不会有人故意放弃这样的便利。目前,热心于尝试大数据方法的大多是年轻学者,中年以上的学者能够了解和运用的人可能寥寥无几。因此,现在预言大数据会彻底改变史学的面貌,或者担心大数据会使史学失去本色,或许都为时过早。说到底,大数据研究只是史学方法的一种,只有整合在整个史学方法论体系中,才可能发挥最佳的功效。而且,方法总是同题材和问题联系在一起的。相对而言,能纯然采用大数据方法的题材也许不会很多。在那些具有实证研究经验的史家眼里,大数据方法的长短利钝大抵是一目了然的:“量化历史数据库的应用并非鼓励纯粹定量分析,而是需要传统史学方法与定量方法的互补。”(梁晨、董浩、李中清:《量化数据库与历史研究》,《历史研究》2015年第2期,第126页)而且,“大数据不是万能的灵药,更不是江湖的骗术,它只是一个工具”;能用而不用,或不必用而强行用,都是不智之举(李伯重:《大数据与中国历史研究》,《大数据与中国历史研究》第1辑,第180~181页)。

05

  其实,大数据研究在历史学领域究竟有多大的潜力,目前还难以做出明确的评估。一方面,大数据自身的技术和功能还在不断提升和完善之中,其统计、分析和形成结论的能力究竟能达到何种程度,目前尚未可预见;另一方面,多数学者还没有开始自觉运用这一方法,对于他们来说,大数据的主要优势在于拓展了资料的丰富性和多样性。更重要的是,采用大数据方法进行的研究,还没有产生震动学界的成果。当年,在计量方法用于历史研究的前景尚不被看好之际,罗伯特·福格尔和斯坦利·恩格尔曼推出了划时代的《磨难时代》一书,一举奠定了计量方法在历史学领域的地位。当然,大数据方法也可能面临计量史学曾遇到的陷阱与困境。毕竟,人类过往经验有些可以量化,有些不可以量化,而且那些无法量化和不能用统计方法处理的部分,通常更加复杂,更具有不确定性。计量史学自20世纪80年代以来的式微,一方面由于研究生培养中统计学训练的滞后,另一方面也由于计量史学逐渐背离了史学的基本特性。

 

 

  既然我们已经来到了大数据时代,大数据方法也已经进入了历史研究,那么我们现在需要考虑的问题是,如何利用大数据方法的优长,取得更有分量、更有价值的学术成果。我们的出发点当然不是“丢了西瓜捡芝麻”,而是要设法把大数据方法整合在历史学的方法论体系中,使之成为攻城破阵的锐器,而不会造成自伤。史学作为一个有着悠久历史和深厚积累的学科,当然不会因为某个环节的变化而立刻失去自己本来的面目。相反,如果能够不断提升自己的学养和见识,把传统技艺打磨得更加精湛,再在这个基础上充分利用大数据时代的各种资源、方法和工具,我们岂非如虎添翼,何愁不能取得更大的学术成绩?

 

 

  首先,在大数据带来的挑战和机遇面前,我们仍然有必要时时提醒自己,无论如何也不能忘掉历史学的人文属性。虽然大历史、环境史和生态史的兴起,已将史学的边界扩展到“非人的”领域,但是史学的重心和支柱依然是过往时空中的人及其思想和活动。对于人的经验而言,行动、制度和事件只是其表,而价值、态度和情感则是其里,而且后者在某种意义上构成理解前者的基础。从心理学的意义上说,人的行动取决于判断和决定,而影响判断和决定的核心因素则是情感(emotions)。可是,人的情感具有易变和不确定的特性,不仅无法以数量关系来表述,而且也难以确切把握,只能诉诸理解和阐释。因此,只要我们把过去的人当作曾有过喜怒哀乐、生老病死的生命体,那么我们就不能轻视人的特性在历史过程中的重要性,也就不能放弃自古以来人类为了理解自我而摸索到的各种知识和方法。其次,同人文性紧密相随的是史学的叙事性。甚至可以说,史学在根本上是一门叙事的艺术。叙事在历史知识的生产中具有多重功能。史家基于“年经事纬”而编织过往图景,展示人类经历的内涵和层次。既然人的特性在历史过程中具有塑造性作用,那么叙事就可以说是理解行动和思想的锁钥。于是,在一定意义上叙事本身就成了解释。根据某种儿童心理学理论,“叙述具有一种文化普适性,是最为有力的解释性工具之一,人类借此得以在时间中将经历与体验组织起来,并对人类的行动进行解释与评估”(转引自林恩·亨特著,赵辉兵译:《全球时代的史学写作》,郑州:大象出版社2017年版,第100页)。这就是说,叙事具有重要的方法论功能,能够担负起对意义进行解码的工作。借用人类学家克利福德·格尔茨的说法,这种解码方法就叫作“深描”。因此,只要历史学仍然以探讨过往人类行动和思想的意义为鹄的,叙事在历史写作中就具有不可替代的作用。此外,叙事还能产生一种附带的效果,即以日常语言组成优美可诵的文本,给阅读者带来美感和愉悦。那些至今尚未被遗忘的历史著作,从希罗多德的《历史》到吉本的《罗马帝国的衰亡》,从汤普森的《英国工人阶级的形成》到戴维斯的《马丁·盖尔归来》,无一不是叙事的杰作。正是由于大数据研究能给历史写作带来一些变化,比如采用量化分析和图示,这就尤其需要以优美可诵的文字来平衡。欧美史学史上曾有一个值得记取的教训:在社会科学向历史学强势渗透之际,历史写作中一度出现所谓“社会科学研究报告体”,以致史学论著变得面目可憎,难以卒读。

06

  归根结底,我们需要进一步强化史家的专业主义意识,尽最大努力来提升我们的专业水准,要让大数据时代出现的新资源、新方法和新手段,在专业主义精神的护卫下发挥其最大效能。自史学完成专业化以来,专业素养、专业知识、专业规范、专业技艺、专业标准和专业伦理成了史学发展的保障。治史以发现、确定和解释事实为基础,并借合乎学理的阐释、有深度的见解和流畅的叙事,来传递关于过去的知识与思想。

 

 

  在个体研究者那里,专业素养和专业知识的构成固然是各不相同的,但卓越的史家有一个共同的特点,即不以专业自限,愿意调动自己读书、思考和研究的全部积累,也即史华慈所说的“整个教育”,来处理哪怕是极为细小的题材。这一点在大数据时代变得尤为重要。在海量的历史资料面前,研究者如何领会、判断和取舍,乃是决定研究的成效和意义的关键。近年来,经常听到一些世界史同行发出这样的感叹:现在的问题不是资料太少,而是资料多得看不完。在资料激增的情况下,选取材料的眼光,解读材料的能力,以及运用材料的技巧,在研究和写作中就能起到更加重要的作用。如何才能具备相应的眼光、能力和技巧?当然离不开史家个人的知识、修养和见识。另外,来自大数据资源的材料,因其量大和庞杂,在发掘、整理和运用时,还需要花更大气力来做考证和辨析。治史在材料上历来讲究“取精用弘”,虽然大数据方法带有克服“取精”“集粹”之弊的倾向,但是面对大量而多样的无法简单归纳的材料,“取精”依然是必由之路。如何从海量资料中选取适用而精当的材料,依然是史家的基本功。而且,由于历史数据不同于以数生成(born digital)的数据,它在从实物载体向数字形式的转化中,可能带有操作人员专业素养和学术理念的印记,这在使用时也是必须考虑的一个参数。

07

  现代史学自进入专业化时代以来,就以“问题”作为研究的引领和轴心,因此有“问题史学”的说法。现在有论者提出,大数据方法的一个突出意义,在于能以“数据驱动”取代“问题驱动”的研究方式,并使历史学从“解释”已有知识跃升至“发现”新知识的境界(梁晨:《量化数据库:“数字人文”推动历史研究之关键》,《江海学刊》2017年第2期,第163页)。当然不可否认,主要用大数据方法所进行的研究,可以沿“数据驱动”的路径展开,并取得有价值的成果。但是,对于那些不以大数据方法为主要工具而仅把大数据作为资料源的课题说,“问题驱动”依然是一种有效的方式。依照治史的常规,要形成一个“好”问题,需要调动“前研究”、史料、学术史、理论和现实关怀等多种因素,并使它们在研究者的智力、思维和专业素养的催化下发生互动,由此造成能够带来创新的突破口。这就是说,单凭大数据难以形成好的问题。例如,有一个叫作“London Lives 1690 to 1800”的数据库,其中包含有240万份文档,可是对一个没有问题引领的研究者来说,在浏览这个数据库时可能会漫无目标,茫然无措;而在一个长期思考18世纪英国普通人日常生活的史家眼里,这样的数据库无异于一个令人欣喜若狂的宝库。由此看来,大数据非但不排斥“问题驱动”的研究方式,还会给“问题史学”带来新的福音,因为海量资料有可能引出更多有意义的问题。

  谈到“问题史学”,不妨再做一点引申。科林伍德曾说,一切历史都是史学史。这个命题固然有具体的语境和含意,但也能启发我们更清晰地界定历史研究的特点。史学作为一门对话的艺术,必须嵌入相应的史学史脉络中,才有可能找到突破的方向。史家面对自己的题材时,首先要想到打算同谁、就什么问题进行对话,在对话中又能提出哪些不与人同的见解。如果没有这样的意识,不做这样的努力,其研究就可能迷失方向,也难以产生很大的意义。因此,具备适当的史学史知识,把握合适的对话方式,将自己的论题和思路嵌入学术史的脉络,乃是形成有意义的问题意识的前提。此外,史家还要重视同相关学科的对话,借助其他学科的“他者”视角来反思自己的专业,并在学科竞争的压力中提升本学科的品质。霍布斯鲍姆曾说,20世纪历史学之所能取得一些进步,“主要是通过历史学和社会科学的相互交融实现的”(埃里克·霍布斯鲍姆著,马俊亚、郭英剑译:《史学家:历史神话的终结者》,上海:上海人民出版社2002年版,第73页)。就此而言,大数据研究不啻为史学同计算机科学和数字技术的对话打开了通道,所描画的前景无疑是鼓舞人心的。

  归根结底,大数据研究不能取代、也不必排斥作为“手工艺”的传统研究方式的长处。在大数据时代,我们若能更好地锤炼史家的看家本领,进一步熟谙史学的“家法”,在研究中就可能“有如神助”,得到意想不到的收获。事实表明,大数据确实改变了具体课题的操作方式:研究工作通常以检索为起点,在收集和解读资料的过程中也基本上依靠检索方法。有前辈史家说,“读书多方可治史学”。如果检索取代读书,消极后果就会接踵而至。读书的好处并不仅限于扩充知识和积累资料,而且还有助于滋养性情,提升品位,并达到不断增进学养的目的。因此,即便在这个大数据时代,对于一个课题的核心史料和代表性文献,仍须以“读书”的方式来处理,即仔细阅读,具体札记,努力领会其字里行间的含义。如果再辅以大数据研究的长处,那就会产生锦上添花的效果。一项研究如果既有整体性的数据分析,又有传统史家那种对关键史料的精细而深刻的解析,无疑是一种求之不得、难能可贵的境界。

08

  布克哈特谈到,“历史学家所从事的工作无非是从历史的角度分析文献”(雅各布· 布克哈特著,金寿福译:《世界历史沉思录》,北京:北京大学出版社2007年版,第205页)。这似乎是“史学即史料学”的另一种讲法。其实,在任何杰出的史家那里,治史的标准和境界都不可能停留在这个层次。举凡出色的历史著述,必定集学识、才情、见地和想象力于一体。布克哈特本人的《意大利文艺复兴时期的文化》便是一例。而且,即便他在讲课时随口说出的句子,也显示了一个杰出史家的出众禀赋:“我们认为某个时代的人或者某个国家的人民幸运,其实,这可能是我们视觉上的一种错误……这就好比我们想象自己处在一个风景优美的地方、一个舒适的居室,好比看到傍晚时分遥远的小屋烟筒中冒出炊烟的时候,我们就联想到小屋的主人所享受的天伦之乐。”(雅各布·布克哈特:《世界历史沉思录》,第240页)这样的例子能提示我们,在大数据时代,学识、才情、眼光和想象力,或许具有更加不可忽视的意义。只有凭借这样的禀赋,我们才能把“数据挖掘”(data mining)所产生的信息,加工和转化为既有意义又有趣味的故事。

 

 

  1979年,霍布斯鲍姆曾提出一个有趣的问题:历史学有进步吗? 他自己回答说,在某种意义上不能说有什么进步,例如,不能说后世的史家必然比前辈更有学问、更有智慧;但在另一种意义上又有进步,例如,20世纪的史家颠覆了传统史学的观念,从描写和叙述转向了分析和说明,从单一的事件转向了规律和推论(埃里克·霍布斯鲍姆:《史学家:历史神话的终结者》,第63~78页)。在当今这个大数据时代,史学在观念、方法和研究条件等方面都在发生既深且广的变化,我们在学问和智慧上能随之跟进从而取得超越前人的成就吗?这个问题的答案,无疑只能来自于我们每个人治史的实绩。

  文章来源:《史学月刊》 2018年第9期 第12页—16页。