查看原文
其他

远读与文学知识——评《远距离视野:数字证据与文学变化》

丹·辛金 DH数字人文 2022-07-17


远读与文学知识—评

《远距离视野:数字证据与文学变化》

丹·辛金[1]


Ted Underwood, Distant Horizons: Digital Evidence and Literary Change. Chicago, London: The University of Chicago Press, 2019.

泰德·安德伍德,《远距离视野:数字证据与文学变化》。芝加哥大学出版社,2019年。



冲突


泰德·安德伍德野心勃勃。在芝加哥大学出版社2019年二月出版的《远距离视野》一书中,他报告说,统计模型中的最新进展提供了“表现和阐释世界的新方法”(p.162)。《远距离视野》用一本书的篇幅论证了应在文学研究中采用这些方法。他用统计模型修订了语言、体裁、声望和性别的文学史。他特别提出,将文学研究划分为不同的历史时期培养了局部见识,却妨碍了有关横跨长时间的文学史知识,而统计模型可令这种知识成为可能。其中涉及的观点有力且充满争议,事关文学语言的独特性和美国大学英语系在宇宙中的位置,他的直截了当令人佩服。最近围绕文学计算分析的热烈讨论根子上的利害关系可在这里找到:英语作为一门学科的未来和知识本身的性质,受到学术界中英语学科的权力份额下降和2008年后世界政治经济秩序的影响。


《远距离视野》的写作充满大家风范。任何关注文学研究的人都应阅读本书,尽管安德伍德因其抱负而意在让本书面向更广泛的受众,“那些想要理解人类历史的人们”(p.162)。这本书清晰易懂,调子精确,令人信服。安德伍德知道,许多计算文学批评——或者用他更喜爱的说法:远读——“都可能陷入过分苛求的泥潭”(p. 150),他在附录中阐述自己的数据和方法,解决了这一障碍。他相信“大规模文学分析的真正挑战并非认知的或伦理的,而是审美的:根本很难以风卷残云之势就数千本书写作”(p. 156)。关于认知和伦理他错了,但就他给自己设立的风卷残云这个挑战而言,他完成得很漂亮。对我来说,这本书令人欲罢不能。



泰德·安德伍德:《远距离视野:数字证据与文学变化》


文化分析工具的批评者往往声称定量工作并未产生——甚至无法产生——有价值的文学研究知识。《远距离视野》应能终结这些批评。安德伍德特意为此目的做了安排。前四章的每一章都对当前学术研究做一种介入,揭示出学术研究中历史分期如何模糊了长期趋势。例如第一章中他问道,小说在其历史上有否从讲述转移到表现?我们有时会听到这个问题。对比亨利·菲尔丁《汤姆·琼斯》中的全知叙述和一部亨利·詹姆斯小说中受限的第三人称叙述,就能轻易看出这点。但是,安德伍德写道,“还完全不清楚之前的19世纪小说是否应理解为在此方向的缓慢进展。全知叙述成就了维多利亚时期小说的独特力量,在如今的后现代元虚构作品和类型小说中也依然重要”(p. 7)。学者如何才能判断实际发生了什么?


为了回答这个问题,安德伍德引进了模型。他简单将模型定义为“变量间关系”(p. 19)这在有关近代大学的思想史方面的研究上,是令人兴奋的进展。安德伍德采用的模型只有一二十年历史,但已经转变了社会科学和自然科学的诸多学科。《远距离视野》是其应用于人文学科的最成熟案例。要理解它,文学评论家需要忘掉之前听说的有关数字人文的许多说法。安德伍德强调,现在是时候对这一工作进行重大框架重整了。他用不着大数据。他没有扩展正典或分析“大量未读作品。”他欣然承认笔记本电脑力量足够,不到一个下午就能运行一个典型程序。和算法标榜的客观性相反,他为了人文研究的目的而利用了人类对计算模型的偏见。


阅读安德伍德第一章的兴奋感部分来自观看他麻利地改变文化分析学的范式。这是从测量到模型的转移。作为对小说叙述长时间线理解的最初把握,安德伍德求助于斯坦福文学实验室早期的一个著名发现。2012年,赖安·霍伊泽尔和朗·勒-柯克发表了一个小册子,表明在1800年到2000年间,物理描述在小说中越来越常见,抽象则越来越少见。乍一看,这种测量似乎让小说从讲述到表现转变这一说法令人信服。但安德伍德仔细地消除了这种模式发现可能提供的任何权威,他尤其提到“翻遍海量证据、寻找有趣内容时,我们冒着选择性使用的风险”(p. 17)。


关键的转变在于一开始就不从文学数据中寻求模型,而是“以阐释性假设起步”并“发明检验这个假设的方式”(p. 17)。安德伍德写道:“我们需要调转研究中的步骤顺序”(p. 17)。而后,他复制了霍伊泽尔和勒-柯克的研究。他添加了传记,“作为对比研究的试金石”(p. 13),并证明霍伊泽尔和勒-柯克揭示的小说的语言倾向对此并无影响。不同寻常的是,他提出假设说:在文学史的漫长区域内,小说偏离了传记。为了检验这一点,他采用了统计模型。


贯穿全书所用的模型是逻辑回归,机器学习的一种形式。一种常见的解释这个模型的方法是以垃圾邮件为例。一个假想的电子邮件提供商训练模型学习区别垃圾邮件和合法邮件,方法是给它加标注的两种邮件的范例,要它学习能借以最可靠地分辨二者的那些特征。这些特征可能包括充斥着全大写或类似“意外之财”或“得到报酬”等短语。提供商测试模型时给它未加标签的电子邮件并让它分辨。如果它大部分时候都能做到,那就是个不错的垃圾邮件过滤器。一旦模型内化了专属一个范畴的模式,从业人员就能测试其他范畴的文本与其有多接近。如果我训练了一个垃圾邮件过滤器,就可以用来自我母校和我母亲的邮件来测试其中一类邮件和垃圾邮件的相似度,采取的角度来自使垃圾邮件和其他内容不同的任何内容。安德伍德把这叫做视角化模型。他用它做各种用途,包括从任意一个体裁的视角来测试不同体裁的相似之处,比如侦探小说和科幻小说。


在这个例子中,安德伍德在加标注的小说和传记上训练模型,让它预测未加标注的文本的种类。对他最有用的不是模型的二元预测,而是其他功能属性中的两个:它展示出任意文本是小说或传记的可能性,将其显示为两者间连续体上的一个百分比;它显示出让它得以辨别二者的那些特征。这两种体裁随着实践分道扬镳,行为动词、身体部位和感官知觉动词成为小说的特征,传记的特征则是政治术语、有组织的信仰体系、抽象概念(p. 25)。安德伍德的结论是“小说在传记(和其他非虚构形式)很少能够提供的方面稳定地专业化起来:精确描述的时空中的身体描述、肢体动作和即刻的感官知觉”(p. 26)。通过模型,他确认了霍伊泽尔和勒-柯克测量的真实性,将其置于更大的语言趋势中与传记相比,发现了小说的独特之处。尽管这一测量揭示的是孤立的事实、能引发猜测,安德伍德的模型使得关于文学史的一种有说服力的论点成为可能。


他巧妙地结束了本章。他回到批评传统,承认“学者们对小说和传记间不断扩大的差距中每个部分都已有了一些解释”(p. 31)。但他提醒读者,占有片段不一定就认出了整体。文化分析学的批评者太经常落入事后诸葛亮的偏见中,想象他们一直就知道分析家刚刚展示的内容。安德伍德仔细审视分析的每一步骤,明确表明我们尚未了解之事,又在本章末尾指出并暴露后见之明的偏见,径直解决了这个问题。其论点的力量是两面的:从长时间线来看,各特定时期的主张变得彼此一致;特定文本的语言行为通过表达或进入争论而以新的方式产生意义,不仅和该时期公认的规范争论、也和数世纪来延伸的趋势争论。本章末了安德伍德暗示了能展示这种力量的一种细读。我希望他写了,但他没有写,这是他对这种做法意见减弱的征象。


第三章令人满意地扩展了第一章,提出了可能的机制。安德伍德发现,史上建立在评介基础上的有威望的判断越来越鼓励人们将文学性理解为“时间上的即时性和具体性”(p. 107)。他将此发现和传统上对文学史的叙述相比,后者强调对比和革命。在亨利·詹姆斯的序言中或在艾兹拉·庞德的宣言中,文学批评家已经发现了断裂,其中盛行的文学价值观发生了戏剧性变化。但安德伍德利用机器学习表明这不是文学史起作用的方式。相反,视角化模型显示,文学史遵循一个积累过程,他称之为“更是如此”(p. 107)逻辑。“‘更是如此’这个逻辑,”他写道:“解释了每一次赚到钱的单次真实重启(gritty reboot)如何让我们注定要有一长串越来越真实的重启。”【译注:gritty reboot指的是更为现实、逼真地重新制作系列电影、以符合成年观众口味,此处的“真实”带有现实得令人不快的涵义。如《蝙蝠侠》系列等。】 “但是,”他又说,“高级文学形式的文学史家忽视了这种势头”(p. 107),就像我们得到越来越真实的重启那样,文学的声望经济中的刺激给了我们小说,由于其与众不同的语言,小说和传记的差异越来越大,而我们逐渐将这样的语言确认为文学性。


泰德·安德伍德(Ted Underwood)


被追问时,安德伍德关于历史分期的论证显出裂缝。他写道,“过去六七十年,我们假定只有当文学史关于冲突的故事时,才可能有趣且有启发”(p. 106)。这个我们是谁?我认为符合这一描述的文学评论家很少,有两个原因:“才可能有趣”忽略了许多并不依赖冲突叙事的学术工作;另外它低估了反讽的可能性,我们让自己与历史分期保持试探性距离,我们拿它当特洛伊木马用,一旦进入其中我们也许能发现许多有趣、有启发的内容,超过允许我们进入其中的那些学科规范。他对历史分期的评价延续了前一本书《为何文学时期很重要》的阐述,他在那本书中表明文学分期的兴起最初是一种让中产阶级维护文化权威的方式,后来是文学研究维护文化权威的方式。阿曼达·安德森在另一篇本来是热情洋溢的评论文章里提到安德伍德让论证的需求导向了他对那些不那么强调中断的思想流派的忽视,例如马克思主义,另外在她看来,中断“并不像他说的那么普遍和具决定性”(p. 136)。在《远距离视野》中,中断在安德伍德眼中的用处导致了对它的夸大。


安德伍德反对文学史冲突模型的论证中还有一种未明言的张力。冲突模型——我们以为事情是这样但它们其实是那样——也是他的模型,如果从文学史传递到文学批评史的话。他经常背离它(冲突模型)、用他的发现去综合现存学术研究,而这些都是本书最佳段落,但他自己对冲突模型的使用是导致他夸大分期对文学史影响的原因之一。他写道:“冲突确实能讲个好故事”(p. 107)。



文学性


笪章难在《计算实例反对计算文学研究》中提到,在文化分析学的“数据工作”中,“要决定哪些词语或标点要计数、如何表现这些计数。就这些。”[2]她提到这一点是作为批判。她认为用电脑给词语计数无法提供必要的细微之处来解释文学的复杂性。在她的叙述中,尝试这么做的学者注定失败,包括安德鲁·派博和泰德·安德伍德。


安德伍德为词语计数的力量辩护。他的视角化模型只需依靠词语计数便可区分文本类型。“不熟悉这种方法的读者”,他写道:“经常为了仅仅通过词频来表现文学作品这种做法表面的单纯而感到困惑不安”(p. 21)。他有两条论证对此反驳:在学术研究中,“基于词频的模型在预测人类读者[关于如何分类文本]的判断时和更为复杂的方法一样[成功]” (p. 21);另外,“体裁在诸多不同层面上被冗余地表现”(p. 42)包括词语计数。第一条很可靠。第二条也不可不加考虑,而笪章难希望读者不用考虑这条,——但也无法像安德伍德有时候认为的那么牢靠。安德伍德好几次暗示词语计数捕捉了——对应于——定义体裁的其他模式,包括风格(p. 42, p. 52, p. 58, p. 89)。但是他很大程度上将这个问题交由他人决定,包括安德鲁·派博和他在《列举》中的说法。反过来,派博又指向计算语言学和自然语言处理中的规范语言哲学:分布语义学,苔丝在她的评论中对此有讨论。[3]分布语义学和文化分析学的相遇对我来说既充满可能性又远远未充分研究。


但《远距离视野》基本不取决于词语计数是否与风格相关。这本书的一个成就在于表明了词语计数在视角化模型方面的力量。安德伍德以此为基础做出的结论基本上有说服力。再想想他的第一章。他用词语计数为随时间出现的小说与传记间的差异制作模型。他的模型借以权衡每个词的基础在于它对于区分这二者有多少帮助。他用一个词汇表(“行为动词”、“身体部位”、“政治术语”)将词语分组为语义范畴并计算各自权重,这让他对这两种体裁间大规模的一般性话语差异有细微的感知。安德伍德承认这有点简略,但也展示了他提到的它揭示的内容:在漫长的小说历史中之前不为人知的趋势。我在别处也写到过,他在第四章中以更精彩的方式用了同样的方法,其中就有和大卫·班蒙、萨宾娜·李的合作研究,揭示了作者如何就性别写作的历史。他的模型很容易区别1850年的角色男女性别,但这种二元属性越来越不清晰,直至当下,同时倾向于性别的聚合或模糊或增加。安德伍德追踪了个体词汇如何对这种性别化做出贡献。例如,19世纪时“露齿一笑”(grinned)和“微笑”(smiled)意思中性,但到了1950年变得两极分化——“露齿一笑”意味着男性、“微笑”则是女性——但到了2000年才重回中性。“眼睛”(eyes)和“头发”(hair)在1800年是中性的,时间过去却变得女性化——而“口袋”(pocket)则变得男性化。而“阅读”一直都是中性的。


这样的论辩为文化分析学做了有力辩护,显示出模型建造能如何挑战或促进批判的本能。《远距离视野》解决了文化分析学对文学研究是否有用的问题。但是笪章难的论文以及它所吸引的关注揭示出学科内关于在紧缩时代文学研究应该做什么这个问题上分歧有多严重。


安德伍德预料到他的方法和笪章难的观点容易引发争吵,他用最后一章为作为学科实践的远读辩护。考虑到这场争论的性质,许多观察者也许会惊讶地了解到笪章难和安德伍德的意见有许多一致之处。安德伍德不喜欢“技术崇拜”,对“大数据”也保持怀疑。[4]他和笪章难一样,批评文学评论家天真地运用主题建模和网络图表。[5]他和笪章难一样,坚持认为“研究者应该分享代码、报告效应值并测量可能的不确定之处。”[6]他们彼此一致的范围表明我们已经抵达了争论的新阶段,不再那么涉及计算的能力或文化分析学是否能有所贡献,更多的是关于建立模型和统计方法的含义和作用。这样,笪章难因为确认了安德伍德提倡的重构正在顺利展开而推进了这个领域。


笪章难(Nan Z. Da)


尽管他们有一致之处,笪章难和安德伍德也确实站在一项重要分歧的两端。对于文化分析学是否适合文学分析,他们意见不同,而且这一分歧来自根本上互不相容的文学观念本身。笪章难认为计算方法无法评估文学细微的复杂性。她的专著《不可传递的相遇》讲述了陌生而遭误解的跨太平洋文学互动,她在书中关注了“文学独特的形式或修辞或逻辑”。[7] 文学独特的功能属性立于其视野的核心处。她认为远读无法辨识或阐明她所研究的短暂的中美交流。[8]2018年12月,笪章难和加州大学洛杉矶分校的阿纳海德·内西西安扩展了这个学科观点,在芝加哥大学出版社发布了系列丛书《思考文学》,专注于“改进作为推理模式的文学批评”,将“解释的艺术当作独特的研究种类”。[9] 在其他地方,内西西安还复活了克林斯·布鲁克斯的观点,提出将文学定义为无法充分释义的事物,文学是“行动而不示意” 的艺术品。[10]她认为,文学提供了有关“修辞格或修辞手段”的“否定的或延期的知识”。[11] 另外,内西西安和耶鲁大学的乔纳森·卡拉姆尼克为作为文学研究概念的“形式”的特异性做了辩护,它“无歉意也不妥协地服务于文学的学科性。”[12]对克拉姆尼克而言,尊重文学研究的自治性——“其学科阅读实践及相关形式、风格或体裁的词汇,以及涉及关注、严谨、历史背景等等的相关规范”——来自更基本的多元主义,一种“对世界多样性的尊重”。[13]


这些就是安德伍德在最后一章里讨论的观点,指出这是远读的一个对立来源。他确定它们属于更悠久的文学史,尊崇独特细节而非概括,大概随着浪漫主义出现,直至新批评和新历史主义。他直接反对在方法论之间划一道“理想化的边界”(p. 150)。他写道:“我们发明了关于某种知识形式的理论,只有文学批评家才能接触——因为惟有我们在照料语言的微妙、思想的本质吊诡、或人类多样性的伦理后果”(p. 148)。在他看来,“定义[文学研究的]独特性的坦诚方式是说出我们拥有关注有趣或令人愉快之物的特权”(p. 148)。这一点上他很坚定:“我只愿意通过直截了当强调文学的趣味和乐趣,将文学史同社会科学分开”(p. 150)。安德伍德通常都宽厚面对对话者,此时他跌入少见的严苛时刻,写道:“为文学研究自治性辩护的论点是为不关心做辩解”(p. 150)。很奇怪看到他在用这本书展示了文学研究的独特力量之后,又这么摒弃了它。


文学知识在多元论世界中是独特的还是同万物相连?双方都有夸张。文学既非严格自治于其他类型的语言,也非断然与其同构。安德伍德表明了文学性如何是历史的偶然、如何依赖于特权的社会学、如何与传记区分并成为自身。但文学评论发展了特别的方法处理修辞格、修辞手段、形式、风格、体裁——语言的微妙之处。这些方法需要经年的大量实践方能掌握,就像我记得每次我教授文学研究入门时都发现本来很聪明的学生并不觉得细读是凭直觉的。


双方都表达了摒弃,还鼓励了认为文学分析学同文学研究实践不相容的错误想法。这就是为何我认为安德伍德细读的缺乏令人失望。他在《远距离视野》中所做的一切都为新鲜而有潜力令人惊艳的细读铺好了路,能展示计算分析在阐释文本中看不见的细微差别、复杂性、微妙之处和利害关系方面的能力。例如他顺带提到,他的科幻小说模型错误地将托马斯·品钦的《拍卖第四十九批》分类到自己这边。学者们传统上也很有理由地将品钦的小说看作对侦探小说的恶搞。但根据安德伍德的模型,令科幻小说与众不同的是一种粗略的崇高感。“这个模型认为的同科幻小说传统有关的内容可能并不是品钦明面上对熵的关注,”他写道,“而是他对大众社会的规模本身偏执着迷”(p. 59)。随后本来可以是一段让人头晕眼花而又愉快的解读,有机会促进我们对这本小说、这个体裁、以及词语计数变为纸页上的风格的方式的理解。但安德伍德匆匆走开。错失能证明评论家错了的机会。



现实主义


安德伍德很现实。考虑到学习定量方法所包含的挑战,“如果今后十年哪怕有2%的文学学者愿意投身这项任务”,他“都会很惊讶”(p. 145)。他相信,如果我们承认“如今数字在人文学科中着实边缘的地位,就这个话题大量辩论会很可笑”(p. 145)。我同意。围绕这些方法的争斗是象征性的,是个替代物,为了争论我们珍视之物以及我们对身为学者所做之事的看法。从争辩往后退一步,这场争斗看起来像是浪费精力。莎拉·布洛莱特认为英语系的命运不取决于这场斗争的结果。更宏大的力量正参与其中。


文化分析学在学科中的位置非常小。其方法不仅和笪章难、克拉姆尼克和内西西安提倡的完全兼容,和文学批评家支配的所有领域都兼容。它和任何其他方法一样,也可能被糟糕地使用。安德伍德通过《远距离视野》已经表明,这个方法能够被出色地运用,教我们一些与文学语言、体裁、特权及性别有关的事。对于任何对文化分析学如何看待文学感兴趣的人,安德伍德搭好了舞台让伟大的工作到来。

(原载于《山东社会科学》2019年第8期)

责任编辑  |  陆晓芳

向上滑动 查看注释:

版权说明:此处的两篇书评摘自耶鲁大学一个叫做“Post45”的研究团队的网站上(post45.research.yale.edu)。2019年五月份,该网站发表了由丹·辛金(本文中书评作者之一)主持的“Cultural Analytics Now”学术专栏。这两篇书评为此专栏的一部分。感谢“Post45”及丹·辛金授予中文版权。

[1]丹·辛金(Dan Sinykin),美国圣母大学(University of Notre Dame)数字人文博士后研究人员。从2019年秋天起他将担任埃默里大学(Emory University)的助理英语教授。

[2]Nan Z. Da, "The Computational Case Against Computational Literary Studies," Critical Inquiry 45, no. 3 (2019): 606.

[3]此处指的是苔丝·麦克纳尔迪对安德鲁·派博出版于2018年的著作《计算:数据与文学研究》的书评,见本文的第二部分。译者注。

[4][5][6]同上,pp.158-159; p.158, p. 164; p.181

[7][8]Nan Z. Da, Intransitive Encounters: Sino-U.S. Literatures and the Limits of Exchange (New York: Columbia University Press, 2018): 2; 26-31.

[9]“Thinking Literature," series ed. Nan Z. Da and Anahid Nersessian, University of Chicago Press.

[10][11]Anahid Nersessian, "Literary Agnotology," ELH 84, no. 2 (2017): 341; 342.

[12]Jonathan Kramnick and Anahid Nersessian, "Form and Explanation," Critical Inquiry 43, no. 3 (2017): 39

[13]Jonathan Kramnick, "The Interdisciplinary Delusion," Chronicle of Higher Education, October 11, 2018.

作者简介


Dan

丹·辛金(Dan Sinykin),美国圣母大学(University of Notre Dame)数字人文博士后研究人员。从2019年秋天起他将担任埃默里大学(Emory University)的英语系助理教授。

译者简介


汪 蘅

汪 蘅,毕业于北京大学英文系,现为自由译者。





《数字人文》2020年第2期目录


大数据技术与古代文学经典文本分析研究


数字人文知识生产转型过程中的困境与突围


天象模拟在古代文学研究中的运用 — 以 Stellarium软件为例


隋唐至宋时期精英社会网络动力学的演化研究


通往思辨的基础设施研究




校对  |  肖爽

美编  |  李倩






转载请联系授权

    投稿邮箱:

dh2020@tsinghua.edu.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存