查看原文
其他

正典/档案:文学场域大型动力学

马克·阿尔吉 等 DH数字人文 2022-07-17


正典/档案:

文学场域大型动力学[1]

[美]马克·阿尔吉—休伊特  

[美]莎拉·阿里森  [德]玛丽莎·杰玛  

[美]莱恩·霍伊舍  [美]弗朗哥·莫雷蒂  

[美]汉娜·瓦尔塞 撰   汪蘅 译






一、社会学指标

(Sociological Metrics)







1. 嫁妆与蔬菜


文学研究数字化所引进的新事物中,档案规模也许最具戏剧性:以前我们研究一两百本19世纪小说,现在我们能够分析数千本、数万本,以后会有数十万本。对于量化文学史而言这是狂喜的时刻:就像拥有了一部望远镜,能让你看到全新星系。这也是真理的时刻:这样一来,数字化天空是否揭示了什么,改变了我们对文学的认识?


这并非修辞性反问。费尔南·布罗代尔(Fernand Braudel)在其1958年的著名论文中欢呼“计量史学的降临”将“打破19世纪史学的传统形式,”他提到“人口进程,薪酬变动,利率变化[……]生产率[……]货币供求”,都是计量史学的典型材料。[2]显然这些都是可量化项目;同立法、军事战役、政治内阁、外交等方面的研究相比,也是全新的研究目标。正是这一双重转移改变了史学实践;不仅是量化本身。但是我们这里并没有材料的转移:最终可能会研究20万本小说,而不是200本;但依然是小说。新意何在?


199,000本从没研究过的书——这是标准答案——怎么可能没有新意?这是文学史的全新维度。


“我们更了解人们出于声望的原因交换货物,而不太了解那些每天都在进行的交换,”在布罗代尔的论文发表几年后,安德烈·勒鲁瓦—古昂(André Leroi-Gourham)在《手势与言语》(Gesture and Speech)一书中写道:“更了解嫁妆钱的流转而不太了解蔬菜的销售……”[3] 嫁妆与蔬菜:完美对照。二者都很重要,但原因相反:嫁妆重要,因为一生只有一次;蔬菜重要,因为我们每天都吃。乍一看,这同200本和20万本小说极其相似。但只要深入看待这件事,复杂性就浮现了。例如1814年出版的两本历史小说:沃尔特·司各特(Walter Scott)的《威弗莱》(Waverley)和詹姆斯·布鲁尔(James Brewer)的《英格兰的菲尔迪南爵士》(Sir Ferdinand of England)。人们本能地把《威弗莱》同嫁妆的显赫联系起来,把菲尔迪南爵士同不起眼的角色菊苣联系起来。事实上司各特的小说既是形式上的伟大突破,也是欧洲人人都看的书:嫁妆和蔬菜,合二为一。但如果是这样,数字档案中那些菲尔迪南爵士又能有何不同?过去我们对其一无所知,现在有所了解。不错。这有什么要紧吗?[4]


我们用自己的一项研究发现来阐明问题:莱恩·霍伊舍(Ryan Heuser,本文作者之一)和龙莱克(Long Le-Khac)在《2958本19世纪英国小说的计量文学史:语义群方法》(“A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method”)(图1.1)中描述了“抽象价值”——“谦逊”、“尊重”、“德行”等词语——语义场的衰落。2958这个一丝不苟的数字表明,霍伊舍和莱克认为档案的宽度是其研究的关键。如果他们研究的是更狭窄陈旧的正典,结论会否不同?图1.2提供了答案。不会。正典比档案先出现15-20年;但历史轨迹一样。




这并不意味着新档案没有新信息;而是意味着我们仍要学习提出正确的问题。但在此之前,有些情况需要澄清。正典与档案:这两个词是什么意思?


2. 档案偏差(Bias in the Archive)


我们从三个基本概念开始:出版物(the published),档案(archive),语料库(corpus)。第一个很简单:所有已出版书籍的总和(已上演的喜剧,已背诵的诗歌,诸如此类)。这些已经“公开”的文献是一切量化工作的基本范围(虽然其边界肯定是模糊的,可以包括已经写就但仍放在抽屉里的书,或者被出版商拒绝的书,等等)。档案则是出版文献中保存在图书馆等地的部分,正越来越数字化。语料库是出于某种原因从档案中选出的部分,供具体研究项目使用。因此语料库小于档案,档案小于出版物:就像三个俄罗斯套娃,依次套好。但有了数字技术,这三个层面间的关系变了:一个项目的语料库现在(几乎)可以轻易和档案一样大,而档案本身也变得——至少在当代——(几乎)和所有出版文献一样大。当我们使用“档案”这个词时,想到的正是这种三个层面合而为一的潜力;借用《年鉴杂志》的表达法,融合为“完全文学史”(total history of literature),以前这只是幻想,现在可能很快就会实现。


这是理论上。实际没那么简单。以本项目为例,最初语料库包含约4000本1750年到1880年间的英国小说;18世纪的作品来自ECCO;19世纪作品来自查德威克—希利公司(Chadwyck-Healey)的十九世纪小说(Nineteenth Century Fiction)语料库以及伊利诺伊大学互联网档案(Internet Archive of the University of Illinois)。[5]以旧的文学史标准看,4000本小说是很大的语料库了;但实际涵盖的内容却很不均衡。例如1770-1830这个阶段,我们有雷文—加赛德—薛维灵(Raven-Garside-Schöwerling)书目(译注:即牛津大学出版社The English Novel 1770-1829, A Bibliographical Survey of Prose Fiction Published in the British Isles)大约三分之一条目;但19世纪晚期阶段的百分比低得多,只有约10%。不同作品类型情况也不同:我们有阿伯格姆(Adburgham)银匙小说书目的96%,但只有加拉赫(Gallagher)工业小说的77%,史蒂文斯(Stevens)的司各特之前历史小说的53%,和佩拉齐尼(Perazzini)哥特书目的35%。[6]


很明显,这些统计学领域不易把握。和少数公认经典的文本相比,我们的190本哥特小说数量很大了,因此很容易受到诱惑,要将其简单(tout court)等同于档案;但它们是否真能代表整个英国哥特风格的“总体”(population)?几乎肯定不能;简单说,从特定总体中随机挑选的样本是有代表性的;但这190本小说肯定不是这样挑选出来的。这些书基本上来自少数几个大图书馆,而图书馆买书不是为了拥有代表性样本;它们想要自己认为值得保存的书籍。好书。好的标准则很可能和形成正典的标准相似。虽然我们的语料库比传统正典大20倍,但其挑选标准完全可能让语料库整体上更像正典,而不像档案。这是个问题。[7]


我们希望结果可靠,因此生成了一个本领域随机样本以供研究:简单选取507本1750年到1836年间的小说,82本哥特小说,85本司各特前的历史小说。[8]一共674本小说。在数字年代这用不了多久。


2014年6月学年结束时生成了样本,接着去自己的数据库中寻找,在雷—加赛德书目中找到了82本哥特小说中的35本,85本历史小说中的35本,以及507本小说中的145本。7月初,我们将尚未找到的约460本书目名单交给斯坦福图书馆的格伦·沃尔塞(Glen Worthey)和丽贝卡·温菲尔德(Rebecca Wingfield),他们迅速将其分解为几个大包。HathiTrust数字图书馆和Gale数据库(其中的NCCO 和ECCOII)拥有约300种(差不多每家各半)。[9]另有30种则收入文集中,或以不同版本存在,或隐藏在略有不同的标题后,或在微缩胶片里,不一而足。大约100种只有印刷本,有10种小说没有存世版本。8月,我们向Hathi 和Gale发出请求,希望获取他们那300本书。斯坦福同这两家机构都有长期财政协议。只有印刷版本的那100本小说中,大约一半由大英图书馆收藏,几个月前该馆已经从其馆藏中好意提供了65,000册数字图书给文学实验室;不幸的是要找的书全都不在。加州大学洛杉矶分校(UCLA)和哈佛的特藏有其中的50种左右。他们发来一系列报价,根据原版图书的状况以及可能极费人力的拍照要求,每本书收费1,000美元到20,000美元不等,价格相当合理。最后,有6本书由欧美论文全文数据库(ProQuest)收藏,尽管他们慷慨给出半价,还是可能花费我们每本书147,000美元或者25,000美元。[10]


记住:这一搜寻过程包括了位于伦敦、剑桥、洛杉矶以及——当然——斯坦福在内的许多优秀图书馆;出动了文学实验室6位研究人员以及Hathi和Gale等地的人员。我们寻找的图书仅仅两百年历史,印数至少750到1000本,而且位于当时已经拥有有效图书馆的地区。文学实验室也有一些研究资金(不过别弄错,不是那种钱)。换句话说,不能指望更好的资源了。但仍然费时6个月才收到Hathi和Gale的文本,这些文本本来应该让随机样本从最初的30%增进到70-80%,[11]这一数字很可能会让许多研究结果变得可疑,因为几乎能肯定,缺失的那20-30%距离能想到的所有正典化(canonization)形式都最为遥远。


显然,要说数字化让一切变得唾手可得且廉价——还别说“免费”——就是个神话。我们一点点认识到这一事实,决定从已有的语料库挑选材料,开始工作:一个包含1,117部著作的数据库,其中263部来自查德威克—希利,854部来自不同档案来源。最初的结果将我们迅速引到一个方向;新发现增添了新势头;等到(近乎)随机的样本(几乎)都收集到手,研究工作已十分深入,无法再从零开始。我们呈现的并非理想的研究模式,同时也认识到之前的决定导致研究结果偏弱。但集体作品有其自身的临时性,尤其是在某种“组织间隙”式(interstitial)的制度空间中进行的研究,而我们的空间依然如此:等待数月研究才开始,这能毁掉任何项目。也许以后我们会提前一年派出一名侦察员寻找样本。或者继续拿手头的资料研究,承认资料的局限和缺陷。脏手胜过空手(Dirty hands are better than empty)。


3. 从正典到文学场域(From the Canon to the Literary Field)


如果选择档案是由历史上的图书馆实践决定的(哪些小说上架?哪些容易数字化?),那么选择正典就事关批判性判断——虽然并非由我们自己判断。本项目中我们最先求助的正典是查德威克—希利十九世纪小说集(Nineteenth-Century Fiction Collection),由丹尼·卡林(Danny Karlin)和汤姆·基默尔(Tom Keymer)二人编辑部设计,[12]包含约250本小说,入选原因是其特别值得珍藏,对学者尤为可贵,各图书馆会愿意付费获取电子版本。


十九世纪小说集选编于20世纪90年代,其后有新小说加入。推广材料宣称本选集“代表了维多利亚时代经典的伟大成就,反映了这一时期的标志性作品,”同时还覆盖了“许多被人忽略或不为人知的作品,其中多已绝版或难以寻觅。”例如从1794年起,选集包括了安·拉德克里夫(Ann Radcliffe)的《尤多尔佛之谜》(Mysteries of Udolpho)和威廉·戈德温(William Godwin)的《凯莱布·威廉斯》(Caleb Williams),也有简·奥斯汀(Jane Austen)的《苏珊太太》(Lady Susan)(这本很短的小说很可能写于那段时期前后,但出版于作者身后的1871年)和托马斯·霍尔克罗夫特(Thomas Holcroft)不同凡响的《休·特雷弗历险记》(Adventures of Hugh Trevor)。前面两本入选顺理成章,另外两本理由则不太明显。看起来,选择250个文本为评论上和历史上不怎么重要、不为人所知的小说留下了空间:不只是奥斯汀的六部主要作品,还包括《苏珊太太》;不只是戈德温,还有霍尔克罗夫特。只要我们认为“正典”意味着精选出相对较少的经典化文本以做精细研究,那么查德威克—希利作为当今研究者可即时进入的大型可检索文集[13]就不算是糟糕的代理。


但仍然是代理。我们认识到,对于正典这样多面且难以捉摸的概念,依赖单一来源是对这一概念的误解。马克·阿尔吉—休伊特(Mark Algee-Hewitt,本文作者之一)和马克·麦克格尔(Mark McGurl)撰写的《正典与语料库之间:六种视角看二十世纪小说》(“Between Canon and Corpus: Six Perspectives on 20th-Cen­tury Novels”)(文学实验室手册第8期,2015)谈到了类似问题,列出了差异很大的群体选出的几种“20世纪最佳小说”名单,分析了其间不同的接近程度。我们路径不同,并被这一路径从查德威克—希利的简短书目引到两份很长的作者名单上:《英国人物传记辞典》(Dictionary of National Biography, DNB)中提及的书,以及MLA资料库索引中收录的20世纪学术文章的“基本科目作者”(primary subject author)名单。在一个横向项目中,我们还添加了最近30年斯坦福博士考试列表里包括的文本。这么做既不是在寻找正典的“正确”定义(以上都不是正典定义),也没有指望DNB、MLA和斯坦福会彼此认可(他们也没这么做)。[14]相反,不同的测量方式意在复制正典这个观念的多重位面:国家文化(DNB)以一种方式下定义,国际学术界(MLA)的定义有所不同;正典可以看作是一系列人物(DNB和MLA),或是文本集(博士列表)。具体的选择依然可疑——当然了!——但我们遵循的标准多样、明确、可测量。这就是新意。


我们也认识到,小说场域的其他特性(feature)也可以进入等式。例如,雷文和加赛德在自己编辑的目录列出了1770年到1830年间在英伦三岛重印过或者译成法语和德语的小说;将来的研究也可以设想类似的数据——从印数(print run)到流通图书馆存本数及其他。这种情况下,标准也是多样、明确且可测量的,但和DNB和MLA有较大差异。重印和翻译测量的是小说通过文学市场机制对“普通”读者的吸引力,DNB和MLA则聚焦“专业”读者和高等教育机构。一个测量的是小说的“流行”,另一个测量的是其“声望”。[15]


流行和声望。项目研究带着这对概念进入了和布尔迪厄开创性的法国文学场域图表相同的地带(图3.1)。将流行数据放在横轴(经济效益高/低),声望数据沿着纵轴(神圣化高/低),就能提供一幅布尔迪厄图表的“英国”版本。目前仅仅涵盖了一种文学类型和数十年范围;但到此时,实证的(empirical)文学场域绘图法不再是白日梦(图3.2)。




在图3.2中,所有数字都被沃尔特·司各特不可思议的分数比下去了:只有两位小说家在声望轴上略微高过他(歌德和奥斯汀),而论流行,他一骑绝尘。流行轴上紧随其后的作家托马斯·戴(Thomas Day)是卢梭式畅销书《桑德福和莫顿的历史》(The His­tory of Sandford and Merton)(1789)的作者,在司各特下7个标准方差。[16]不过,一旦把“《威弗莱》的作者”不合比例的结果从图表中移除,英国小说的三分格局就十分清楚了(图3.3)。



我们从靠近水平轴的那一组开始看:流行分值高的作家——均值以上5,8,10,13个标准方差——声望值却相当低,至多一两个标准方差,通常只有一个或更少。包括麦肯齐(MacKenzie)的感伤作品《多情的人》(Man of Feeling)以及戴的教育性畅销书;常带感伤情绪的哥特作品:拉德克里夫(Radcliffe),里弗(Reeve),罗奇(Roch),赫尔默(Helme),马丘林(Maturin);雅各宾(Jacobin)及反雅各宾(anti-Jacobin)小说:夏洛特·斯密斯(Charlotte Smith),欧佩(Opi);民族传奇(national tales):埃齐沃思(Edgeworth),摩根(Morgan);以及历史小说的新霸权形式:高尔特(Galt),让利斯(Genlis),贺拉斯·史密斯(Horace Smith),波特(Por­ter),库珀(Cooper)。在所有文类的意义上说,可称之为类型空间。“这部”小说就像拥有各种独特形式的家族般展开,其易于辨认的习俗(conventions)铺平了通往市场成功之路。《威弗莱》开头一章全是各种头衔典故,就是此种情况的典型症状。


从这一区域“朝上”移动到图表中央,就进入了非常困难的领域。如果谁能理由充分地直接说:“这里就是正典”,那必然如此了:笛福(Defoe),理查森(Richardson),菲尔丁(Fielding),斯特恩(Sterne),戈德斯密(Goldsmith),斯摩莱特(Smollett),伯尼(Burney),戈德温……都聚集在完美平衡的区域里(比流行均值高4-7个标准方差,比声望均值高3-8个标准方差),在这里,公式化小说的广大读者和高雅文化的认可无缝连接。看着这片中央区域,你就“看到”了正典形成的过程,即两种同时发生的过程的结合:流行值随着时间过去沿着水平轴缓慢缩水——在这方面,大多数18世纪的巨人都远远低于罗奇、波特、夏洛特·斯密斯和欧佩)——但声望值则沿着纵轴上升。[17]很明显,成为经典作家的道路不止一条,[18]但图表的主要内涵在于正典并非布尔迪厄的自治(autonomous)文学场域公式的“经济世界的调转”(the economic world reversed);正典——至少这个正典——作者最初成功后过了两三代人,其商业出版商依然期待盈利。声望这方面也不见得与流行度相对立;此处看来反而是从流行中获得的声望,从经济回报中“提取”出更无形但更持久的事物。[19]


图3.3“高声望”区域情况则不同,明显由外国作家(塞万提斯,伏尔泰,狄德罗,卢梭,歌德,席勒,雨果……)主宰,或者那些虽然写过至少一部、甚至好几部小说,却很难被看作“职业”小说家的英国作者。其中有百科全书式的人物塞缪尔·约翰逊(Samuel Johnson)以及差不多同样多才多艺的贺拉斯·沃波尔(Horace Walpole);诗人,例如波西·雪莱(Percy Shelley),以及稍往下一些的托马斯·“安那克里昂”·摩尔(Thomas “Anacreon” Moor)以及詹姆斯·霍格(James Hogg);身兼小说家及政治家的迪斯累利(Disraeli)和纯粹的政治家罗素爵士(Lord Russell),他在1822年出版了不可思议的《阿罗卡的修女》(Nun of Arrouca);散文家,如詹姆斯·鲍斯韦尔(James Boswell)和查尔斯·兰姆(Charles Lamb)。声望值更低一些的区域有音乐家兼剧作家查尔斯·迪布丁(Charles Dibdin),剧作家兼演员夏洛特·西波尔·查尔凯(Charlotte Cibber Chalke),经济学家兼游记作家亚瑟·杨(Aurhur Young)。在少数纯粹的小说家当中,政治的影响特别有力:除了罗素和迪斯累利,还有《千禧圣殿》(Millennium Hall)和《戴斯蒙》(Desmond)的作者才女莎拉·司各特(Sarah Scott),玛丽·雪莱(Mary Shelley)和汉娜·莫尔(Hannah More)——她的小说《卡勒布寻妻记》(Coelebs in Search of a Wife)据说是维多利亚女王唯一完全赞同的小说。


有了声望/流行图,本项目的第一部分自然得出结论。和最初的意向相反,我们远远没有形成档案,[20]但对正典概念的操作化(operationalization)既令人惊讶也让人满意:它将正典概念落到实处,将其还原为更简单的流行和声望因素——或者更直白地说,市场和学校的因素。这些新坐标中,正典依然可见,但失去了概念自治(conceptual autonomy),成了相反力量遭遇的偶然结果(contingent outcome)。如果想要更多地了解正典,这些力量值得进一步研究。[21]未来的研究可以轻易地将印数和流通图书馆存本数加入流行指标,将课本选段或者非虚构档案中的记载加入声望指标。[22]每增加一项,就能更好地理解正典的复合性——对其历史本质也会更了解。1770-1830年间的正典(我们猜测之后七八十年内也是一样)是欧洲资产阶级幸福时代的产物,当时,必不可少的成功和教育还被看作是互相兼容的,对于资产阶级这个历史上首次在学校和市场都如鱼得水的统治阶级也是合适的。让这些19世纪正典的双重本质直觉“可见”,就是这些初始部分的成果。[23]






二、形态学特征(Morphological Features)







4. 测量冗余(Measuring redundancy)


以上图表与布尔迪厄的图表有诸多不同,但与他的主要方法论前提亦有相同之处:其基础是社会学而非文学的。[24]要制作图3.3,不需要翻开哪怕一本小说。但作为文学史家,我们想要翻开小说,看其社会命运——流行,声望,都有或都无……——是否与其形态学特征有关联。因此,在制作文学场域图表时,我们也关注了查德威克—希利以及更大档案样本的内部结构。第一步包括测量语料库的冗余量和信息量。有个广为接受的观点认为读者更喜欢信息丰富的文本,不喜欢冗长文本,所以前者会持续重印而后者注定消亡,我们想要验证这个观点。马克·阿尔吉—休伊特从信息论里得到线索,改进了香农的信息负荷测量(Shannon’s measure of information load),通过评估词对词转换(word-to-word transition)的可预见性来确定文本的信息内容,并在给定可能的转换范围后,以此测量了“二阶冗余”(second order redundancy)(单词层面上的可预测性)。例如,既然“the”跟在“of”后面的情况远远多于“no”在“of”后面,那么“of no”这个组合就难以预料得多,因此比“of the”更有信息量。[25]图4.1和4.2总结了阿尔吉—休伊特的研究。




图4.2尤为令人震惊:查德威克—希利文集四分之三的内容要比档案四分之三内容更少冗余,这是比预计中强得多的分离(separation)。不过我们并不完全满意。对比很清楚,但只是确认了常见观点:被遗忘的作者语言更冗余;如果一直没人读他们的作品,那说明他们不值得读。反过来说,我们依然喜欢读奥斯汀,因为她是信息的典范,细看图4.3就完全清楚。


并不令人兴奋,只是确认了一个常见观点。[26]接着,第二个问题。虽然阿尔吉—休伊特使冗余概念变得可操作(operationalized),产生了令人震惊的量化结果,但仍然不清楚我们能够如何拆解全部数值、如何看待结果,明确哪些具体的词组持续重现,——或从未重现。我们成功地测量了冗余,但还不能真正分析它:从项目开始时起,定量测量和定性阐释之间的相互作用(interplay)就是研究工作的一个常量,而现在它出现了令人不安的背离(departure)。此处统计学上的显著性似乎无法得出评论上的意义:从语料库的每本小说中都抽出了100个最常见的二元词组(bigram),形成了包含超过10万个单元的电子表格“文本”,不可能“读取”(图4.4)。有个更技术性的方法:追踪最常见结构的衰减曲线,但同样得不到结论。很常见的二元词组(“there is”, “I am”, “to the”)在所有文本中的频率非常相似,只有在曲线末端才有细微的变化痕迹。另外,每本小说的二元语言模型如此之多,其效果是通过数量巨大而极其微小的变化显示出来的:例如,在66,500个词的较短文本中,有66,499个二元词组,其中约40,000个从未重复出现。虽然两个文本共享的词语相当多——至少3000到4000个——但共享的二元词组往往少于1000个,不足以得到可靠的比较分析。

我们似乎给自己创造了个本地产的(home-grown)测不准原理:冗余测量得越精确,就越难以确定冗余到底“在哪里”。冗余运作的范围无孔不入,看起来对书籍的命运有决定性作用。但整个过程发生在有意识阅读层面下很深的地方,基本看不见。在未来,甚至有可能在比较近的将来,这个问题可以通过实验心理学解决;同时,我们转向词汇变化的标准语言学测量方法,也就是类符/形符比(type token ratio, TTR)。[27]我们推断,文本冗余越低,多样性必然越高:凸面对凹面。我们会得到一幅图,正好是图4.2调转。因此我们开始计算,结果就是图4.5。



图4.2和图4.5并排,产生如下悖论:从词对(word pairs)角度查看全文(entire text),正典的重复远远低于档案(因此也更多样);从单个词(single words)的角度查看一千个词,则正典的多样性低于档案(因此也更重复)。从现象本身来说,文本规模不同、表现也不同,这并不意外:之前的两个手册(“Style at the scale of the Sentence”和“On Paragraphs”)恰好关注了这个问题。但那些案例中,不同的规模和完全不同的特征相联系:句子同风格,段落同主题(themes),诸如此类。而此处所测量的特征则关系紧密。从两个词到一千个,测量结果是怎么自己调转的?此处的“怎么”表达的就是本意,并非绝望的呼号:具体而言,怎样的文本机制能够把第一种结果转为第二种?


阿尔吉—休伊特处理这个问题的方式是把所有的词“翻译”成词性,这样就以二元词组的范畴而不是独立单元重新表示冗余。例如“clever little”和“first cruel”,都变成了“形容词—形容词”,而“a condition”和“the kitchen”都成了“限定词—名词”,等等。用“语法冗余”重新计算,就可能确定哪些二元词组在正典中最突出,哪些在档案中最突出(图4.6-4.7)。[28]



这一次,这两个子语料库显现出重心迥异:档案由名词主导,正典则分布着大量功能词(连词,限定词,介词)。档案对头衔津津乐道(count Goldstein, uncle Gerard),对地点和人物吹毛求疵(in Ireland, to Shelley),对专有名词则通常很宽容(Hector’s lodgings, Shelburne upon),终于提供了解释其高冗余的线索:“count Goldstein”和“Shelburne upon”可能不常出现在小说中,——但如果出现,这两个词可能会再次同时出现,增加了文本的冗余;“iron will”和“color tints”等附加名词这种结构也是一样。这并没有为所有问题都给出答案,但这是个开始。接着,为了解决悖论的另一面,我们转向了类符/形符比。


5. “但我不能走开”(“But I couldn’t go away”)


要使用类符/形符比,第一件事是确定适于本语料库的分析模式:库中大多数小说重印于一两个世纪前,难以光学识别,很可能令所有后续计算无效。在项目早期阶段,莱恩·霍伊舍最早将大家的注意力引到类符/形符比上,他也找到了办法,能同样可靠地测量质量参差不齐的文本。[29]一旦结果进来,我们首先注意低类符/形符比,看它具体的重复类别如何同阿尔吉—休伊特所计算的冗余比较。我们从图4.6得知,低词汇变化通常与正典文本相关;确实,查德威克—希利文集整个语料库的频率大概在20%,而类符/形符比最低的500条片段中,频率升到50%(尽管最高的500条也只有3.2)。得分最低的50个文本中,约一半来自查德威克—希利,其中有几本儿童书籍,包括《爱丽丝镜中奇遇记》(Alice, Through the Looking Glass),《水孩子》(The Water Babies),《黑美人》(Black Beauty),《小爵爷方特洛伊》(Little Lord Fauntleroy),《小岛之夜的娱乐》(Island’s Night’s Entertainments)等;10本特罗洛普(Trollope)的小说,包括《巴塞特的最后纪事》(The Last Chronicle of Barset),《爱尔兰人菲尼阿斯·芬》(Phineas Finn the Irish Member),《你能原谅她吗?》(Can you Forgive Her),《尤斯达斯的钻石》(The Eustace Diamonds)等;以及2本爱尔兰小说:埃奇沃思(Edgeworth)的《拉特伦特古堡》(Castle Rackrent)和塞缪尔·弗格森(Samuel Ferguson)的《汤姆神父与教皇》(Father Tom and the Pope),《缺席者》(The Absentee)则相距不远。这么混杂的书目并不特别能代表正典(不管这个词是什么意思);更显著的发现似乎是查德威克—希利的数值在整个世纪中一直很低(图5.1),这趋势还包括一些最伟大的19世纪文体家:奥斯汀所有作品都低于语料库均值(《劝导》,《理智与情感》,《曼斯菲尔德公园》位于最低的20%);狄更斯(Dickens)所有作品低于均值(《小杜丽》,《双城记》,《大卫·科波菲尔》,《我们共同的朋友》,《荒凉山庄》和《远大前程》位于最低的20%);乔治·艾略特(George Eliot)所有作品低于均值——而《亚当·贝德》有一段,其类符/形符比是整个世纪中最低的。



《亚当·贝德》得到这个结果比较奇怪,因为本书包含了艾略特对荷兰绘画的著名反思:一篇关于审美精确与多变的宣言,写得特别精确而多变(图5.2)。



这一段落头100个单词的类符/形符比是79:比《朗文语法》讨论的任何篇章都高,不论语域。但在小说的后面,艾略特的风格转向另一个极端(图5.3)。



艾略特的这个段落包括海蒂(Hetty)对黛娜(Dinah)的忏悔:回忆起在林中丢弃孩子,等待“它”死去(用她自己用的代词)。但“等待”是个错误的词(图5.4)。



语法上来说,这些句子最引人注目的地方在于海蒂做主语的屈折动词形式(inflected verb forms)潮水般涌来: I made haste…I could not hear… I got out… I was held fast… I couldn’t go away…I wanted… I sat… I was… I had… I couldn’t… 在叙事分析中,动词形式通常被看作是“动作”的指标——这很好理解。此处,语法和句法间存在刺耳的不和谐声,这些动词却象征着瘫痪(paralysis):海蒂绝望地想要“走开”,——但是不能。就像她无法离开事件的物理环境,她也不能放弃描述这一事件的词语。她无法忘记:这就是重复的来源。更好的说法是:她既不能忘记,也不能真正说出发生了什么。这是教科书般的“重复”与“消解”(working through)对立的例子,她一再反复地说着同样的内容,因为她无法让自己说出真正重要的事:“死”这个词从没重复,仅仅在章节末尾拐弯抹角、令人误导的结构里出现了一次。[30]


为何重复?因为重创(trauma)已经发生,重复是用语言来表达这种创痛的很好的方法:囚禁于自己的话语,而话语神秘的力量解释了为什么尽管艾略特热爱分析性的细节,却能够写出整个世纪中最具重复性的段落。其次,海蒂的忏悔也揭示了类符/形符比在本质上口语(oral)的成分。紧随艾略特的两段词汇密度最低的片段也是忏悔:埃奇沃思《倦怠》(Ennui)中换婴儿一段[31]以及特罗洛普《巴塞特的最后纪事》中爱的忏悔。[32]同样的低密度范围内我们还找到了一些章节,出自儿童故事(其叙事者通常栩栩如生),爱尔兰小说(专长模仿讲话),和特罗洛普的无数小资产阶级简短对白的例子。[33]以及审判的场景:《理查德·费瑞弗尔的磨难》(The Ordeal of Rich­ard Feverel),《中洛锡安之心》(The Heart of Mid-Lothian),威廉·斯卡吉尔(William Scargill)的《无人委托的律师故事集》(Tales of a Briefless Barrister),意识形态的冲撞:《享乐主义者马利乌斯》(Marius the Epicurean),“快乐共产主义”的狂喜愿景:玛丽·克里斯蒂(Mary Christie)的《劳拉女士》( Lady Laura)[34],以及对金钱的长篇谩骂:托马斯·彭伯顿(Thomas Pemberton)的《一个很老的问题》(A Very Old Question)。[35]有的角色因为想要恳切热情而太过唠叨(《爱玛》),或是因为需要反复演练证据,例如《德拉库拉》(Dracula)中的范·海尔辛(Val Helsing)。阿里森(Alison,本文作者之一)和杰玛(Gemma,本文作者之一)的结论是,评分最低的(很多都属于正典)千字片段和《朗文语法》中的对话正好属于同一个区间,这很难说是偶然:朗文区间内均值30,我们的500个最低得分的片段均值在27-33之间。


我们转向类符/形符比是希望能引导我们回到某种文本分析中,我们没有失望:低分值抓住了叙事结构的关键方面,示意创痛、强度和口头形态。那么高分值呢?


6. “炮眼里震动的大口径加农炮”(“Embrasures bristling with wide-mouthed cannon”)


图6.1显示了语料库中类符/形符比最高的10本小说;图6.2是分值最高的篇章,摘自爱德华·霍克(Edward Hawker)的《亚瑟·蒙塔古,又名孤身泛海》(Arthur Montague, or, An Only Son at Sea)。




如果正典优越的社会地位总是和语言上的优越相关联,——1997年诺贝尔文学家得主达里奥·福写过一部剧,名叫《工人认识300字,老板认识1000字,所以他是老板》——那么正典作家的语言应该比被遗忘的作家更富变化。然而,根据类符/形符比测量的词汇丰富性,情况正相反。“全部审美语言就包含在对肤浅的根本性拒绝中,”布尔迪厄写道:“‘粗俗的’作品 [……]以勾引的手法引发反感和嫌恶。”[36] 肤浅,霍克的语言?勾引?要说起来,正好相反。这种粗俗/优雅的二分法永远无法解释档案和高类符/形符比之间的联系。我们必须往别处看。


我们在语料库语言学(corpus linguistics)里找到一个答案,这一研究中经常发生这种事。这一次是“语域”(register)这个概念:道格拉斯·比伯(Douglas Biber)和苏珊·康纳德(Susan Conrad)在《语域,类型和风格》(Register, Genre, and Style)中描述过的信息(message)的“交际目标和情景语境”(communicative purposes and situational contexts)。[37]在语域研究中,口头和书面存在根本对立,公认英语中后者的类符/形符比远高于前者。如果档案的词汇比正典丰富,原因在于档案比正典更倾向于“书面”语域(照我们在之前部分看到的,正典对于“口头”传统要自如得多)。并不是说档案中高类符/形符比的小说里口语(oral)段落(对话,演说,感叹,等等)比较少;杰玛关于口语话语(colloquial discourse)进展的著作显示,它们甚至可能包含更多此类段落。问题在于其“口语”(spoken)段落具有明显的“书面”(written)特质。简·韦斯特(Jane West)的《环游》(Ringrove)一书中有许多从排版上看是“言语”(speech)的语言,但是经常包含了正式的长篇大论,听上去更接近书面专题报告而不是口头交流。[38]


语言学上的保守肯定是许多档案作品具有“书面”特质的一个原因。威廉·诺思(Willian North)的《伪装者》(Impostor)里有一段——其类符/形符比差不多位于语料库的前1%——对这一点表达得很好:


“近年来,除了上述自诩的(soi-disant)时髦垃圾,还有一股对低俗生活、俚语和各种粗鄙词语的强烈嗜好混进了我们的美文(belles lettres)。狄更斯和恩斯沃思(Ainsworth)领头,大群人跟随其后……让我们努力重建纯粹的古典品味吧。”


让我们努力重建……安德伍德(Underwood)和赛勒斯(Sellers)在对声望和风格的研究中发现,许多无名的书籍,“位于[模型]名单最底部……是怀着鼓舞人心或劝人为善的目的的”。[39]这里也是如此:口语语域常见的“俚语和粗鄙词语”冒犯了“纯粹的古典品味”,而图6.1里面那群作者则予以反击,“提升”话语的语调,具有书面语一样的正式和严肃:许多名词,许多形容词,尽量少的屈折动词形式(图6.3-6.4-6.5)。[40]



           

到现在为止,我们解释了高类符/形符比与书面语域间的密切关系,不严格地说,这种关系是风格和意识形态选择的结果。但其关联还存在更中立的“功能性”原因。在语料库语言学的发现当中,词汇丰富最大化总是同新闻相联系:《朗文语法》指出,这种话语需要“极高的名词要素密度”(density of nominal elements)以便“指涉各种任务、地点、物体、事件等。”(53-54)新闻的丰富词汇有双重来源:第一,每条具体新闻内在的必然独特性;第二,条目与条目之间完全隔断:每篇文章或通讯开始时,重复就被“重置为”近乎为零,而类符/形符比就此上升。这一双重逻辑返回虚构文本,带来高类符/形符比:它们包括足够的迥然相异的材料,并通过使用多种类型形式(generic forms)进一步强化其多样性。有6本简·韦斯特小说,其类符/形符比在语料库的前3%,在她的24个分值最高的片段中,有17个引用了诗句。没有诗句的情况下,她使用繁复的隐喻(“期待可怕的暴风雨来临,它将清理不健康的树枝”),甚至模仿(pastiche)。[41]威廉·诺斯给《伪装者》写的前言半是文学批评,半是书面辩解,涉猎极广,还包括一个附录,收入了决定塞到自己所作“罗曼司”里的广泛话题。[42]托马斯·霍普(Thomas Hope)则转向政治预言,[43]刘易斯·温菲尔德(Lewis Wingfield)转向半戏仿的建筑学题外话,[44]爱德华·杜罗斯(Edward Duros)转向博学的古物研究,[45]爱德华·霍克转向自然主义的教导……


不过例子已经够多。该做最后的反思了。






三. 文学场域大型动力学

(Large-Scale Dynamics in the Literary Field)







给已经偏离最初目标很远的项目“下结论”,这不容易。起初正典和档案是研究目标,冗余和类符/形符比是调研手段;但是后来手段和目的的关系默默调转:正典和档案移到讨论边缘,冗余和类符/形符比越来越占据了中央位置。这一转换不在计划内;有很长一段时间我们甚至没有意识到这已经发生。我们一直成月地琢磨二元词组究竟“意味着”什么,到底为何它们能区分我们的文本;后来,阿里森和杰玛引进了口头与书面语域的问题后,我们甚至花费了更多时间在类符/形符比上,阅读从未听说过的小说的片段,里面充满了井号、星号和诸如“倾斜”(acclivities)、“金链花”(laburnum)和“混合”(commingling)这样的词。怪哉。


为什么这么做?因为我们感到,研究类符/形符比能让我们对“内在”力量——与第三部分讨论的“外部”力量不同——有所理解,它们塑造了文学场域。这是研究目标的又一次滑移:预设的正典和档案的分界——斜线还在标题里——失去了不少关注,被重新纳入大得多的视野中。有分寸地说,这还是与四十年前布尔迪厄的轨迹有些相似之处:当时,他从对《感伤教育》(Sentimental Education)及福楼拜(Flaubert)在19世纪法国文学的地位研究开始,开发出一个常规框架,福楼拜依然在场,但只是许多因素中的一个。这里也如此:正典和档案依然“在”图片里,有不同颜色标记;但现在,图表的意义存在于加强对文学场域作为整体的了解。艾略特和霍克的例子显示了风格上的截然对立,但已经不再让我们想到正典和档案,而是想到“口头”和“书面”语域。焦点已经转移。


但我们和布尔迪厄的研究依然存在重大区别。对我们来说,文学场域的社会学不能仅仅停留在社会学上:它需要强大的形态学成分。这就是为什么冗余和(尤其是)类符/形符比变得如此重要:它们混合了定量和定性,这对于小说(fiction)的形态社会学十分完美,而后者正是我们的终极目标。回头看,我们必须承认,目标已不可及——虽然靠近了一些。不可及,意思是当形态学与社会命运之间的联系最强时——在冗余的情况中——二元词组的形态单位本性难以把握,因果链难以建立;但相反的是,当这特质允许做出丰富而显明的分析时——在类符/形符比的情况中——关联就减弱了,只有在极端案例中才确定无疑。同时,极端案例附近出现的两种可见现象——得分最低的案例中角色声音的强度以及另一极高分案例中叙述者文字话题的庞杂——打开了新的探寻路线,定量—定性的连续体清楚再现,直接引向巴赫金(Bakhtin)小说理论的两个关键概念:复调(polyphony)和杂语(heteroglossia)(综合的文学外话语的“其他语言”,如政治,审美,地理,建筑,等等。)通常,这两个概念被认为是紧密联系的(巴赫金自己似乎也这样认为);但是瓦尔塞(Walser,作本文者之一)在最后一轮讨论中指出,我们的发现揭示出,它们其实位于小说语域的相反区域:复调倾向于同正典文本相关联,而杂语同被遗忘的小说相关联。杂语和失败之间的接近尤为引人注目。对巴赫金而言,当小说与其他话语接触,便创造性地转变了后者,夺取其力量,强化了自己在文化体系中的核心地位。似乎用杂语不会出错。但这恰好是小小的被遗忘作者军团遭遇的事:同其他话语的遭遇有使之瘫痪的效果,产生了非虚构散文的死气沉沉的复制品,取代了对话体的生命力。只要事关能否留在英国文学体系中,这是非常糟糕的选择。


那么是否说杂语是小说叙事结构的潜在病态表现?“没有什么事实……本身是病态的,”乔治·岗居朗(Georges Canguilhem)在他关于19世纪“常态”观念的名作中写道:“异常或突变本身并不病态,只是表现出生命的其他可能形态。”[46]如果这一说法正确,那么使得霍克、诺思和杜罗斯注定无名的并非由于选择杂语本身是个错误,而是因为杂语发生的国家和时代——生态系统——中,小说的形式正朝相反方向转移:拧紧了内在的叙事螺栓,而不是朝外部话语寻求灵感(在其他国家依然如此)。狄更斯尽管写过大量关于议会的文字,其小说依然有出色的“口述性”(orality)。是这一具体的历史机缘使得杂语的“其他语言”对生存不利。


这一点上,回顾更久远的历史会有帮助。一段时间以前,古典学家尼可拉斯·霍茨伯格(Niklas Holzberg)写了篇论文,其关键认知隐喻——“边缘”(Fringe)——给古典小说研究领域留下了深刻的印记。[47]霍茨伯格用这个说法,意思是希腊和拉丁语“真正的小说”(novels proper)这个极小的群体周边存在着大得多的文本群体,小说叙事的痕迹混杂着其他话语元素(史学,游记,哲学,政治教育,色情文学……),因而扩展了小说能达到的范围。之后的20世纪中,——“真正的”小说生产力提高,形式多样化,在一般文化中地位提升——“边缘”的角色也相应收缩。现代文学的学者们几乎从来不曾费神想过这些。但事实上,边缘从未消失:图6.1中的作家就是其现代版本,他们话题泛滥,颇为怪异,这就是作品处于小说和其他话语之间边界位置的典型征象。真正的问题在于,与此同时,边界的形态学功能——为小说与其他话语之间的相遇提供良好地带 ——变得更不确定。更早一个世纪,如果一部小说谈到精神自传的细微差别,书信写作的机制,或者“知觉”的中断,仍有可能成为杰作,并且能产生次文类(subgenre):《天路历程》(Pilgrim’s Progress),《帕梅拉》(Pamela),《项狄传》(Tristram Shandy),甚至可能包括《威弗莱》,都有明显的类似边缘的痕迹。但是在19世纪发展过程中,——也许是脑力劳动分工的后果,扩大了虚构和社会科学之间的距离,并使得二者的语言越来越难以互通(translatable)——杂语在小说叙事形式发展内的角色变得成问题。这就是决定被遗忘的作家命运的因素。[48]


无论这是否也回答了最初的问题——关于档案改变了我们对文学的认识——不由我们来说。能说的是,研究工作进行时,我们发现自己投入越来越多的时间给《环游》、 《伪装者》以及《亚瑟·蒙塔古》;在少数幸运的时刻,我们感到,例如,《亚当·贝德》永远无法提出的问题,这些书能提出。少数幸运时刻:要一直保持注意力在档案上,这不容易。某种程度上,是那些著名作家——那些你已经知道的事情——拖着你回到常规。某种程度上,是被遗忘的作者们令人烦恼的本质迫使你面对:野心勃勃的理想的巨大残骸,与文学史家习惯研究的风景截然不同。学习心无傲慢地凝视残骸——但同样也并不怀着恭敬——这是新的数字档案要求我们做到的;长期看,这也许是比计量本身更大的变化。


责任编辑  |  陆晓芳



作者简介


马克 等

本项目由巴黎人文科学中心及梅隆基金会资助,与索邦大学 OBVIL卓越实验室计划团队合作进行。执笔人为美国斯坦福大学(Stanford University)的马克·阿尔吉-休伊特( Mark Algee-Hewitt)、莱恩·霍伊舍( Ryan Heuser)、弗兰科·莫雷蒂(Franco Moretti)、汉娜·瓦尔塞( Hannah Walser)和美国罗耀拉大学( Loyola University)的莎拉·阿里森(Sarah Allison)以及德国马克斯·普朗克研究所( Max Planck Institute for Empirical Aesthetics)的玛丽莎·杰玛( Marissa Gemma)。


译者简介


汪  蘅
汪蘅,毕业于北京大学英语系,自由译者。向上滑动 查看注释:

[1] "Canon/Archive. Large-scale Dynamics in  the literary field, in(https: //litlab. stanford.edu/LiteraryLabPamphlet11.pdf), accessed on November 18, 2016. Translated and Reprinted in Chinese with permission of Stanford Literary Lab and Mark Algee-Hewitt.

[2] Fernand Braudel, “History and the Social Sciences: The Longue Durée”, in On His­tory, Chicago 1980, p. 29.

[3] André Leroi-Gourham, Gesture and Speech, 1965, Cambridge 1993, p. 148.

[4] 也许不会。在即将发表于MLQ特刊的一篇关于“量表与值”的论文中,詹姆斯·英格利什(James English)令人信服地指出,“根据‘每部新小说都必须在分析中有同样价值’这个原则收集的样本”——也就是说,和我们的“档案”非常类似的样本——其实并不很“适合于文学生产的社会学,这里理解的‘生产’不只是(甚至不主要是)作者对某种文本的生产,而是由社会体系产生某种价值,其行为人包括读者和评论家,编辑和书商,教授和教师,以及文学的制度机器中所有部件。”这本手册本来要研究档案,结果却几乎完全在关注“某种文本的生产”,这似乎清楚印证了英格利什的论点。另一方面,只要“社会体系”创造“价值”的手段不仅是将价值指定给某些作者或文本,还包括否认其他作者或文本的价值,(“尤其当事关品味时,所有决定都是否定判断;品味或许首先就是嫌恶”:布尔迪厄,《区分》/Distinction),那么读者和“文学的制度机器”里的其他人就会出现在我们的叙事中——但总是只扮演毁灭性角色。 

[5]  https://archive.org/details/19thcennov. ECCO(十八世纪作品在线)是18世纪数字资料集,分两部分,建立于英语简称目录(ESTC)基础上,并将一些英美图书馆作为资料来源;ECCO的第二部分是更新部分,包括原始ECCO发行时尚未出现的文本或版本。

[6] Alison Adburgham, Silver Fork Society, London 1983; Catherine Gallagher, The In­dustrial Reformation of English Fiction, Chicago 1985; Anne H. Stevens, British His­torical Fiction Before Scott, London 2010; Federica Perazzini, Il Gotico @ Distanza, Roma 2013.

[7] 更复杂的是,不同作品类型有不同正典/档案比:尽管书信和银匙小说的档案相对较大而正典相对较小,工业小说和成长小说则相反,两者都吸引了许多维多利亚时代主要作家;而哥特小说和历史小说这两个大类则位于两极之间。这一点上以及许多其他地方,我们还需要更大量的实证证据。

[8] 最后这组不是随机样本:既然安·斯蒂文斯(Anne Stevens)的书目只包括了85部司各特之前的历史小说,我们决定寻找全部。

[9] HathiTrust是大型研究型图书馆之间的合作项目,一个电子数据存储库,包括作为谷歌项目和互联网档案一部分的扫描卷册,以及其他小型本地项目。Gale的NCCO(十九世纪作品在线)是19世纪资料的数字文库,通常以主要文库作为资料来源,涵盖各专业领域(文学,科技,摄影等)。到目前为止,NCCO有12个部分,其中一部分包括Corvey小说文库;NCCO与ECCO不同,并非建立于领域内标准书录基础上,因此难以预测新增内容。

Gale是以营利性企业方式运营的信息与教育服务大公司,向图书馆销售内容和服务;出版印刷品(参考书和小说)和电子文库(ECCO, NCCO及其它)。其母公司是圣智学习集团(Cengage Learning),自身定位为“为全球高等教育和中小学教育(K-12)、以及职业和图书馆市场提供教育内容、技术和服务的领先企业”。

[10] 这些数字上还应加上斯坦福图书馆付给ECCO, ECCCO II以及NCCO的初始费用:算上常见的慷慨折扣,为这三个文库大概支付100万美元。ProQuest也是营利性企业,提供教育服务,产品包括历史报刊系列(Historical Newspaper series)、文学在线(Literature Online)、论文提要(Dissertation Abstract)等。其母公司是剑桥信息集团(Cambridge Information Group)。

[11] “应该让”,因为从文库接收一个文本不等同于能够研读该文本。许多来自查德威克—希利和ECCO I的资料之前都是磁带形式发送,格式所需的驱动很难找到,也很难用;更“便利”的数据传送(例如互联网数据传送或者外接硬盘)也有本身的问题:莫测的邮件系统,怪异的防火墙不兼容,反常的文件协议要求。(例如,斯坦福图书馆大多数许可协议的文本挖掘或图书馆馆藏结构的馆外分享主题都非常模糊;过去五年以来,图书馆都明确坚持将文本挖掘包括在目前的许可中,但之前的协议则是灰色地带)。

最后,从无穷尽的磁带或硬盘中挖掘资料,元数据不充分或者不正确,又没有数据库支持,这是地道的拜占庭式过程。例如,图书馆会用Gale的搜索界面在ECCO数据库中搜寻,并根据界面指示引用其URL。但是如果图书馆为实验室找到一份原始文件,他们需要仔细搜寻一两个硬盘(或磁带),其中包含数十万目录,目录名仅仅是系列随机数字;而Gale发送这些原始文件时的元数据“清单”包含在大约十个word文档中,格式看起来要打印似的:两栏,作者名用黑体,非常基础的目录数据,一个文件ID,ESTC ID,以及一个目录路径。这些文件数量庞大:ECCO II,文学与语言模块,作者L-Z——大约是ECCO II发送内容的十分之一——一共2750页文件。第二,里面的ID数字不是你在Gale界面上看到的那些,而是看不见的内部数字。因此,尽管实验室在使用ECCO数据库时费功夫识别过来源,也标注了Gale的官方ID数字,图书馆仍然不得不根据作者或者书名重新搜索(re-search)每个条目,以便找到要复制的文件名:Gale的ID数字根本没有包括在文档清单中。“我的教训,”一位全程协助我们的研究型馆员的结论如下:“是这样,就算已经找到你们需要的文档,其实仍然还没有真正找到文档。”

[12] 与史蒂凡·霍尔(Stevan Hall)直接交流后得知,编辑们选择文本没有限制。

[13] 也就是说,假设上述研究者所在机构拥有必要资源。据一所大学的ProQuest代表说,全世界只有“超过600所”大学订阅了文学在线(LION)数据库。

[14] 即使不算斯坦福博士考试的代表性,DNB和MLA以作者为中心的方法也将司各特的《危险城堡》(Castle Dangerous)或者萨克雷(William Thackeray)的《凯瑟琳》(Catherine)放在同《威弗利》和《名利场》(Vanity Fair)同一个平面上,这不可能对头。但其他标准也有类似的缺陷,或者耗时无数。

[15] 流行度测自19世纪数据而声望度来自20世纪的资料,这自然是个问题。20世纪研究在这方面要更好一些:例如在《成为你自己:接受的来生》(“Becoming Yourself: the Afterlife of Reception”)(文学实验室手册3,2011年)一文中,艾德·芬(Ed Finn)将美国文学场域中当代作家的地位做成图表,使用了两个范畴,“消费”和“对话”,两者都属于同一时间框架:“消费”来源于亚马逊网站(amazon.com)的“一起购买”(also bought)数据,“对话”来自当代评论。有趣的是,“消费”和“对话”同我们的“流行”和“声望”比较一致;阿尔吉—休伊特和麦克格尔讨论的六个“正典”也是一方面围绕着市场的成功,另一方面围绕着更“合格”的文化选择。如果后续研究尝试纠正19世纪和20世纪数据的偏差,可以扩大声望指标,纳入学校课本和文集(就像 Martine Jey在法国做的那样)、奖项(詹姆斯·英格利士,《声望经济学》/The Economy of Prestige)、18世纪和19世纪期刊评论,或者早期小说集,例如巴包德(Barbauld’s)、巴兰坦(Ballantyne’s)和本特利(Bentley’s)小说集。不过,当然了,那些文集和评论也不能确定应该被看作声望指标,而不仅仅是小说市场发展中的小小齿轮;在最近一篇有趣的论文中,迈克尔·盖默(Michael Gamer)说明了两种可能性,表达为既有进正典的野心,也在商业市场竞争。(见“A Select Collection: Barbauld, Scott, and the Rise of the (Reprinted) Novel”, in Jillian Heydt-Stevenson and Charlotte Sussman, eds, Recognizing the Romantic Novel, Liverpool 2008.)威廉·圣克莱尔(William St Clair)则对评论的作用表达了毫不含糊的怀疑(“大致上,不论当时还是后世的作家看起来都夸大了评论的影响[……]我在评论、声誉和销量之间看不到什么联系”),他也质疑了19世纪早期小说声望的概念:“就浪漫主义时期小说而言,当时并没有公认的正典。实际上,在大多数小说都匿名发表的时代,整个有关正典的观念没什么意义。有一位作者,‘《威弗莱》的作者’,主宰了时代,但直到19世纪20年代中期大家才知道作者是著名诗人沃尔特·司各特爵士。”见William St Clair, The Reading Nation in the Romantic Period, Cambridge 2004, p. 189. 另一方面,泰德·安德伍德(Ted Underwood)和乔丹·赛勒斯(Jordan Sellers)最近发表文章《文学标准变得有多快?》(“How Quickly Do Literary Standards Change?”),令人信服地提出评论与声誉之间确实存在关系。见http://figshare.com/articles/How_Quickly_Do_Literary_Standards_Change_/1418394. 安德伍德和赛勒斯研究诗歌而非小说,从1820年开始调查,但圣克莱尔的书和我们自己的语料库到那时多少已经终结;目标和时间框架间的不匹配太多,无法直接比较。但我们慢慢接近了可以成功对比和整合独立研究中各种证据的时刻。

[16] 既然我们不是在测算印数,这个表格实际上低估了司各特的流行度:虽然大多数同时代小说的第一次印数都是1000本,但三部《威弗莱》小说的起始印数分别是6000,8000和10,000本。

[17] 在流行度缩减方面,奥斯汀及其同代人提供了完美的案例研究:如图3.2所示,大约25位作者(其中三分之一来自18世纪)在图表覆盖的60年中比奥斯汀更流行。等19世纪小说目录更可靠时,我们就能看到一两代之后有多少人依然比她流行(19世纪30年代和40年代的初始结果显示:除了司各特,再无旁人)。

[18] 司各特一夜成名广受欢迎,这与奥斯汀慢得多的节奏不同。另外一些作家,因为作品的最初读者(卡罗尔/Carroll)或类型(拉德克里夫,多伊尔/Doyle)的缘故,长期受限于某种定位,地位暧昧,司各特跟他们也不同。当然了,还有一切正典通论的复仇女神——《白鲸》(Moby Dick)。

[19] 虽然我们的结果和布尔迪厄的法国文学场域理念完全不同,但也未必证明了他论点有误,我们只研究了小说(完全没有涉及诗歌、戏剧、杂志等),所研究的国家和时代也不同。说实话,我们需要许多不同文化和时代的实证的文学场域地图(复数),才能让“文学场域”(单数)成为可靠的历史概念。

[20] 在图3.2-3.3中,其分界点是场域平均值以上2或3个标准方差,其中所有高声望值作者和位于中间位置的作者、以及大约一半位于高流行度位置的作者都能看成正典作者。如果下降得“更低”,场域的三分格局还能存在一会儿,然后就消失了。接下来发生了什么,这是很令人着迷的问题——等着下一个研究。

[21] 或者更精确地说:如果想把正典的概念分解为两个根本因素:流行度和声誉度。这里,值得比较一下本项目最初的认知论选择,以及阿尔吉—休伊特和麦克格尔的《正典与语料库之间》(“Between Canon and Corpus”)。主要区别不在于研究文本(《正典与语料库之间》)还是作者(正典/档案)——这一点很容易理解,——而在于其中一个分析建立在网络基础上,而另一个建立在笛卡尔式的图表基础上。网络在调研独立的节点(图3中的超级正典集群,《愤怒的葡萄》突出的中心地位,畅销书和其他组别的分离)之间的关系方面更胜一筹,但无法将节点同网络外的任何事物联系起来。而笛卡尔式图表,就本身而言,外界嵌入了自己的坐标(就像这里的流行度和声望度),但不可避免地放松了数据点之间的关系(在图表中不存在网络边缘和集群测量的等价物)。显然,这并不是说哪种策略“优于”另一种,而是不同研究项目针对系统不同方面展开调查,并选择了相应的分析方法。

[22] 不用说,有些测量可能不连续、难以获得(例如印数),而其他数据(例如课本)测量则可能要等晚得多的时候才会开始。不过,如果文学场域的观念确定有助于理解不同时代和国家,那么依靠迥然不同的历史指标也就不可避免;不要指望——空想的——资料同质性,我们应该学着让异质的数据在概念上可以互相比较。

[23] 《正典与语料库之间》显示从那时起变化很大:在20世纪,正典都被描述为“即使不是艺术和商业价值间的系统性矛盾,也是系统性差异”。图3.3的“正典”区域却恰恰缺乏这种差异/矛盾。

[24] “我建议,所谓正典形成的问题”,约翰·基洛利(John Guillory)以同样的风格写道,“最好理解为文化资本的构成和分配问题,或者更具体而言,是如何得到文学生产和消费手段的问题。” John Guillory, Cultural Capital: The Problem of Literary Canon Formation, Chicago 1995, p. ix.

[25] 整个手册中,我们几乎是交替使用“冗余”(redundancy)和“重复”(repetition),将其与“信息”和“多样性”对照;虽然这是简单化了,但我们不认为会影响这一研究的水准,也不会影响研究结果的类型。类似的,信息与冗余间的关系市场被说成是“熵”;我们选择了不同的定义,以尽量能够比较这一研究的不同方面。

[26] 这已是第二次了:在图1.2中,正典通常领先档案15到20年,似乎“证明了”另一公认观点:伟大作家开路,其他人跟上。

[27] 这是《朗文英语口语与笔语语法》(Longman Grammar of Written and Spoken English)定义的类符/形符比:“不同词形或词的类型数目同词量或词次之间的关系,称为类符/形符比(或TTR)。类符/形符比是一个百分比,等于类型/词次×100。” 见Biber, Jo­hansson, Leech, Conrad, Finegan, Longman Grammar of Spoken and Written Eng­lish, Harlow 1999, pp. 52-3.

《朗文语法》研究了四种语域(对话,学术文章,小说,新闻)中的类符/形符比变化和三个样本长度(100字,1000字10,000字)。100字的片段,结果如下:对话63;学术文章70;小说73;新闻75。1000字的片段:对话30;学术文章40;小说46;新闻50。10,000字的片段:对话13;学术文章19;小说22;新闻28。注意,语域间的区别随着片段长度的增加而急剧增强。到了10,000字,新闻的类符/形符比超过对话一倍以上,而在100字片段中仅仅高16%。我们选择了10,000字的片段,这个长度既足以采集大量变化,也足够短,可以直接分析。

[28] 这部分工作中,阿尔吉—休伊特使用了斯坦福的词性标志器;括号里的缩写(IN_NNP等)则是宾夕法尼亚大学Treebank项目使用的那些((https://www.cis.upenn.edu/~treebank)。

[29] 霍伊舍首先创建了一个大型的小说英语词典——232,845个不同词汇——又将所有文本裁剪为1000个“字典词汇”片段。(实际的片段将在1000到1500个字的区间内,具体字数取决于其中有多少个“非字典”词汇——OCR,一次频词/hapax legomena等)。既然形符的数量固定在1000个,那么,区分每个1000字片段的类符数量就产生了以片段为基础的分数,其平均值能给出文本的类符/形符比。

函数用两个参数写出来:“语言切片”(slice_len)[片段长度(设为1000)]和“强制英文”(force English)[是否包括大型英语词典中未收录的词(设为False)]。设置“强制英文”,也就是排除所有非“英语”词汇,这个参数背后的逻辑在于,如果没有这个参数,由于坏OCR,档案将会有更高的类符/形符比。反过来,强制英语的担心在于,同样的坏OCR会产生更低的类符/形符比:如果片段必须超过1500个“真正的”词汇以便发现1000个英语词汇,那么就可能偏向更短、更容易拼出的OCR词汇,同时也是语言中最常见的词汇,这样就会降低类符/形符比。在这个项目中,这两种不想要的结果似乎相互抵消了。

[30] “But it was morning, for it kept getting lighter, and I turned back the way I’d come. I couldn’t help it, Dinah; it was the baby’s crying made me go--and yet I was frightened to death. I thought that man in the smock-frock ‘ud see me and know I put the baby there.” 注意,“死”如何指涉海蒂而非她的孩子。

[31] “I thought, how happy he would be if he had such a fine babby as you; dear; and you was a fine babby to be sure; and then I thought, how happy it would be for you, if you was in the place of the little lord: and then it came into my head, just like a shot, where would be the harm to change you?”

[32] “You are so good and so true, and so excellent,-- such a dear, dear, dear friend, that I will tell you everything, so that you may read my heart. I will tell you as I tell mamma,-- you and her and no one else;-- for you are the choice friend of my heart. I can not be your wife because of the love I bear for another man”.

[33] “Do you think that I am in earnest?” “Yes, I think you are in earnest.” “And do you believe that I love you with all my heart and all my strength and all my soul?” “Oh, John!” “But do you?” “I think you love me.” “Think!”

[34] “All are not equally happy; all can not be equally happy. But there is a sort of com­munism possible in happiness. The unhappy have a claim upon the happy; the hap­py have a debt towards the unhappy.” “But how can one share one’s happiness with others? It seems to me impossible. It is what I have most wished to do, but I see no way in which it can be done.” “In one sense certainly you can not share your happi­ness, and you can not give it away. It is essentially your own, a development of your being, a part of yourself that you may not alienate.” 

[35] “Money!’’ she cried derisively.’’ Money! What is money to the trouble which has torn my heart ever since I have been married! What is money to those who thirst for love! I never wanted money; without money I was strong and happy; since I have had it I have been weak and miserable. Money broke down my poor father, and it was for money that Percy married, deceived, and has forsaken fine. Thank God that the wretched money has gone’’

[36] Pierre Bourdieu, Distinction. A social critique of the judgment of taste, 1979, Har­vard UP, 1984, p. 486.

[37] Douglas Biber and Susan Conrad, Register, Genre, and Style, Cambridge UP 2009, p. 2.

[38]此处有一例,是对拜伦误用其诗歌天赋的评论:“There is a deep condensation of thought, an appropriateness of diction, an elegance of sentiment, and an original glow of poetical imagery; ever happy in illustrating objects, or deepening impres­sions;-- which so fascinate our fancy and bewilder our judgment, that we lose sight of the nature of the deeds he narrates, and the real character of the actors.”

[39] Underwood and Sellers, p. 14.

[40] 名词和形容词的高频率把我们带回第四部分结尾讨论过的“语法二元词组”:”形容词—形容词”、“名词—形容词”词组。把那些结果和这一部分出现的情况相结合,我们最终就能在二元词组的层次解决高冗余文本的悖论,并在类符/形符比的层次上解决高多样性文本的悖论。“count Goldstein”和“uncle Gerard”这样的二元词组的“贴标签”功能以及 “iron will:”和“clever little”这样喋喋不休的陈词滥调,很容易在小说中自我重复,因而提高了在这个范围内测到的冗余度;但是,即使是平庸的作者也不太可能在1000个单词的窗口中重复“clever little”,因而能保持较高的类符/形符比。正典文本中常见的“限定性名词”或者“前置限定词”二元词组的情况则相反:“the”是英文中最常见的词,不可避免地会在1000字片段中重复数十遍,因此降低了其词汇多样性;但是既然紧跟这个冠词的名词会很容易变化,二元词组层次上冗余也就维持相对较低。

[41] “First, Venus, queen of gentle devices! taught her prototype, lady Arabella, the use of feigned sighs, artificial tears, and Studied fainting: while Aesculapius descended from Olympus, and, assuming the form of a smart physician, stepped out of an el­egant chariot, and on viewing the patient, after three sagacious nods, whispered to the trembling aunt, that the young lady’s disorder, being purely mental, was beyond the power of the healing art. Reduced to the dire alternative of resigning the fair suf­ferer to a husband or to the grave, the relenting lady Madelina did not long hesitate.” (Jane West, A Tale of the Times, 1799).

[42] “通过引入文学评论、对政治和社会邪恶的嘲讽以及对有趣的科学事实的大众阐释,我希望增加罗曼司的趣味,我相信其中不会缺乏探险、情节和精心设置的人物。但时髦小说的日子已经过去了。现在的时代是实用的,就算是小说家(当代的诗人)也必须符合这个模式。”

[43] “The time is at hand when all the tottering monuments of ignorance, credulity, and superstition, no longer protected by the foolish awe which they formerly inspired, shall strew the earth with their wrecks! Every where the young shoots of reason and liberty, starting from between the rents and crevices of the worn-out* fabrics of feu­dalism, are becoming too vigorous any longer to be checked: they soon will burst asunder the baseless edifices* of self-interest* and prejudice, which have so long impeded their growth. Religious inquisition, judicial torture, monastic seclusion, tyr­anny, oppression, fanaticism, and all the other relics of barbarism, are to be driven from the globe.” (Thomas Hope, Anastasius, or, Memoirs of a Greek, 1819).

[44] “a stately entrance hall in the most fashionable quarter of the metropolis, embel­lished with lofty Ionic columns of sham Sienna marble; in front of each a magnificent bust of sham bronze by Mr. NoUekins* on a pedestal of scagliola. From a heavily stuccoed* ceiling, wrought in the classic manner, depend six enormous lanterns in the Pagoda style, wreathed with gaping serpents. Along three sides there are rows of “em pire*’’ benches, covered with amber damask, on which are lolling a regiment of drowsy myrmidons in rich liveries*. Passing these glorious athletes, you enter an ante-room choked with chairs, sofas, settees*, whose florid gilding is heightened by scarlet cushions. Very beautiful. (Lewis Wingfield, Abigel Rowe. A Chronicle of the Regency, 1883).

[45] “The shield, slung to his neck, bore no emblazonry, and his open baronet and pennon-less* lance argued him neither to have undergone the clapham, or knightly box on the ear (!); nor the osculum pads, which more gently signified the chivalric brotherhood. He was, however, well mounted and perfectly armed. Judging from his simple habergeon, and a silver crescent which he bore, more in the way of cogni­zance than as his own device, he might be pronounced a superior retainer in the service of some great feudatory.” (Edward Duros, Otterbourne; A Story of the English Marches, 1832). 

[46] Georges Canguilhem, The Normal and the Pathological, 1966, New York 1989, p. 144.

[47] Niklas Holzberg, “The Genre: Novels proper and the Fringe”, 1996, in Gareth Schmeling, ed. The Novel in the Ancient World, revised ed., Brill, Boston-Leiden 2003.

[48] 同样原因,从那一刻起,《白鲸》和《尤利西斯》这样的杂语巨著不得不越来越快地远离小说叙事发展的主轴,对非学院读者的吸引力越来越低。



转载请联系授权。






诗歌自动写作刍议


现地研究与辛弃疾词的新读法


隋唐至宋时期精英社会网络动力学的演化研究


Integrating Technology into Liberal Arts Education


古文字学界“数字人文”研究的最新探索—评刘志基《古文字研究论稿》


比较文学研究与数字基础设施建设:以“民国时期期刊语料库(1918-1949),基于PhiloLogic4”为例的探索







数  字  人  文


欢迎投稿,稿件请发至

dh2020@tsinghua.edu.cn

长    按    关    注

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存