查看原文
其他

徐翔等 | 社交网络内容生产中用户“信息茧房”的情感偏向研究

徐翔 董洁芸 全球传媒学刊 2023-03-28

原文刊载于《全球传媒学刊》2022年第4期“情感与传播”专栏。



徐翔:同济大学艺术与传媒学院教授。

董洁芸:同济大学艺术与传媒学院本科生。


【摘  要】本文以新浪微博用户(N=2143)为样本,采用BERT模型进行情感分析,考察用户随着信息茧房程度加深而呈现出怎样的共通情感偏向,及其基于情感偏向的情感趋同特征。研究发现:用户信息茧房程度越高,不同的信息茧房之间共通的情感偏向也越趋向增强;在32种情绪中,用惊喜、无奈、安心、想念、羡慕、愉悦、振奋、内疚、骄傲这9种情绪分别所占的比例即可预测用户的信息茧房程度,其调整后R2达到0.489。在情感偏向基础上,随着用户信息茧房程度加深,用户情感与信息茧房“顶部”用户越来越相似。


【关键词】社交网络用户;信息茧房;情感偏向;情感趋同


一、引言

“信息茧房”是近年来的研究热点,既有学者从思辨角度表达对茧房效应的担忧,也有不少学者从实证的角度探究社交平台用户在陷入“信息茧房”时会呈现出怎样的特征。在社交平台这个强调相对自由表达、赋予个体表达权的空间,陷入信息茧房的用户的信息生产呈现出怎样的情感偏向?这些被困在“信息茧房”中的用户,其情感特征是随机的偶然现象,还是社交网络或其他因素作用下形成的具有一定规律性的结果?这不仅是尚待分析的实证问题,也是对社交网络用户情感生成和传播规律的进一步探究。


本文所探讨的是,在社交网络内容生产中,用户随着信息茧房程度加深所呈现的情感特征,并在理论分析的基础上进行实证研究及其后果分析。核心问题为相关联的以下两个方面:(1)不同用户在信息茧房程度加深的过程中,是否伴随着相通性的情感偏向而非陷入各不相同的情感,而使得“为情所困”的“信息茧房”“情有所钟”?(2)如上述结果成立,那么不同的信息茧房在其茧房程度加深的过程中是否情感相似度趋于增强,从而使得“为情所困”的信息茧房在情感表现上“去异趋同”?


通过对上述问题的探讨和回应,本文的创新之处和研究意义主要在以下方面:(1)明确分析社交网络用户信息茧房的情感偏向,用户在被认知性的信息茧房所困的同时也在“为情所困”;(2)分析了用户信息茧房具有怎样的情感倾向,信息茧房在“为情所困”的同时是否以及在多大程度上“情有所钟”;(3)在信息茧房情感偏向的形成中,尝试实现从社交网络平台“信息茧”到“情感茧”、从“个体牢笼”到平台“公共牢笼”的理论延拓。


二、文献回顾和问题分析

(一)信息茧房


“信息茧房”这一概念是由美国学者凯斯·R.桑斯坦(2008)在《信息乌托邦》中提出的,是指在数字时代的个性化信息服务逐步兴起的背景下,我们只听我们选择的东西和愉悦我们的东西,久而久之会将自身桎梏于像蚕茧一般的茧房之中。随着对信息茧房研究的进一步加深,一些与“信息茧房”相关的概念开始出现,如“过滤气泡”“回音室效应”等。这些概念既同“信息茧房”相关联,又有其各自不同的含义。“过滤气泡”是与“信息茧房”相似的现象。帕里泽发现搜索引擎可以随时了解用户偏好,并过滤掉异质信息,为用户打造个性化的信息世界,但同时也会筑起信息和观念的“隔离墙”,令用户身处在一个“网络泡泡”的环境中,阻碍多元化观点的交流。帕里泽将此称为“过滤气泡”(郭小安、甘馨月,2018)。“回音室效应”是信息茧房的后果之一,指在一个网络空间里,如果你听到的都是对你意见的相类回响,你会认为自己的看法代表主流,从而扭曲你对一般共识的认识(桑斯坦,2003)。


目前学界对信息茧房效应是否成立仍存在一定争议,但国内外多数研究都采取支持观点,并通过用户信息获取的单一化、同质化程度对“信息茧房”进行了检验与探讨。就信息茧房的实际测度而言,学界目前分别从内容消费与内容生产的不同维度进行。一种是从信息接收、阅读层面测量用户信息接触的局限性与单一性,也即从内容消费维度测量“信息茧房”。例如,Zhao等(2020)通过观察随着用户在线时间(或用户点击)增加,推荐系统向其推荐的文章的主题的多样化和集中程度来衡量“信息茧房”,如果用户阅读大量属于单个主题类别的文章,则陷入信息茧房的风险较大。Xu等(2020)利用人类行为序列作为词嵌入模型输入,追踪移动阅读用户从一点到另一点的注意力移动顺序,勾勒出每个用户的茧房程度,以及用户陷入了何种内容类型的信息茧房。杨洸、佘佳玲(2020)采用问卷调查方法测量用户在今日头条平台使用中存在的信息茧房效应,发现用户越沉浸于平台中,得到推荐的信息同质化越高,观点多样性越低。另一种是从信息发布、生产的角度衡量用户关注内容的同质化与封闭性。例如,张淑芳、杨宁(2019)认为信息茧房会影响到用户的信息生产活动并外化至其生产的信息,在造成用户信息接受窄化的同时,也造成用户信息生产的窄化与单一化。陈华珊、王呈伟(2019)以每位用户在不同类别主题上的不同内容回复概率作为新闻消费偏好指数计算用户话题偏好程度,通过这种方式来测量腾讯新闻客户端中的茧房效应。Di Marco等(2021)通过YouTube用户在不同视频下方发布的评论来量化他们的喜好强度,这些视频具有不同的政治偏见和事实核查指标,研究结果为政治偏见和信息渠道可信度两个维度上“回音室效应”的存在提供了证据。Zheng & Gupta(2019)通过用户发布帖子的内容多样性(即用户在一段时间内发表的所有帖子中使用的不同词汇的数量)来评估用户的“兴趣窄化”程度。Jatowt等(2015)将用户在一段时间内发布的推文内容作为量化用户的注意力模式以及讨论话题多样性的指标。


本研究针对社交网络用户的信息生产维度所反映的信息茧房程度,探究随着信息茧房程度加深其信息生产所呈现的情感偏向。研究信息生产维度“信息茧房”的情感偏向与特征,是对“信息茧房”及其相关概念作用机理的进一步探讨,对于我们更加深入理解社交平台中的情感传播有重要意义。


(二)信息茧房的情感偏向


从信息生产维度出发,在信息茧房与情感偏向现有的研究中,多数学者认为,用户信息茧房程度会对用户造成负面的情感偏向。Sunstein(2003)认为,相同观点的人之间的讨论会让用户的情感偏向负面。Bessi等(2015)在社交媒体中的实证研究表明:用户的内容生产围绕特定的世界观会促进同质化社区的形成;在同质化社区中,用户无论是面对事实还是面对谣言,生产的内容越多,讨论的时间越长,越会让情感偏向负面。不过,谣言帖子的讨论所表达出的情感往往比事实帖子更加偏向负面。DelVicario等(2016)进一步发现,用户的情感行为会受到他们在社区中的参与的影响:对回音室的参与程度较高,情感更加偏向消极。同时,回音室的参与会影响用户的情感动态;用户越活跃,在评论时表达消极情感的倾向就越高。也就是说,用户越多次地生产相同或相似的信息,情感越偏向消极。然而该研究虽然提出了信息茧房是存在情感偏向的,但并未充分探讨高信息茧房程度的用户具体偏向哪些情感类型。随着信息茧房程度的加深,社交平台用户到底呈现出怎样的情感偏向,尤其是偏向哪些具体的情感,这是本文“信息茧房的情感偏向”研究所关注的基本问题。


信息茧房和情感偏向关系问题,也涉及认知和情感的关系问题,但目前有关情感对认知有怎样的影响以及如何影响的研究仍存在争议。早期研究主要关注情感的消极、积极性质对认知的影响。Fredrickson(2001)提出情绪的“拓展建设”理论,他认为积极情感的情感体验能够帮助个体营造出对信息更开放的态度与更灵活的思维,这种积极的模式可以拓宽个体认知。在此基础上,有学者从动机强度维度解释情感如何影响认知范围,带来了新的思考角度和研究方向。Price & Harmon-Jones(2010)定义动机强度为动机力量的大小、行为倾向的动力、高动机强度情感如渴望、低动机强度情感如愉悦。他们研究发现,只有动机强度较低的积极情感才能拓宽认知范围,而动机强度较高的积极情感会缩小认知范围。进一步地,Harmon-Jones等(2013)发现,尽管过往一些研究普遍认为,积极的情感状态会导致认知范围的扩大,而消极的情感状态会导致认知范围的缩小,但事实是,认知范围其实受到动机强度的影响。无论情感状态的积极性或消极性如何,低动机强度的影响会扩大认知范围,而高动机强度的影响会缩小认知范围。动机强度理论提出以来,不少学者对该理论进行了验证。Liu等(2014)使用行为学和神经生理学验证发现高动机强度的情感状态会扩大注意范围。Ma & Li(2016)研究发现低动机强度的消极情绪(悲伤)相对于高动机强度的消极情绪(厌恶)增加了隐蔽注意定向任务中的注意灵活性,即低动机强度的负性情绪会扩大注意焦点。Yang等(2021)通过测量注意力广度的全局局部任务实验发现,与低强度的动机情绪环境相比,参与者在高强度的情绪环境中做出了更少的全局选择,这表明注意力的宽度变窄。这些研究探讨了情感的类型偏向与认知的窄化之间的关联性,为本研究提供了有益的参考,而情感与认知的关联在社交网络平台内容生产与信息传播中仍有进一步探讨的必要。


信息茧房和情感偏向关系问题可能与情感本身在社交网络中的特性有关。不同的情绪类型在社交网络中的传播呈现出差异性的特征。在群体传播中,Joiner(1994)指出消极情绪比积极情绪更容易传播。就电子媒介或网络媒介等新型传播方式而言,其显现出与群体或一般人类心理“负性倾向”的差异和复杂的情绪特征。Belkin等(2006)研究网络环境中在线用户的情感传播特征,相比消极情绪,积极情绪更容易向外界广泛传播,有更大面积的情绪感染,且积极情绪对未来关系有一定的促进作用。Thelwall等(2010)对MySpace平台上的用户评论内容进行了分析,通过抽样调查和监督学习分类的两种手段,得出了正面情绪具有更强传播性的结论。Wu等(2011)对Twitter上信息内容与信息衰减速度的关系进行了研究,结果显示:迅速消退的信息中明显地包含了更多的消极情绪、行为,而长期存在的信息包含更多的积极情绪、休闲和生活方面的词汇。Hansen等(2011)研究了Twitter中情感对转发的影响及其复杂关联,在随机样本中,对于作为主要人际传播形态的社会消息来说,积极情感能促进其转发;而对于作为公开发行媒介的新闻内容来说,消极情感能促进转发——研究者将其称为“对朋友们要说好听的话,对公众要提供坏消息”。Zhao等(2012)在对新浪微博的研究中,将情绪细分为愤怒、喜悦、低落、厌恶四种,愤怒情绪更容易在微博中得到传播,低落情绪则不容易得到传播。


同时,不同的情绪类型对用户认知、态度和表达的影响有所不同。Forgas(1998)的研究注意到情感在群体极化中对倾向与程度的作用:在正性的情感体验情境下,个体的决策判断在经过群体讨论后变得更加积极,而在负性的情感体验情境下,经过群体讨论后个体的决策变得更加消极。Kramer(2012)基于Facebook研究发现,网友评论信息中表达的正、负情感能通过情感感染方式影响受众情感,并使受众产生类似态度。Wollebæk等(2019)认为,愤怒加强了数字公共领域的回音室,而恐惧消减了此回音室。如果信息茧房存在着情感偏向,那么信息茧房所偏向的情感在社交网络用户中呈现怎样的特性,也是待考察的关联问题。


结合上述考量,本文提出第一个问题:

Q1:用户信息茧房是否具有,具有怎样的情感偏向?也即信息茧房是具有各自不同的、差异化的情感偏向,还是具有共同的情感偏向?


信息茧房与情感偏向的关系问题,还可能与平台的情感特征有关。就微博平台而言,其主导情绪尚未产生统一的结论。一些研究认为,微博情绪以负面情绪为主。隋岩、李燕(2012)在个人情绪得到自由表达的背景下,认为从著名论坛到门户网站再到微博,网络空间充斥着责斥、不满等负面情绪。刘丛等(2015)在微博传播的研究中将情绪分为认可、恐惧、质疑、担忧、反对、愤怒、悲哀、惊奇及无明显情绪的信息陈述,发现普通用户中愤怒和质疑情绪占据最主要的比例。同时,也有研究实证发现,微博是由积极情绪主导的。陈安繁等(2019)发现,在微博上表达正面情感的用户比例大于表达负面情感的,是一种“积极主导”(positivity dominating)。如果信息茧房存在着情感偏向,那么信息茧房所偏向的情感与平台本身的情感是否有关,也是待探究的关联问题。


本文所要进行的“信息茧房的情感偏向”研究,指向社交网络用户个体随着信息茧房程度加深而表现出来怎样的情感特点。过往关于信息茧房及相关概念的研究普遍认为,社交平台用户陷入“信息茧房”会导致信息和意见的趋同。这种趋同不仅表现在用户获得的内容在主题和立场等方面趋同,还表现在用户所在的群体或圈子,其信息和意见也会趋同。这种信息和意见的趋同反映在信息生产的同时,会不会带来用户之间情感的趋同?由此,本文继续提出与问题Q1紧密相关的问题:

Q2:如果用户随着信息茧房程度加深而具有相同的情感偏向,那么信息茧房程度越高的用户是否越是具有趋同化而非差异化的情感?


总体来说,社交平台信息生产作为用户情感表达的载体,生产维度的信息茧房与情感传播相关研究并未得到充分重视;信息茧房是否具有情感偏向,朝向何种情感发生偏向,这些情感偏向是否带来情感趋同的后果,对此相关联问题的实证探讨及特征分析尚显不足。现有研究中并未充分研究高信息茧房程度用户个体具体偏向哪些情感类型;也缺乏通过规模性的样本定量研究和实证检验,分析随着信息茧房程度加深,用户情感偏向在群体中是否产生趋同亦或趋异特征。为此,本研究将描绘信息茧房的情感偏向,探讨信息茧房的情感具备趋同还是趋异的特征,以探究“信息茧房的情感偏向”及其后果。


三、研究思路与假设

在对上述问题进行定量研究和实证检验前,我们还需对问题进行进一步讨论。针对问题Q1,提出与其相应的假设:

H1:社交网络内容生产中,随着用户信息茧房程度加深,用户的内容会偏向某些特定的情感类型而非任意的情感倾向。


如果假设H1能够成立,那么信息茧房程度越深则越集中于少数几种特定类型的情感,那也就意味着:信息茧房程度越高的用户,越是收敛于少数几种情感,都在朝相似的目标前进;高程度的信息茧房离这个目标更近,低程度的信息茧房离这个目标更远。所以,信息茧房程度最高的用户虽然不代表信息茧房情感趋同的方向,但近似地等于或反映这个方向。因此,提出假设:

H2:随着用户信息茧房程度加深,用户与信息茧房最高的“顶部”用户情感越来越相似。


这里,把全局用户中信息茧房程度最高的若干用户简称为顶部茧房,也即H2等价为:若用户U的信息茧房程度越高,则其与顶部茧房的情感相似程度越高。后文把H2所指涉的这种情感相似化现象简称为顶部趋同。


假设H1所推论出的假设H2,回应了问题Q2。综合以上内容,本文的研究思路如图1所示。



四、研究方案与实施过程

(一)数据采集与预处理


新浪微博(2021)《2020微博用户发展报告》显示,2020年9月,新浪微博月活用户为5.11亿,日活用户为2.24亿。在数据收集方式上,研究采取覆盖广、成本相对较低的“滚雪球”抽样方式。


首先,课题组运用开源抓取工具“八爪鱼”,以及用Python和Selenium编写动态网页抓取程序进行网络数据抓取。从新浪微博首页47个内容板块中,各个板块每天早晚各抓取一次,持续1个月,获得65650条帖子。这些帖子广泛而大致均衡地分布在这47个板块中。从这些帖子的发布者中随机抽取500个用户,作为种子用户;对每个种子用户从其最多前5页被关注者中随机抽出1名,得到下一轮的500个样本用户;将此过程循环20轮得到500×20=10000个样本用户。对上述用户统一横向的比较口径:其一是时间段上一律选取2017年1月1日到2019年12月31日这三年发布的帖子,以统一比较的时间段口径;其二是每个用户一律随机选取上述三年内的300条帖子,以统一比较的帖子数量,少于该数量的用户不纳入分析,这一步骤通过Numpy中的Random模块完成。最后得到的有效用户为2143个,发布帖子总数为1975085条。分析结果见图2、图3。




(二)基于Word2Vec对于帖子相似性和用户信息茧房程度的度量


本文基于Word2Vec模型计算2143个用户各300条帖子之间的相似程度,以此衡量用户的信息茧房程度。信息茧房会影响到用户的信息生产活动并外化至其生产的信息,在造成用户信息接受窄化的同时,也造成用户信息生产的窄化与单一化(张淑芳、杨宁,2019)。相似或重复的内容出现比率的提升意味着人们信息视野的窄化,个体发布内容越来越不关心外界的声音,而越来越转向内向型生长。因此,有必要将内容的自我相似度、重复度视为测量窄化的维度之一(徐翔、靳菁,2021)。对于任一用户的300条帖子,本研究将每条帖子经向量化转换后计算帖子之间的相似程度后得出结论:这300条帖子的彼此相似程度越高,则显现出用户的主题、兴趣越多地集中于相同或相似的内容,从而其信息茧房程度越高。


首先,采用Word2Vec词向量及其平均池化的方式对帖子内容进行量化。Shen等(2018)对词向量采取等权求平均向量的方法,与循环和卷积网络进行比较发现,在大多数情况下前者表现出更高性能。Word2Vec是Mikolov等(2013b)提出的浅层神经网络语言模型。通过无监督训练将文本数据转化为低维实数向量,通过语言模型对语义和语法信息进行训练并投影到多个向量空间,从而完成文本的结构化处理。向量空间模型(VectorSpaceModel)是常用的文本表示模型,对于特征覆盖性较全,但它并不能解决词汇相似度和“词汇鸿沟”的问题。Word2Vec基于神经网络的词嵌入则可以很好地解决这一问题(Mikolov et al.,2013a)。


对于Word2Vec模型的搭建和训练,采用开源模块Gensim(Rehurek & Sojka,2011)实现。训练Word2Vec所使用的语料采用26G的中文语料库,来源包括媒体新闻库、网络论坛帖子抓取、经典名著和文学文本等,该词向量训练结果包括5830979个词汇的嵌入式表示,训练效果良好。


Word2Vec词向量及平均池化的计算方式如下。Word2Vec的词向量对帖子进行等权平均计算形成句向量,对Word2Vec的参数设定300维空间。将样本中的帖子按照分词后的结果,把每一个单词转换成一个300维的词向量,然后计算每个词向量的平均值,得到该帖子、短文本的语句向量。具体来说,逐一将样本中的帖子T1中的每一个词(A\B\C\D)各表示为形如V=[0.01,1.002,-0.02,…2.26,0.05,3.97]的300维的向量。接着计算T所有词向量的等权平均值(也即平均池化)∶



帖子相似程度,是基于Word2Vec对帖子向量化之后的数组进行余弦相似度计算。余弦相似度越大,句向量在语义空间中的内容相似度越高。两个帖子向量A、B之间夹角θ的余弦值表示为:



对于每个用户300条帖子之间的相似程度,即信息茧房程度,可根据“类平均法”展开。将任意两条帖子(帖子a和帖子b)之间的余弦相似度表示为S(a,b)。对于用户n条帖子的平均相似度,通过用户所发帖子相互之间的平均相似度来反映和测量:用户具有的帖子样本数量为n,剔除处于对角线位置的n个等于1的值,对剩下的n×(n-1)个数值求均值,即这n条帖子之间两两相似度的平均值,可表示为:



用户帖子之间两两相似程度越高,表明这些内容之间两两的趋近、类同乃至重复程度越高,即信息茧房程度越高;异质化的内容越多,内容之间差异越大,则这些内容的平均相似程度就会越低,即信息茧房程度越低。


(三)情感分类


本文根据微博社交网络研究对象,将情感划分为32种类型。保罗·艾克曼(2008)指出人类具有六种共通的基本情感:快乐、悲伤、愤怒、厌恶、惊讶和恐惧。该说法得到了较多的认可。Plutchik & Kellerman(1980)把人类情感分为八种基本类型:恐惧、气愤、欢乐、悲伤、接纳、厌恶、期望、惊讶。徐琳宏等(2008)在艾克曼的六大类情感分类体系的基础上,构建了包括乐、好、怒、哀、惧、恶、惊、无情感八大类的分类方式,并在该八大类的体系基础上将情感进一步细分为23个小类。刘丛等(2015)设计了认可、恐惧、质疑、担忧、反对、愤怒、悲哀、惊奇及无明显情感等九类情感量表。本研究情感分类整合了界限较为模糊的情感,将帖子情感划分为32种,具体如下:尊敬、羡慕、悔恨、内疚、烦闷、骄傲、悲伤、惊喜、惊骇、安心、疑惑、无奈、厌恶、感动、质疑、气愤、期望、妒忌、失望、振奋、同情、羞、怀疑、惊奇、恐惧、愉悦、赞扬、喜爱、想念、慌、认同和无情绪。


帖子的情感类型判定依据文字内容来进行。由于样本量较大,人工进行分类较为困难,因此本研究采用机器学习的研究方法,具体使用深度神经网络学习方法。首先,给样本帖子“打标签”。由一名编码人员对32000条帖子样本进行情感分类,然后由另一名受过训练的人员进行部分抽检复核。这些人工编码的样本来自新浪微博帖子,和所分析的微博帖文具有基本相似的短文本特征,而且也满足社交网络的口语特点或表达特征。各种情感分别取1000条,全部情感类型样本数相等,总的用于机器学习的样本数为32×1000=32000条。情感32类分类较为复杂,类和类之间具有一定的模糊度与重合性,例如,“惊喜”和“愉悦”在部分场景下会出现重合,“烦闷”和“厌恶”有时也会出现重合;即使是人工把帖子归到某种单一的主导情绪也会存在难以判别的情况。为验证人工分类帖子情绪的准确度,对于人工分类结果中的各情绪随机抽取了20(条)×32(类)=640条,由另一名人员进行复判,一致率为98.9%。


随后采用Bert神经网络进行机器学习和大规模帖子情绪的判定。Bert神经网络模型的编写采用Python3.8.0+Keras2.8.0,其中关键部分的Bert模型搭建采取开源模块Keras_Bert,结合谷歌预训练过的中文模型(Chinese_L-12_H-768_A-12)。最终的模型的参数总数与可训练的参数总数均为101683208个。输入的帖子若超出64个字符则只保留前64个字符。微博帖子的字符数不长,64个字符通常足以反映该条帖子的情绪;样本中70%的帖子长度都不多于63个字符,帖子长度的中位数仅为35个字符。


机器判定结果之后,为考察机器判定帖子情绪的准确度,对于机器分类结果的情绪随机各抽取了10条帖子(共320条)让编码员进行复判,机器分类和人工分类的Kappa值为0.777,Kappa统计量95%的置信区间为(0.730,0.824)。Kappa检验的一致性程度分为0.55<Kappa≤0.70时,一致性较高;0.70<Kappa≤0.85时,一致性很高;而Kappa>0.85时,一致性非常高。人工与机器情绪判定结果一致性达到高水平,为分析结果的可信度进一步提供保障(Monserud & Leemans,1992)。


(四)假设转化


1.  对假设H1的考察

若要考察随着信息茧房程度的加深,用户情感是否朝共同的情感发生窄化,需计算各用户32种情感的相对分布情况,将用户信息茧房程度与用户32种情感的分布情况进行相关性分析。即对于NN=2143)个用户而言,逐次计算每个用户的信息茧房程度,表达为向量Vc;分别计算每个用户32种情感的分布比例,得到32个向量,每个向量的长度等于N,分别表示为V1,V2,……,V32。这样,对于假设H1而言,即为检验Vc和32个向量V1,V2,……,V32中是否存在着显著的正相关,和哪些向量存在着正相关。


2.  对假设H2的考察

假设H2提出,用户茧房程度越高,用户与高信息茧房程度的用户情感相似程度越高。那么,计算用户与信息茧房顶部用户的情感相似度,并将用户信息茧房程度与之进行相关性分析,即可对假设H2进行验证。选择信息茧房程度最高的k个用户,然后考察是否用户信息茧房程度越高则和这些顶部的k个用户的情感相似度越高。本研究中,分别把“顶部”信息茧房的数量设定在1、30、50、100的不同数值进行考察。一方面,k的取值要足够小,使得这些用户是所有样本中信息茧房程度最高的一小部分用户;另一方面,在社会科学研究中,k≥30或50时是可以接受的抽样阈值,使得统计结果的计算和检验具有足够的稳定性。


其中,对于一个用户与k个用户的情感相似度,可通过计算该用户与k个用户两两之间的情感相似度展开,再利用“类平均法”计算该用户与k个用户之间情感相似度的平均值。根据每个用户32种情感的分布比例表达为32维的向量,则可以根据该向量计算任意两个用户之间的情感相似度。这里的相似度计算同样采取余弦相似度的方法。对于用户与信息茧房程度最高的k个用户的情感相似度计算,根据余弦相似度R(Um,Un)利用“类平均法”得到用户与k个用户的平均情感相似度,公式如下:



五、实证分析结果

(一)假设H1的检验


假设H1的检验结果显示,对于全体样本用户而言,信息茧房程度越高的用户越是朝少数几种情感发生“不约而同”的共通偏向,而非“因人而异”地、杂乱地陷入不同的情感偏向。如表1所示,信息茧房程度与羡慕、惊喜、安心、振奋、内疚、无奈、想念的相关系数分别为0.269、0.196、0.339、0.201、0.142、0.207、0.279,存在一定正相关性,且p<0.01,相关性显著。信息茧房程度与骄傲、愉悦也存在一定的正相关性,相关系数分别为0.071、0.068,p<0.01,相关性显著,但这两种情感相关系数较小。



H1的检验结果表明,信息茧房程度越高的用户,越是偏向羡慕、惊喜、安心、振奋、内疚、无奈、想念、骄傲、愉悦这少部分的情感,而不是大部分的情感。同时,在这九种情感当中,羡慕、惊喜、安心、振奋、骄傲、愉悦六种情感都具有正面情感特征。总的来说,信息茧房程度越高,就越具有共通的情感偏向,且这些偏向的情感在一定程度上具有正面情感特征。困在信息茧房之中,不仅是“为情所困”,而且也是为少数特定类型的情所困。


为进一步探究信息茧房所正向偏向的九种情绪对用户信息茧房程度的作用,本文依据逐步回归策略,逐步分析与信息茧房程度相关的这几种情绪在多大程度上能够解释用户信息茧房程度,结果如下。


关联强度方面,随着情绪的增加,模型的判断系数逐步增加,标准估算的误差逐步减小(见表2)。最后一个模型的调整后R2为0.489,F值对应的概率值近似为0。九种与信息茧房程度呈正相关的情感分布能够解释约48.9%的信息茧房程度变化。



从回归方程的显著性来看,F值为228.847,其F值对应的概率值近似为0。回归系数不为0时,信息茧房程度与九种情感存在显著的线性关系,选择线性模型具有合理性。


从回归系数的显著性来看,每个变量对应的概率值均近似为0,九种情绪的回归系数显著性检验结果均为显著,无应被剔除的解释变量。各情绪对于信息茧房程度的重要性大小分别为惊喜、无奈、安心、想念、羡慕、愉悦、振奋、内疚、骄傲,其标准化系数分别为0.382、0.368、0.342、0.259、0.247、0.225、0.197、0.157、0.125。多重共线性诊断方面,安心、羡慕、想念、无奈、惊喜、振奋、愉悦、内疚、骄傲的容忍度分别为0.907、0.901、0.926、0.854、0.785、0.869、0.921、0.993、0.922,方差膨胀因子分别为1.103、1.110、1.080、1.172、1.275、1.151、1.086、1.007、1.084,模型的多重共线性较弱(见表3)。



对回归方程残差进行分析,残差服从正态分布,回归模型满足正态要求。残差的方差随着解释量的增加没有呈现增加或减少的趋势,不存在明显的异方差现象。


最终的多元回归方程为:



线性回归方程表明,这九种情绪的增加都会在一定程度上加深信息茧房程度。困在少数特定情感类型之中,也会陷入信息茧房之中。同时,通过这几种特定的情绪所占的比例,可对用户的信息茧房程度进行预测,其调整后R2达到了0.489。


(二)假设H2的检验


对假设H2进行验证,检验用户信息茧房程度,以及用户与信息茧房程度最高的k个用户的情感相似度的相关性。结果表明,在一定范围内,用户信息茧房程度和该用户与茧房顶部用户的情感相似度呈正相关。


如表4所示,在k分别取为1、30、50、100时,用户信息茧房程度和用户与信息茧房顶部用户情感相似度的皮尔逊相关系数分别为0.254、0.260、0.226、0.208,p值均小于0.01,相关性显著。对于用户信息茧房程度和用户与信息茧房顶部用户情感相似度,当k值为30时,两者正相关程度要强于当k值为1时两者的正相关程度。这与信息茧房程度最近的用户具有随机性相关。从总的趋势来说,随着茧房程度的加深,用户情感与高信息茧房程度用户的情感变得越来越相似。用户的信息茧房具有朝向顶部茧房趋同的情感特征。



六、进一步的讨论

本文显示的情感偏向具有正面性的研究结果与文献的研究结果并不一致,本文推测这可能与不同平台的情感偏向有关。不同的媒介形式或传播形式对情感诉求有所不同,不同的社交平台可能让高信息茧房用户困在不同情感当中。为验证新浪微博平台信息茧房所偏向的情感是否与该平台本身的情感偏向具有一致性,本文根据是否为高信息茧房用户所偏向的情感类型进行了分组,结合独立样本t检验,检验分组与帖子情感均热度、帖子所占数量比例和帖子的特征向量中心性是否存在显著性差异。帖子均热度、帖子所占数量比例和帖子的特征向量中心性三方面,分别体现了该情感在平台的影响能力、生产能力和传播能力,能够反映该情感在平台的主导性。t检验能反映出具有“信息茧房情感偏向”的情感类型与其他情感类型在平台当中是否存在帖子热度、帖子数量比例和该类帖子内容的特征向量中心性的显著性差异,也即大致反映出具有“信息茧房情感偏向”的情感类型与平台主导的情感是否具有一致性。


帖子热度根据每条帖子的点赞数、评论数计算。首先将每个指标值xi经以2为底的对数函数转换:log2(xi+1)。其后进行Min-Max归一化处理,归一化的公式为:(xi-min(x))/(max(x)-min(x))。评论数、点赞数分别归一化,统一量纲到[0,1]之间的值,并将两者等权相加后的值作为帖子的热度值指标。


帖子数量比例指某类情感在全部帖子样本中所占的数量比例。


帖子内容的特征向量中心性指某类情感的帖子的内容在该平台中的“主流度”或类相似度矩阵中的中心性程度。准确而言,其计算方式如下:首先,对32类情感的帖子,通过前文所述的Word2Vec平均池化的方式把每条帖子转换为一个300维的向量之后,任一类情感的帖子(设有mi条)可形成mi×300的二维数组;其次,对任意两类情感的帖子(设分别有mi条和mj条帖子,也即分别表示为mi×300和mj×300的两个二维数组),对这两个数组通过前文所述的“类平均法”(参见式4)计算得到两类情感的帖子之间的内容相似度;最后,32类情感的帖子的彼此内容相似度得到32×32的相似度矩阵。对这个相似度矩阵,通过Python中的NetworkX模块计算“特征向量中心性”,即可得到每种情感的内容在全局的中心性程度。在特征向量中心性中,与重要的节点连接比单纯地和更多的不重要的节点连接具有更为令人瞩目的地位(扎法拉尼等,2015)。


在微博平台中,两组情感各自帖子平均热度、帖子数量比例、帖子内容的特征向量中心性是否存在显著差异,t检验结果如表5所示。



检验结果表明,不同分组样本对于帖子均热度、帖子所占数量比例、帖子的特征向量中心性均呈现出显著性差异(p<0.05)。其中,分组对于帖子均热度呈现出0.01水平显著性(t=-4.994,p=0.000),以及具体对比差异可知,与信息茧房程度呈非正相关的23种情感帖子均热度的平均值为0.21,明显低于与信息茧房程度呈正相关的9种情感帖子均热度平均值0.25。分组对于帖子所占数量比例呈现出0.05水平显著性(t=-2.795,p=0.021),具体对比差异可知,与信息茧房程度呈非正相关的23种情感帖子均热度的平均值为0.02,明显低于与信息茧房程度呈正相关的9种情感帖子均热度平均值0.07。至于分组对于帖子的特征向量中心性,虽然不同分组平均值未呈现出明显差异,但仍呈现出0.05水平显著性(t=-2.559,p=0.016)。总的来说,信息茧房程度高的用户偏向的几种情感,其帖子均热度、帖子所占数量比例和帖子的特征向量中心性均高于其他情感。也就是说,具有“信息茧房情感偏向”的情感类型与平台主导的情感具有一致性,该结果验证了前文的推测。


该结果也可以与一些既有研究进行相互论证。陈安繁等(2019)的研究中已经发现微博平台的“积极主导”,偏向正面情感的用户,其信息表达具有一定程度的窄化,生产的这些信息也更容易得到扩散。Wu等(2012)的研究指出,喜爱发布正面微博的用户会获得更高关注度,对这些用户的预测准确性相比喜爱发布负面微博的用户准确性更高。


对于微博平台,偏向正面的情感处于平台的主导地位。个体不仅束缚在自身有限信息世界中,也束缚在平台用户共通的情感偏向之中。用户的信息茧房的情感偏向不仅是单纯意义上的个体“为情所困”,也体现出一种“平台情感牢笼”。


七、结语

实证分析表明,陷入信息茧房的用户呈现出情感偏向及由此延伸的顶部趋同两种情感特征。基于微博平台,随着信息茧房程度的加深,用户情感主要偏向羡慕、惊喜、安心、振奋、内疚、无奈、想念等正面、积极的情感。在此基础上,信息茧房的情感偏向伴随着“顶部趋同”现象,随着用户信息茧房程度加深,用户与信息茧房顶部用户的情感变得越来越相似。


信息茧房具有共通的情感偏向,而不是无偏向或随机偏向。信息茧房是有情感、有温度的,而且是特定方向和类型的情感。这也意味着从“信息茧”到“情感茧”的理论可能性与现实意义。对于社交平台的研究,我们不仅应关注“信息茧房”的问题,还应把目光投向“情感茧房”,考察信息茧房所关联的“为情所困”的情感特征。


在信息茧房的情感偏向前提下,信息茧房会陷入相似、相通的情感状态,导致情感与茧房顶部趋同化。茧房顶部情感趋同化意味着,平台用户不仅为信息所困,也“为情所困”。平台用户越来越浸泡于相似的情感模式与特征之中,成为自动化、机械化的情感主体。虽然用户情感表面上是自主的,但其实用户仍然缺乏自主情感的自由,用户情感在自觉或不自觉地受到同化影响甚至控制,有方向地趋近于高茧房程度的用户。


信息茧房在一定程度上能被所偏向的几种情感解释。这说明,信息茧房并非完全由技术决定,而是多种维度共同作用的结果,其中,情感是非常重要的维度。多样化的情感内容不仅有利于用户个人的情感表达,也在一定程度上有利于用户突破个人的信息茧房。


此外,信息茧房的情感偏向与平台的主导情感具有一致性。为实现用户从“信息茧房”中的成功突围,除了可以考虑促进用户个人情感表达的多样化,同时还可考虑平台对用户情感导向的调节功能。平台情感环境的相对均衡性也可能在一定程度上有助于用户突破信息茧房。


作为个体,我们不仅生活在有限信息世界的“个人茧房”之中,也生活在媒介空间及其情感所建构的“公共茧房”之中。社交平台承载着个体对于自我所处的“信息环境”与“情感”的感知、体验和判断。同时,它还决定着我们如何以情表达、以情行事和具有怎样的情感烙印。平台背后的情感维度和情感牢笼也在相当程度上影响着我们被困在何种信息和情感的茧房之中。社交网络中的各种制度性规范使网络关系呈现一种制度化的形态,而“公共茧房”又是从这个层面对个人造成规训和约束的结果,使得个体处于一定程度的被压抑的状态。用户既束缚于个体的信息茧房和情感茧房当中,又处在相对更为隐形的平台公共“情感桎梏”之中。


本文系国家自然科学基金项目“社交网络互动中用户‘信息窄化’机理分析:基于微博的数据挖掘”(项目批准号:71804126)阶段性研究成果。



本文参考文献从略,完整版请参看刊物原文

本文引文格式:徐翔、董洁芸:《社交网络内容生产中用户“信息茧房”的情感偏向研究》,全球传媒学刊,2022年第4期,78-99页。


往期回顾

1

文本、读者、语境:当代西方电影接受史观的博弈——基于珍妮特·施泰格电影接受研究的探讨

2

互动仪式链视角下网络推理类综艺的普法分析

3

以市场之名:近十年中国电影在越南的传播(2012—2021)

4

地域影像的全球性书写与主体性自述——基于藏地新浪潮电影的研究

5

李彬等 | 潜水艇想象、技术文化与科学叙事——谈海洋科幻电影中的科技意象

6

刊首语 · 胡智锋 | 传播应让世界更美好

7

目录 | 《全球传媒学刊》2022年第4期


全球传媒学刊

微信号  |

GJMS2014 (←长按复制)

   箱  |

gmj2014@tsinghua.edu.cn 

唯一指定投稿系统地址  |

http://qqcm.cbpt.cnki.net

*本刊不以任何形式向作者及单位收取版面费、审稿费、中介费等费用。


望学界业界垂青,我们共同助力中国新闻传播学研究。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存