查看原文
其他

WordBias | 可视化文本中的偏见(刻板印象)

大邓 大邓和他的Python 2022-07-09

词嵌入做为一种词向量模型,可以从文本中计算出隐含的上下文情景信息,态度及偏见。通过词向量距离的测算,就可以间接测得不同群体对某概念(组织、群体、品牌、地域等)的态度偏见。

偏见(刻板印象)的介绍有

大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

计算机科学家,正研究如何在AI中减弱甚至剔除刻板印象;但在社会科学领域,接受已有数据中存在的刻板印象,在数据中测量Bias,发现Bias,应用Bias,也能更好的认识和改造社会 。今天介绍一个挺好玩的工具WordBias。


五一工作坊感兴趣的童鞋可以关注一下,Python部分新增词嵌入&偏见挖掘

https://hidadeng.github.io/blog/2022-05-workshop/7-Python.html


WordBias

WordBias:一种用于发现词嵌入偏见(刻板印象)的交互式可视化工具, 旨在探索子群体(intersectional groups,直译为交叉群体)(如黑人女性、黑人穆斯林男性等)在词嵌入中的编码偏见。我们的工具认为一个词与一个交叉组相关联,例如“Christian Males”,如果它与它的每个构成子集(Christians 和 Males)密切相关。我们的工具旨在为专家提供有效的审核工具,为非专家提供教育工具,并增强领域专家的可访问性

例如对“黑人男性”的刻板印象,是由“男人”和“黑人”两类刻板印象加上一些其他线索组成的。

所以这里intersectional groups,直译为交叉群体, 感觉不太好理解, 我把intersectional groups理解为群体中的子群体。个人理解,不一定合理,欢迎留言。

  • https://github.com/bhavyaghai/WordBias
  • Paper https://arxiv.org/abs/2103.03598
  • 视频演示(5min) https://www.youtube.com/watch?v=LcwlyU3QT0w
  • 在线Demo http://130.245.128.219:6999/

安装

  • 下载仓库 https://github.com/hiDaDeng/WordBias.git

  • 命令行切换至WordBias文件夹,安装依赖包

    cd Path_of_WordBias_Directory
    pip3 install -r req.txt
  • 运行WordBias,命令行执行

    python3 app.py
  • 在浏览器中打开打开链接

    https://localhost:6999

浏览器中会出现界面,如下图


界面

上图为WordBias的可视化界面。图片可以分为3部分:
(A) 控制面板提供选择要投影到平行坐标图上的单词的选项
(B) 主视图显示所选单词(蓝线)沿不同偏见类型(轴)的偏差分数
(C) 搜索面板使用户能够搜索单词并显示搜索/刷新结果。


案例1-极端主义

在上图A位置选择恐怖主义类别词Extremism

在图中B位置,可以看到这些负面词在不同维度上存在不同的偏见。

  • 性别: 这类词主要倾向于男性
  • 地区:这类词倾向于伊斯兰地区
  • 年龄: 这类词倾向于年轻人
  • 经济:  这类词倾向于贫穷

这表明 Word2vec 嵌入包含对穆斯林地区的贫困男性存在偏见。


案例2-pretty/beautifull

根据WordBias,描述女性美丽,可能不同的词使用范围不太一样。

在年龄维度,pretty更适合描述小女生,而beautifull适合成熟女性。

岁月从不败美人,说的就是beautifull woman吧。


论文

使用到wordbias,请注明出处

@inproceedings{ghai2021wordbias,
  title={WordBias: An Interactive Visual Tool for Discovering Intersectional Biases Encoded in Word Embeddings},
  author={Ghai, Bhavya and Hoque, Md Naimul and Mueller, Klaus},
  booktitle={Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems},
  pages={1--7},
  year={2021}
}

基于训练好的词嵌入模型,WordBias计算每个词与性别、宗教等不同社会分类(类别词典)的偏见分数(关联系数),研究者定义了多个类别,如子类别,

子类词表
GenderMalehe, son, his, him, father, man, boy, himself, male, brother, sons, fathers, men, boys, males, brothers, uncle, uncles, nephew, nephews
GenderFemalshe, daughter, hers, her, mother, woman, girl, herself, female, sister, daughters, mothers, women, girls, sisters, aunt, aunts, niece, nieces
AgeYoungTaylor, Jamie, Daniel, Aubrey, Alison, Miranda, Jacob, Arthur, Aaron, Ethan
AgeOldRuth, William, Horace, Mary, Susie, Amy, John, Henry, Edward, Elizabeth
ReligionIslamallah, ramadan, turban, emir, salaam, sunni, koran, imam, sultan, prophet, veil, ayatollah, shiite, mosque, islam, sheik, muslim, muhammad
ReligionChristainitybaptism, messiah, catholicism, resurrection, christianity, salvation, protestant, gospel, trinity, jesus, christ, christian, cross, catholic, church
RaceBlackblack, blacks, Black, Blacks, African, african, Afro
RaceWhitewhite, whites, White, Whites, Caucasian, caucasian, European, european, Anglo
EconomicRichrich, richer, richest, affluence, advantaged, wealthy, costly, exorbitant, expensive, exquisite, extravagant, flush, invaluable, lavish, luxuriant, luxurious, luxury, moneyed, opulent, plush, precious, priceless, privileged, prosperous, classy
EconomicPoorpoor, poorer, poorest, poverty, destitude, needy, impoverished, economical, inexpensive, ruined, cheap, penurious, underprivileged, penniless, valueless, penury, indigence, bankrupt, beggarly, moneyless, insolvent

其中偏见分数使用了Relative Norm Difference算法。设向量g1、g2分别表示一个类别中的两个子群体(如黑人,g1黑女 g2黑男) ,给定一个词w, 分别计算w与g1、g2的距离。如果不等距,则表示存在刻板印象,距离差值越大,偏见得分(BiasScore)越深。



相关文章

Python语法入门(含视频代码)

视频专栏课 | Python网络爬虫文本分析

读完本文你就了解什么是文本分析

综述:文本分析在市场营销研究中的应用

大数据时代下社会科学研究方法的拓展—基于词嵌入技术的文本分析的应用

PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)

计算文本的语言具体性 | 以JCR2021论文为例

使用文本相似度可以识别变化的时间点

PNAS | 文本网络分析&文化桥梁Python代码实现

tomotopy | 速度最快的LDA主题模型

量化历史语言学-贝叶斯语言谱系分析

Python与文化分析入门

在会计研究中使用Python进行文本分析

文本分析方法在《管理世界》(2021.5)中的应用

doccano|为机器学习建模做数据标注

量化历史语言学-贝叶斯语言谱系分析

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存