查看原文
其他

用WordStat看中国日报新闻(二)

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王碧琪

文字编辑:王玉婷

技术总编:余术玲

爬虫俱乐部云端课程来袭!

    爬虫俱乐部于2020年7月在线上举行的Stata和Python培训课程在腾讯课堂纷纷上线啦!现在关注公众号并在朋友圈转发推文,即可获得600元课程优惠券,集赞50个再领200元课程优惠!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!

    爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握Stata软件进阶操作,涉及内容包括基本字符串函数及其应用、正则表达式、法律与制度数据网络爬虫技巧、判案文书的文本分析等技术。课程全部采用最新版Stata16软件(提供Stata16试用版, 试用期一个月)进行教学,课程通过案例教学模式,专题式的讲解使你能在短时间内掌握Stata的精髓,精选的实例和详实的配套资料能让你在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。同时,此次云端课程提供线上答疑。详情请参考《8月Stata数据分析法律与制度专场来啦!》


一、简介

WordStat看中国日报新闻介绍了使用WordStat提取新闻内容的关键词。有时候单个英文词不能表示完整含义,如United States,这类短语包含多个单词表示特定含义。因此,有必要借助短语提取对文本分析的关键词提取进行补充。

二、软件操作

将待处理数据news.dta 读入Stata(注意:待处理数据存储路径中不能包含中文,否则软件将无法识别),点击“用户-Wordstat-Content Analysis”进入软件开始分析。

(一)短语提取

在工具栏中找到“Extraction”,选择“Phrases”。在菜单栏依次设置“Min words”(短语中最少包含的单词数),“Max words”(短语中最多包含的单词数),“Min frenquency”(该短语出现的最低频率),最后点击“Search”即可。另外设置不包含以停用词结尾的短语。此时的状态栏整体如下:

设置短语中包含的单词数量为2-5,出现的频率最低为3。

运行结果如下:
表头的含义如下:

Frequency

短语出现的频率

NO.CASES

短语出现的case数量

%CASES

短语出现的case所占的百分比

LENGTH

短语长度

TF IDF

"词频"(TF)和"逆文档频率"(IDF)两个值相乘。

个词对文章的重要性越高,它的TF-IDF值就越大。

可以看出,出现频率最高的前五个短语分别为:United States、Human Rights、United Nations、Anti Pandemic、York Times,tf-idf前五的短语分别为:United States、Human Rights、United Nations、African Americans、Hispanic Americans(讲西班牙语的美国人)。可以推测文本内容和美国的人权运动、黑人相关。
(二)条形图

将上述结果利用表格形式展示出来。只需要点击图标即可。此处,将频率大于5的短语使用条形图显示出来。

首先,选中待处理的结果区域。
接着,点击图标


软件默认设置,将频率作为y轴,x轴底部注释列示方式为“Horizontal”。可以看到上述表格的结果并没有将短语全部列示出来,所以我们做一点调整,选择x轴底部注释列示方式为“45 degree”,结果如下:
可以清晰看出出现在前5位的短语和美国的黑人、人权相关。

三、结语

结合上一篇推文,综合来看,待分析文本内容和美国人权、流行病相关。

本文的短语提取补充关键词提取,可以帮助我们迅速了解一段文本的主要内容,无需大量代码。WordStat还有更多相关功能,有需求的小伙伴们可以继续探索一下~~






对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐

一招轻松合并文件——openall命令介绍

爬虫俱乐部平安经
一个函数实现PDF文档合并与拆分

补全股票代码位数的一百种姿势

明星闪闪亮:各校高被引论文

高校经管类核心期刊发文排行榜|2010-2019

PDF图片提取
PDF文档转换成图片

split和nsplit助你轻松拆分

集成学习介绍之三——Stacking算法

PyMuPDF提取文本信息

Mylabels命令介绍  

用WordStat看中国日报新闻  

数据集的划分——交叉验证法

大数据视角下的大学录取分数排行
集成学习介绍之二——Boosting算法

PDF文本信息提取(二)

关于我们



微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:statatraining@163.com
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存