查看原文
其他

Countvalues——数数的超级小帮手

爬虫俱乐部 Stata and Python数据分析 2022-03-15

本文作者:王玉洁 ,河南大学国际教育学院

本文编辑:陈梦华

技术总编:李婷婷

Stata&Python云端课程来啦!

好雨知时节,当春乃发生。为了感谢大家长久以来的支持和信任,爬虫俱乐部为大家送福利啦!!!Stata&Python特惠课程双双上线腾讯课堂~原价2400元的Python编程培训课程,现在仅需100元,详情请查看推文《Python云端课程福利大放送!0基础也能学~》。关于Stata,爬虫俱乐部推出了系列课程,内容包括字符串函数、正则表达式、爬虫专题和文本分析,可以随心搭配,价格美丽,物超所值,更多信息可查看Stata系列推文《与春天有个约会,爬虫俱乐部重磅推出正则表达式网络课程!》《与春天有个约会,爬虫俱乐部重磅推出基本字符串函数网络课程》等。变的是价格,不变的是课程质量和答疑服务。对报名有任何疑问欢迎在公众号后台和腾讯课堂留言哦!

导读
我们在读入数据文件后,有时候会想了解变量不同取值的个数,特别是经常会遇到一些虚拟变量,这时想要知道虚拟变量中不同取值的个数时,其中一种方法就是使用countvalues命令迅速帮助我们确定。当然,countvalues也可以帮助我们快速确定变量下指定整数取值的个数,让我们赶紧来看看吧。
命令介绍
1)命令安装

  countvalues是一个外部命令,需要先进行安装才能使用,安装的程序为:

ssc install countvalues, replace

(2)命令语法

countvalues命令的语法如下:
countvalues [varlist]  [if]  [in],  values(numlist)   [ variablelabels sort(specification)  rowspositive  colspositive  saving(filespec)  list_options]

(3)选项介绍

名称介绍
values ( )指定计数的不同整数值,这是一个必选项
variablelabels指定变量标签;如果没有定义变量标签,则显示变量名称
sort(specification)按顺序显示输出列表,这里的specification可以包括关键词名称、标签和降序,可以是完整的,也可以是任何缩写
rowspositive只显示包含相关整数值的一个或多个正计数的行
colspositive只显示包含相关整数值的一个或多个正计数的列
saving()将列出的数据保存为dta文件

注意countvalues只限于查找变量下整数值的个数。

案例应用
  • 案例一:

接下来先简单看一下countvalues这个命令的基本用法吧!

sysuse auto,clearcountvalues, values(1 .)

  从上图中我们可以看到,使用countvalues命令能够看到数据集里每个变量值为缺失值的个数以及每个变量值取值为1的个数。如果想查看某个或某几个变量的情况,在countvalues后加上变量名即可,不加变量名则默认为查看所有变量的情况。

countvalues, values(1 .) rowspos

  从上图中可以看出,加上rowspositive选项后只显示了包含相关整数值的行的取值个数情况。

  接下来,我们再使用另外一个例子来看一下countvalues这个命令的其它选项是怎样使用的。

  • 案例二:

  我们这里使用美国年轻妇女研究数据,这个数据文件是Stata内置的常用数据文件,可以使用webuse直接从网络上调取数据。然后,我们先使用countvalues命令列出不同变量下缺失值的个数,具体程序如下:

webuse nlswork, clear //从网络上直接调取数据countvalues, values(.) //不同变量下的缺失值分别有多少countvalues, values(.) rowspositive sort(ascending) //仅显示有缺失值的变量并且根据缺失值个数进行升序排序

  Stata报告结果如上边的左右两图所示,左边的图显示出了所有变量的数据缺失值情况;而加上rowspositive sort(ascending)选项后,如右图所示,含有缺失值的变量会按照数据缺失的个数进行升序排列显示。

  接着,我们再对其中的虚拟变量进行一些探究。使用findname命令将仅取0,1或者有缺失值的变量名列出并且将这些变量名放到局部宏vars中,然后再使用countvalues命令得出不同变量下0,1和缺失值的个数,具体程序如下:

findname, all(inlist(@, 0, 1, .)) local (vars) //将仅取0,1或者存在缺失值的变量名列出countvalues `vars', values(0 1 .)

  也许我们还有一些疑惑,这些变量何时取0,何时取1呢?这时,加上variablelabels sort (1 descending)选项能够帮助我们得到变量何时取1的描述。

findname, all(inlist(@, 0, 1, .)) local (vars)countvalues `vars', values (0 1 .) variablelabels sort (1 descending)

  以上就是今天对countvalues命令的介绍了,是不是很简单呢!不过在不同情况下,想要查看变量不同取值的个数时,也可以使用其它的方法哦,比如count、tab等命令。大家赶紧试一试吧!

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。



对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!

往期推文推荐
         frame框架进阶篇

 下拉选择框如何变成“小猫咪” | selenium小技巧

  Python中的运算符知多少?

  快来get缺失值的正确打开方式

  frame框架——我到底在哪个“房间”

如何使用Pandas读取txt文件?

基于MySQL数据库实现增量式爬取

寻找春日气息|本月最受欢迎的景点都在这里!

问世间情为何物,大数据也想参悟——后考研时代,何以解忧?唯有数据!

Python与数据库交互—浅述pymysql

偷懒小妙招|selenium之玩转鼠标键盘操作--鼠标篇

大家用Stata来“找茬”

“粉墨登场”——多期双重差分法(DID)的Stata操作

Python与百度地图合璧,绘制棒呆的热力地图

【数据可视化】统计图绘制神器:Seaborn

检索Stata推文的“任意门”学会了这些,分分钟提升你的毕业体验

【爬虫实战】双一流大学的月关注度

【爬虫实战】“中国人不吃这一套”——人民日报微博评论分析

进化的标签管理助手——elabel命令

“学术明星”——双重差分法(DID)的Stata操作

偷懒小妙招| selenium之玩转鼠标键盘操作(上)

【爬虫实战】南京地铁又上热榜——客流量分析

renfiles:批量重命名文件的利器

Stata中字符串的处理

物以类聚——浅述k-means聚类算法

关于我们 


微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存