查看原文
其他

R语言统计与绘图:常用内置数据集介绍

段小麻 R语言统计与绘图 2022-10-05

目  录

  • 1. survival 包的 colon 数据集

  • 2. survival 包的 lung 数据集

  • 3. AER包的Affairs数据集




1. survival 包的 colon 数据集

运行下列代码加载数据集:

library(survival) # 加载内置数据集的包
data(colon) # 加载内置 colon 数据集
View(colon) # 预览数据集

数据集介绍

B/C期结肠癌患者辅助化疗后的生存时间数据。
数据集中变量名解释:

id: 患者编号
study: 所有患者都是1
rx: 表示治疗方式,有三种:观察、Levamisole、Levamisole + 5-FU
sex: 性别,男性为 1,女性为 0
age: 年龄
obstruct: 肿瘤是否阻塞结肠,1为有,0为无
perfor: 结肠是否穿孔,1为有,0为无
adhere: 肿瘤是否粘附邻近器官,1为有,0为无
nodes: 检出淋巴结的数目
status: 生存状态,1为发生感兴趣终点事件,0为删失
differ: 肿瘤的分化程度 (1=well, 2=moderate, 3=poor)
extent: 局部转移程度(1=submucosa, 2=muscle, 3=serosa, 4=contiguous structures)
surg: 从手术到登记注册的时间 (0=short, 1=long)
node4: 超过4个阳性淋巴结
time: 直至发生感兴趣终点事件或删失的时间
etype: 事件类型: 1=复发,2=死亡

2. survival 包的 lung 数据集

运行下列代码加载数据集:

library(survival) # 加载内置数据集的包
data(lung) # 加载内置数据集
View(lung) # 预览数据集

数据集介绍

NCCTG 晚期肺癌患者的生存时间数据。
数据集中变量名解释:

inst:机构代码
time:生存时间,单位:天
status:生存状态,1为删失,2为死亡
age:年龄
sex:性别,1为男性,2为女性
ph.ecog:医师进行 ECOG 评分,评分为01234
ph.karno:医师进行的 Karnofsky 评分,评分为0-100
pat.karno:患者给出的 Karnofsky 评分,评分为0-100
meal.cal:进食消耗的卡路里
wt.loss:最近6个月的体重减轻量

3. AER包的Affairs数据集

运行下列代码加载数据集:

install.packages("AER") # 下载包
library(AER) # 加载内置数据集的包
data(Affairs) # 加载数据集
View(Affairs) # 预览数据集

数据集介绍

作者从601个参与者身上收集了9个变量,来探究出现婚外情的影响因素。数据集中变量名解释:

affairs:过去1年婚外情的频率;0表示没有,123分别表示123次,7表示4-10次,12表示每月、每周、每天。
gender:性别;male为男性,famale为女性
age:年龄;17.5表示20岁以下,22表示22-24岁,27表示25-29岁,以此类推,57表示55岁及以上。
yearsmarried:婚龄;0.125表示3个月或更短,0.417表示4-6个月,0.75表示6个月-1年,1.5表示1-2年,4表示3-5年,...15表示12年及以上
children:是否育有小孩;YES表示有,NO表示无
religiousness:宗教信仰程度;根据信仰程度分为五个等级
education:学历;用不同的数字表示不同的学历水平
occupation:职业;根据Hollingshead分类逆向数字编码职业
rating:对婚姻的自我评价;根据幸福感分为5个等级

End

参考资料:

1. lung、colon和Affairs数据集帮助文件;

往期回顾

R语言统计与绘图:快速绘制临床论文基线特征表1

R语言统计与绘图:微调基线特征表1输出格式

R语言统计与绘图:Kaplan-Meier生存曲线更新

R语言统计与绘图:Kaplan-Meier生存曲线的进阶画法

R语言统计与绘图

长按识别二维码关注

更多精彩内容可回复关键词

"R语言实战"

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存