其他
介绍几个缺失数据可视化的R包
缺失数据在临床研究中比较常见,今天来学习几个探索缺失值数据的R包。
第1个R包是dlookr包。
dlookr包是一个数据探索R包,可以对整个数据集进行诊断,并且可以输出详细的诊断报告。
缺失数据探索是dlookr包其中的一个功能。
使用jobchange数据集进行演示。
library(dlookr)
diagnose(jobchange)
如上所示,可以输出数据集中每个变量的缺失比例及计数。
同样,可以使用ggplot2包进行缺失数据可视化。
jobchange %>%
diagnose() %>%
arrange(desc(missing_percent)) %>%
ggplot(aes(x = variables, y = missing_percent)) +
geom_col(fill = 'cyan3') +
theme_bw(base_size = 14) +
theme(axis.text.x = element_text(angle = 45, hjust = 1),
axis.title.x = element_blank())
虽然ggplot2可以可视化缺失数据,但是dlookr包提供了缺失数据的可视化函数plot_na_pareto(),同样支持ggplot2图形系统。
jobchange %>%
plot_na_pareto()
第2个R包是naniar包。
naniar包也是专门用于缺失数据探索和处理的R包。
可以使用gg_miss_var()函数来探索缺失变量。
jobchange %>%
gg_miss_var() +
theme_bw(base_size = 16)
可以修改参数为百分比显示。
jobchange %>%
gg_miss_var(show_pct = TRUE) +
theme_bw(base_size = 16)
对于临床数据,可以在论文附件中添加原始数据的缺失变量百分比。
参考资料
dlookr包帮助文件 naniar包帮助文件 ggplot2包帮助文件
《完》
关注下方公众号,分享更多更好玩的R语言知识。
觉得有帮助的请点赞、分享、在看走起!
点个在看,SCI马上发表。