查看原文
其他

《Stata正则表达式》由中国金融出版社出版发行

爬虫俱乐部 Stata and Python数据分析 2023-02-21

本文编辑:智淼

Stata&Python云端课程来啦!

      好消息好消息,爬虫俱乐部开辟小鹅通战场!!爬虫俱乐部隆重推出小鹅通网络课程,将Stata基础课程Stata进阶课程Python课程都上传至小鹅通平台,欢迎大家多多支持订阅!报名课程即可加入答疑群,对报名有任何疑问欢迎在公众号后台留言哦。如需了解详情,可以通过课程链接(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~


系列Survey认为,当前的数据科学家,80%的时间在清理数据,花在给出insights上的时间不足20%。

著名的金融学家Randall Morck说,我们在数据收集和整理上花费了95%的时间,至于回归分析,那不过是午饭后一杯咖啡的时间。

林晨教授综述了金融学的三大刊(JF,JFE,RFS)和会计学的三大刊(TAR,JAR,JAE),认为一篇好文章取决于New Idea, New Data and New Identification,但是同时也指出,New Idea和New Identification往往来自于New Data。

数据已经从数字跨越到更广泛的文本,如何获得更广泛的数据?如何提升数据处理的速度?我们真的离不开正则表达式这一强大的表述工具。

正则表达式是分析文本数据必不可少的技能。正则表达式让我们的程序更简洁,让原来几乎无法处理的数据分析任务变得可行,比如你可以轻松地从一份上市公司年报中找到一个18位身份证号码,或者在网页源代码中找到你想要的那个片段的内容。

近年来,爬虫俱乐部在开展的Stata编程课程中融入了较多的正则表达式内容,虽然我们在课程中融入很多生动的案例,但是正则表达式看似简单实则一学就会但是容易忘,客观上需要一本常备参考手册。市面上关于正则表达式的参考书很少,而且没有关于Stata使用正则表达式的资料,用户只能阅读Stata公司提供的晦涩难懂的手册,因此每次上课都会有学员咨询有没有可能写一本专门介绍Stata使用正则表达式方法的书。为此,我们下决心撰写本书,希望系统地介绍Stata调用正则表达式的方法及其应用。在开始撰写到本书出版,我们经历了Stata 14-Stata 17的升级,在不断更新和打磨书中内容后,终于和大家见面啦!


购书链接:


1

作者介绍

INTRODUCE

本书是由李春涛教授和其团队成员司海涛、薛原共同完成。李春涛教授带领的爬虫俱乐部团队精通Stata及Python编程技术,并对外提供高效的数据挖掘及处理服务。陆续开发了多个热门的Stata命令,包括实现实证结果输出的reg2docx、sum2docx、t2docx、corr2docx等一系列命令,抓取上市公司交易数据、财务数据的cntrade、cnintraday、cnar等命令,实现中文地址与经纬度之间转换的命令cngcode和cnaddress,能够转换pdf文档格式并帮助我们从中提取信息的wordconvert命令等。其中相当多个命令都曾进入Stata ssc最热门的前十大外部命令。三位作者简介如下:

书籍作者/  李春涛

河南叶县人,香港大学金融学博士,中南财经政法大学金融学院教授、博士生导师,河南大学“攀登计划”特聘教授。主要研究方向为公司治理和企业创新。在《经济研究》、《管理世界》、《金融研究》、《中国工业经济》、《财贸经济》、《会计研究》、Journal of Comparative Economics、Stata Journal等期刊发表论文60余篇。

书籍作者/  司海涛

武汉大学经济与管理学院博士生,曾长期在香港大学经济与工商学院担任研究助理,擅长Stata、Python编程技术,参与编写了corr2docx、addbefore等Stata命令。主要研究领域是金融科技和量化投资,在《中国工业经济》《财经问题研究》和 Engineering Economics等发表论文多篇。

书籍作者/  薛原

华中科技大学管理学院博士生,擅长Stata、Python编程技术。参与编写了cngcode、cnaddress、t2docx、reg2docx、cnintraday、sum2docx等十余个热门Stata命令,其中多个命令曾进入SSC最热门的前十大命令。目前从事公司金融以及资产定价方向的研究,在Stata Journal《金融研究》等发表论文多篇。

2

本书特色

FEATURE

本书是国内第一本系统介绍 Stata 正则表达式的书籍。

  • 第一个特点在于原创性。本书是我们在数据分析和编程教学过程中积累的案例和经验的结晶,案例和内容都是原创的,介绍的命令中也有自己开发的。

  • 第二个特点是本土化。书中的案例都是以中文读者为背景,比如我们关于元字符的介绍,特别要告诉读者如何通过正则表达式提取中文字符,比如网络数据采集的部分,我们介绍的都是基于中国网站数据采集的例子。

  • 第三个特点在于理论联系实际。对每一项技术的介绍,我们都试图用例子加以佐证,让晦涩的正则表达式变得更加有趣味性。

  • 第四个特点在于可用性强。书中的数据和程序放在本书配套的网站上,并提供了通过Stata下载的完备程序。

3

本书主要内容

CONTENT

  • 第1章从DOS的通配符概念逐渐引入出正则表达式的概念,让读者理解为什么要用正则表达式。

  • 第2章介绍正则表达式常用的7个函数,以及早期字符串函数和新增字符串函数的区别。

  • 第3章介绍元字符,包括基本元字符、数量元字符、位置元字符、特殊字符元字符、向前和向后查找元字符、回溯引用、POSIX字符等在Stata中的应用。  

  • 第4章将正则表达式的内容融汇贯通于实际案例中,让学习更具有针对性、趣味性。

  • 第5章介绍相关的支持正则表达式的常用Stata命令和具体用法,方便读者利用这些命令简化程序。

  • 第6章给出正则表达式应用于网络数据采集的具体案例。

4

本书的程序和数据

PROGRAM&DATA

本书配套的数据和程序可以通过武汉字符串数据科技有限公司官网获取,具体网址为:https://strcoder.cn/a/mianfeishuju/377.html。该网页列出了本书中所有程序和数据的名称和对应链接。读者可以复制相关链接至浏览器进行下载,也可以通过程序自动下载本书相关的数据和程序(Windows、MacOS系统均可)。例如下载书中“程序1-1.do”的命令如下:

1local url = "https://zzbds.oss-cn-hangzhou.aliyuncs.com/程序1-1.do" 
2if c(os) == "Windows" { 
3        local url = geturi("`url'")
4}    
5copy "`url'" "程序1-1_下载.do",replace 

因为Windows系统中数据链接不能存在中文字符,所以先利用c(os)识别系统类型,如果系统为Windows,则使用 geturi()函数将中文字符转化为百分号编码(比如“爬虫”的百分号编码是:“%E7%88%AC%E8%99%AB”),再进行数据的获取。“程序1-1.do”是云端储存的程序名称,“程序1-1_下载.do”是读者自行命名的程序名称。 


  福利派送!


  • 即日起全价购买我们团队在小鹅通上开通的大专栏Stata基础课程或Stata数据分析进阶(请扫描下方二维码获取课程),赠送本书一本,并提供一个月的在线答疑。

  • 使用本书作为教材,我们提供课件。

附本书目录:

BOOK


重磅福利!为了更好地服务各位同学的研究,爬虫俱乐部将在小鹅通平台上持续提供金融研究所需要的各类指标,包括上市公司十大股东、股价崩盘、投资效率、融资约束、企业避税、分析师跟踪、净资产收益率、资产回报率、国际四大审计、托宾Q值、第一大股东持股比例、账面市值比、沪深A股上市公司研究常用控制变量等一系列深加工数据,基于各交易所信息披露的数据利用Stata在实现数据实时更新的同时还将不断上线更多的数据指标。我们以最前沿的数据处理技术、最好的服务质量、最大的诚意望能助力大家的研究工作!相关数据链接,请大家访问:(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或扫描二维码:


最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。



对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!



往期推文推荐       匿名函数lambda到底怎么用?

Stata绘图系列—NBER Working paper仿图

       Camelot:从PDF中提取表格数据      Stata之计算财务指标——融资约束

      列表生成式|让你的代码更简洁

Stata绘图系列——玩转绘图通用选项之坐标轴

       玩转地图的好帮手--pyecharts

       爬虫俱乐部又又又输送了一位研究助理!!!      【数据分析】一文教你玩转DataFrame

 震惊,爬虫俱乐部竟是这样运营答疑群的?!

【数据分析-入门】一看就会!Numpy的创建、索引、切片与更新

带你玩转Stata编码一言不合就teamviewer

【基础篇】循环语句的continue与break

        教你用Stata爬取全国疫情风险地区数据,原来这么简单!【数据结构】集合的使用方法      Stata爬取七普人口数据

       浅析Python的序列化与反序列化

     爬虫俱乐部的精彩答疑--爬虫为何失败?

       利用Stata批量制作学生证     关于我们 

   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可

以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存