查看原文
其他

爬虫俱乐部的精彩答疑--认真仔细方能写出好程序

爬虫俱乐部 Stata and Python数据分析 2023-01-01

本文作者:邱沣,河南大学中原发展研究院

本文编辑:赵微微

技术总编:李婷婷

Stata&Python云端课程来啦!

      好消息好消息,爬虫俱乐部开辟小鹅通战场!!爬虫俱乐部隆重推出小鹅通网络课程,将Stata基础课程Stata进阶课程Python课程都上传至小鹅通平台,欢迎大家多多支持订阅!报名课程即可加入答疑群,对报名有任何疑问欢迎在公众号后台留言哦。如需了解详情,可以通过课程链(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~

引言


内容好,讲得好,更要答疑好!强大、负责、高效的答疑服务,当属爬虫俱乐部! 暑期课程开课以来,山东财经大学,河南师范大学,中南财经政法大学,上海对外经贸大学,郑州航空工业管理学院等众多高校热烈加入了我们的课程。在我们强大的答疑老师团队的支持下,大家的求知欲越来越强,学习效率不断提高!在群里提问、讨论、答疑进行地热火朝天!

在这期间,从基础的Stata和Python的安装,调试,到循环,框架,函数,调包等进阶知识,再到高难度的网络爬虫,数据采集和分析,同学们的问题包罗万象,逐渐深入,而我们爬虫俱乐部也及时解惑,详实回答,凭借专业、强大、负责、高效和细致入微的答疑服务,收获了学员们的一致好评!

接下来仍然是精彩的答疑案例分享,供大家学习和参考。

答疑案例分享

本次分享的案例主题是认真仔细方能写出好程序,尤其在学员们学习到难度较大的数据采集、分析和网络爬虫的课程后,面对的程序越来越复杂,代码越来越长,这时就很容易犯一些粗心大意的低级错误。

比如下面这位同学提出的疑问:

所写程序如下所示:

clear allcd D:/forvalue p = 1/100 {copy"https://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletin.php?stockid=600900&Page=`p'" temp.txt,replaceinfix strL v 1-20000 using temp.txt,clearreplace v = ustrfrom(v,“gb18030”,1)keep if strpos (v,"</ a><br>")If _N==0 {Continue,break}split v, p("</ a><br>")drop vsxpose,clear rename _var1 vdrop in -1split v, p(`"nbsp;<a target='_blank' href='"' `"'>"')drop vrename _all (date url title) Replace url = “https://vip.stock.finance.sina.com.cn” + urlgen stkcd = 600900save 600900_`p',replace}

一眼看去,这复杂的程序,长长的代码十分唬人,但我们细心的答疑人员一下就指出了其中的问题所在:

首先,strpos这个字符串函数没定义成功,应为:keep if strpos(v,"</ a><br>"),原程序中 “strpos” 和“()”之间多了一个空格,其次该程序中还有很多命令应该为小写字母而不是大写字母,比如If 、Continue、Replace。这些小错误都会让你好不容易搭起来的大厦瞬间崩塌!

下面我们再举一些例子,看看那些由于粗心大意导致的程序运行错误,供大家警醒。

这位同学在进行网络爬虫时程序显示报错:no observations,经我们答疑人员仔细检查程序后发现,在爬虫最开始使用分隔符保留所需信息时就已出错,分隔符应为/corp/view/vCB_AllBulletinDetail.php?stockid,而不是/corp/view/vCB_AllBulletin.php?stockid,漏掉了一个单词Detail就导致全盘的爬虫程序出错。

除了上述这种漏写错写导致的错误外,中英文格式混用也是由粗心大意导致的常见错误之一。比如将英文格式的引号、括号,写成了中文格式的:

这位同学就将gen v2 = v[_n+1] if mod(_n,3) == 1中的 mod(_n,3)的第二个括号错用为中文格式下的括号了,最终导致程序报错。

以上就是本次分享的精彩答疑案例了,粗心大意不可取,认真仔细才致远,希望我们挑选出的案例对大家有所启发和帮助。

我们在每个答疑群都设置了两到三位不等的常规答疑老师,学员遇到的问题,可以先在群里咨询常规答疑老师,复杂的问题可以通过常规答疑与授课老师预约office hour的咨询。

最后,欢迎大家报名参与我们的课程学习,爬虫俱乐部将为您提供的零基础、无障碍的Stata数据分析和网络爬虫课程,更重要的是,讲得好不如答疑答的好!我们高效、强大、负责的答疑团队,将为您提供认真负责,细致入微的答疑服务。在这里,您的学习效率和效果将成倍提升,一站式购买,无后顾之忧。

END

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!





往期推文推

      实习招聘┃教你最牛逼的数据分析技术

       数据公司实习,为什么选我们?

       爬虫俱乐部Python精彩答疑——更换Jupyter Notebook浏览器及dropna()参数详解

       爬虫俱乐部的精彩答疑--如何打开Excel中扩展名与文件源码不符的文件

     【爬虫篇】解锁《梦华录》之东京繁华生活

      爬虫俱乐部的精彩答疑——DOS命令       爬虫俱乐部的精彩答疑之换行问题

爬虫俱乐部的精彩答疑--路径设置乱码怎么破?

爬虫俱乐部的精彩答疑--putdocx的二三事

爬虫俱乐部精彩答疑之Python篇

爬虫俱乐部的精彩答疑--花式重命名变量

      今天你还是“刘畊宏女孩”吗?

爬虫俱乐部在山东财经大学金融学院暑期Stata网课上的精彩答疑

JupyterNotebook——如何更换默认文档目录

Stata绘图系列——玩转绘图通用选项(一)

出人意料!这所大学的A级学科总数竟超越清华北大!

Stata数据读入——打开方式不同?

数据类型——Dict、Set与Frozenset简析

Stata小贴士之外部命令安装路径

有一种夏天叫做宫崎骏的夏天

换装术|多个Excel文件如何一键转为dta格式

关于我们 


   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众
号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存