查看原文
其他

爬虫俱乐部精彩答疑之Python篇

爬虫俱乐部 Stata and Python数据分析 2023-01-01

本文作者:王玉婷,中南财经政法大学金融学院

本文编辑:万   浩

技术总编:孙一博


Stata&Python云端课程来啦!

      好消息好消息,爬虫俱乐部开辟小鹅通战场!!爬虫俱乐部隆重推出小鹅通网络课程,将Stata基础课程Stata进阶课程Python课程都上传至小鹅通平台,欢迎大家多多支持订阅!报名课程即可加入答疑群,对报名有任何疑问欢迎在公众号后台留言哦。如需了解详情,可以通过课程链(https://appbqiqpzi66527.h5.xiaoeknow.com/homepage/10)或课程二维码进行访问哦~


在Stata网课的精彩答疑进行得如火如荼之际,学员们在答疑老师和助教的帮助下,对Python的学习热情也日益高涨、学习效率不断提高。无论是安装、调试等基础知识,还是调包、函数、循环体等进阶、刁钻的问题,我们的答疑团队都能迅速给出满意的答复,学员们纷纷感叹:“这门网课给我的帮助太大了”、“我的确从中学到了很多有用的知识”......

 为了提高答疑效率,我们整理了如下的常见问题。Anaconda安装报错‍?

答疑第一天,学员们就遇到了经典问题——安装报错。根据这位学员的提供的报错截图,我们迅速判断是该学员的安装路径中含有中文字符。

在此判断之下,大家表达了自己在安装过程中也遇到类似的问题。一时间,答疑群里不仅有答疑老师和助理积极为同学们解决疑问,也激发了学员之间的交流沟通和互帮互助。

另外,有学员碰见了较为隐藏的安装问题。下图这位同学虽然没有遇到Anaconda安装报错,但在导入已安装的库tushare时提示该模块不存在。

这就奇怪了,明明以及安装过的tushare模块,为何提示不存在呢?根据截图,答疑老师发现该学员使用的是Python3.1解释器,而非Anaconda的Python解释器。原来,这位学员曾经自己下载过Python解释器,但最近又安装了Anaconda套件,使用pip安装的模块都在Anaconda路径下,之前单独安装的Python解释器是无法调用的。这就要求学员们在安装Anaconda之前一定要把曾经安装过的Python解释器完全卸载。经过答疑老师的提示,该学员使用Anaconda Prompt成功调用了该模块。


Selenium——Chromedriver不能调用?众所周知,配合Chromedriver使用的Selenium是爬虫“大杀器”。但在使用之前,多名学员就遇到了Chromedriver与Chrome浏览器版本不匹配、环境变量未设置等问题。下图是学员提供的问题截图,显然他在测试Chromedriver时出现了配置错误。

爬虫俱乐部Python答疑孙雪丽博士和雷豪同学迅速反应,这是Chromedriver与Chrome浏览器版本不匹配造成的,学习比较积极的学员甚至上传了自己的问题笔记——《针对Selenium配置报错.pdf》(作者:Ybelle),群内学习氛围非常浓厚。

Chromedriver在Mac系统上运行还可能出现这种的情况:无法打开Chromedriver,因为无法验证开发者的警示弹窗。

针对这个问题,我们提供了以下的解决方案:先打开终端,切换到Chromedriver存放路径,删除隔离属性,并添加信任。具体命令为:

cd "你的chromedriver存放路径"xattr -d com.apple.quarantine chromedriver #添加信任。爬虫获取的内容为空?随着学习的深入,学员们逐渐接触到更进阶的知识,提出的问题也更有深度了。例如,在学习网页爬虫中xpath一节时,有学员提出:使用xpath没有报错,获取到的结果为空值。

经过答疑老师的排查,发现该问题是由xpath对HTML标签文本的路径定位不准确造成的,并据此总结:当爬虫内容为空时,排查要分为两步走:首先查看HTML.TEXT是否含有目标文本;其次,打开HTML文本查看目标文本的xpath路径是否正确。

这位学员按照答疑老师的办法自己动手进行排查,发现的确是xpath路径与HTML文本不匹配,前者少了一个半角空格。

Jupyter Notebook入门

鉴于许多同学初次尝试Jupyter Notebook,有许多琐碎的小问题,在此一并回答,大家自行参阅,提高答疑效率。

Jupyetrhub 与 Jupyter Notebook

网课视频中,任课老师所使用的Jupyetrhub是一个支持多用户的在线Jupyter,用于直播时云端教学。学员们使用自己的Jupyter Notebook跟随老师Coding即可。

打开指定文件夹的Jupyter Notebook文件

初学者往往从Win的开始界面Anaconda-Jupyter Notebook起步,默认进入C:\Users\用户文件夹。如果你想从任意文件夹位置打开Jupyter Notebook,你只需要在该文件夹下按住Shift,同时单击右键,在弹出的目录选择“在此处打开Powershell窗口”,在弹出的蓝色窗口Powershell中输入Jupyter Notebook,回车即可。

安装Python第三方库时报错

安装第三方库时不需要进入Python环境,在shell中直接使用pip install即可。

安装过程中,如果出现报错,请仔细阅读报错的类型。

1)如果报错信息提示类似:连接超时,是因为pip库是境外源,此时需要指定国内镜像源进行安装:

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

常见的国内镜像源还有

阿里云:http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/中国科学技术大学 http://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:http://pypi.hustunique.com/山东理工大学:http://pypi.sdutlinux.org/豆瓣(douban) :http://pypi.douban.com/simple/等。

2)如果出现红色报错信息的同时,出现了提示信息:Successfully installed...,则报错信息不影响使用。

本课程中,我们设置了两位常规Python答疑老师孙雪丽博士和张雷豪,学员遇到的问题,可以先在群里咨询常规答疑老师,复杂的问题可以通过常规答疑与授课老师预约office hour的咨询。每天下午2点-晚上10点在答疑群里提问都会有答疑人员负责答疑哦~

欢迎大家报名参与我们的课程学习,爬虫俱乐部将为您提供的零基础、无障碍的Python数据分析和网络爬虫课程。与市面上大多数课程不同,我们团队非常重视答疑,为您提供快速响应、细致入微、手把手的答疑服务。在这里,您的学习效率和效果将成倍提升,一站式购买,无后顾之忧。


END

最后,我们为大家揭秘雪球网(https://xueqiu.com/)最新所展示的沪深证券和港股关注人数增长Top10。




对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!





往期推文推荐      爬虫俱乐部的精彩答疑--花式重命名变量       今天你还是“刘畊宏女孩”吗?

爬虫俱乐部在山东财经大学金融学院暑期Stata网课上的精彩答疑

JupyterNotebook——如何更换默认文档目录

Stata绘图系列——玩转绘图通用选项(一)

出人意料!这所大学的A级学科总数竟超越清华北大!

Stata数据读入——打开方式不同?

数据类型——Dict、Set与Frozenset简析

Stata小贴士之外部命令安装路径

有一种夏天叫做宫崎骏的夏天

换装术|多个Excel文件如何一键转为dta格式

【基础篇】Python可变对象与不可变对象

Stata绘图系列——细节掌控绘图区域!

 4月A股的收官战之概念板块哪家强?

解放双手!你必须要会的两个命令—inlist & inlist2

【基础篇】字符串之判断方法

Stata绘图系列——让你的直方图随心所欲

【爬虫篇】湖人无缘季后赛,球迷如何回应

客官,要来份四象限图吗?

Python实现简繁体转换

关于我们 


   微信公众号“Stata and Python数据分析”分享实用的Stata、Python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

   武汉字符串数据科技有限公司一直为广大用户提供数据采集和分析的服务工作,如果您有这方面的需求,请发邮件到statatraining@163.com,或者直接联系我们的数据中台总工程司海涛先生,电话:18203668525,wechat: super4ht。海涛先生曾长期在香港大学从事研究工作,现为知名985大学的博士生,爬虫俱乐部网络爬虫技术和正则表达式的课程负责人。



此外,欢迎大家踊跃投稿,介绍一些关于Stata和Python的数据处理和分析技巧。

投稿邮箱:statatraining@163.com投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里
为作者署名,并有赏金分成。

2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众
号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存