Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
CSDN 技术社区
skill_tree_python
提交
fc23aaab
S
skill_tree_python
项目概览
CSDN 技术社区
/
skill_tree_python
通知
66
Star
14
Fork
6
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
1
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
skill_tree_python
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
fc23aaab
编写于
12月 07, 2021
作者:
幻灰龙
浏览文件
操作
浏览文件
下载
差异文件
Merge branch 'dev' into 'master'
合并Dev See merge request
!3
上级
e6cf3526
3df38ab2
变更
15
隐藏空白更改
内联
并排
Showing
15 changed file
with
216 addition
and
5 deletion
+216
-5
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/config.json
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/config.json
+1
-1
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.json
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.json
+7
-0
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.md
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.md
+56
-0
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
+1
-1
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
+6
-0
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
+31
-0
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
+1
-1
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
+6
-0
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
+31
-0
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
+1
-1
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
+6
-0
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
+31
-0
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
+1
-1
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
+6
-0
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
+31
-0
未找到文件。
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/config.json
浏览文件 @
fc23aaab
{
"export"
:
[],
"export"
:
[
"dynamic_page.json"
],
"keywords"
:
[],
"children"
:
[
{
...
...
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.json
0 → 100644
浏览文件 @
fc23aaab
{
"author"
:
"zxm2015"
,
"source"
:
"dynamic_page.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/10.动态渲染页面爬取/dynamic_page.md
0 → 100644
浏览文件 @
fc23aaab
# 爬取动态页面
现在想爬取一个url为下拉滚动的页面,下列选项可以爬取到下列页面内容的是:
## 答案
```
python
import
time
from
selenium
import
webdriver
from
bs4
import
BeautifulSoup
driver
=
webdriver
.
Chrome
()
driver
.
get
(
url
);
Thread
.
sleep
(
1000
);
page_size
=
10
for
i
in
range
(
page_size
):
time
.
sleep
(
2
)
js
=
"var q=document.documentElement.scrollTop=10000"
driver
.
execute_script
(
js
)
page
=
BeautifulSoup
(
driver
.
page_source
,
'lxml'
)
print
(
page
.
text
)
```
## 选项
### A
```
以上均不正确
```
### B
```
python
import
requests
response
=
requests
.
get
(
url
=
url
)
page
=
BeautifulSoup
(
response
.
text
,
'lxml'
)
print
(
page
.
text
)
```
### C
```
python
import
urllib.request
response
=
urllib
.
request
.
urlopen
(
url
)
buff
=
response
.
read
()
html
=
buff
.
decode
(
"utf8"
)
page
=
BeautifulSoup
(
html
,
'lxml'
)
print
(
page
.
text
)
```
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
浏览文件 @
fc23aaab
{
"export"
:
[],
"export"
:
[
"simulate_login.json"
],
"keywords"
:
[],
"children"
:
[
{
...
...
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
0 → 100644
浏览文件 @
fc23aaab
{
"author"
:
"zxm2015"
,
"source"
:
"simulate_login.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
0 → 100644
浏览文件 @
fc23aaab
# 模拟登陆
一些网站需要登录之后才能浏览网站的其他内容,爬虫需要拥有登录获取cookie/session的能力才能继续采集数据,以下关于说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
登录成功后获取的cookie一般来说永久有效
```
## 选项
### A
```
模拟登陆需要先注册网站的账号,或者多注册一些账号来维护一个cookies池
```
### B
```
获取登录页面,可以从登录按钮处获取到登录的url
```
### C
```
登录成功后获取到cookie,其他请求带上cookie就可以获取到请求的页面资源
```
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
浏览文件 @
fc23aaab
{
"export"
:
[],
"export"
:
[
"selenium.json"
],
"keywords"
:
[],
"children"
:
[
{
...
...
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
0 → 100644
浏览文件 @
fc23aaab
{
"author"
:
"zxm2015"
,
"source"
:
"selenium.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
0 → 100644
浏览文件 @
fc23aaab
# selenium
Selenium是web自动化测试工具集,爬虫可以利用其实现对页面动态资源的采集,对于其这种说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
selenium和requests一样,都能用来采集数据,具有同等的速度
```
## 选项
### A
```
页面执行js才能呈现的内容,可以使用selenium来协助采集
```
### B
```
selenium本质是驱动浏览器来发送请求,模拟浏览器的行为
```
### C
```
请求之后往往需要等待一段时间,等待资源加载渲染完成
```
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
浏览文件 @
fc23aaab
{
"export"
:
[],
"export"
:
[
"pyspider.json"
],
"keywords"
:
[],
"children"
:
[
{
...
...
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
0 → 100644
浏览文件 @
fc23aaab
{
"author"
:
"zxm2015"
,
"source"
:
"pyspider.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
0 → 100644
浏览文件 @
fc23aaab
# pyspider
Pyspider与Scrapy都可以用来爬取数据,关于他们的说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
Scrapy提供了web界面,可以用来调试部署
```
## 选项
### A
```
Pyspider提供了web界面,可以进行可视化调试
```
### B
```
初学者如果想快速入门爬取一个新闻网站,推荐使用Pyspider
```
### C
```
Scrapy的可扩展程度更高,主要用来应对一些复杂的爬取场景
```
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
浏览文件 @
fc23aaab
{
"export"
:
[],
"export"
:
[
"verification_code.json"
],
"keywords"
:
[],
"children"
:
[
{
...
...
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
0 → 100644
浏览文件 @
fc23aaab
{
"author"
:
"zxm2015"
,
"source"
:
"verification_code.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
0 → 100644
浏览文件 @
fc23aaab
# 爬虫验证码
验证码是用来区分人和机器的一种方式,以下关于验证码的说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
验证码的识别是一个老话题,已经做到了100%的识别率
```
## 选项
### A
```
验证码的种类繁多,包括中英混合,点选,滑动等等
```
### B
```
验证码识别要使用到OCR(Optical Character Recognition)技术
```
### C
```
对于有难度的验证码,可以对接打码平台或者第三方平台提供的识别服务
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录