Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
CSDN 技术社区
skill_tree_python
提交
88b1e097
S
skill_tree_python
项目概览
CSDN 技术社区
/
skill_tree_python
通知
66
Star
14
Fork
6
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
1
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
skill_tree_python
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
88b1e097
编写于
12月 06, 2021
作者:
CSDN-Ada助手
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add scrawler questions
上级
e6cf3526
变更
12
隐藏空白更改
内联
并排
Showing
12 changed file
with
156 addition
and
4 deletion
+156
-4
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
+1
-1
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
+7
-0
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
+31
-0
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
+1
-1
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
+7
-0
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
+31
-0
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
+1
-1
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
+7
-0
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
+31
-0
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
+1
-1
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
+7
-0
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
+31
-0
未找到文件。
data/2.python中阶/3.网络爬虫/11.模拟登录/config.json
浏览文件 @
88b1e097
{
{
"export"
:
[],
"export"
:
[
"simulate_login.json"
],
"keywords"
:
[],
"keywords"
:
[],
"children"
:
[
"children"
:
[
{
{
...
...
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.json
0 → 100644
浏览文件 @
88b1e097
{
"author"
:
"zxm2015"
,
"source"
:
"simulate_login.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/11.模拟登录/simulate_login.md
0 → 100644
浏览文件 @
88b1e097
# 模拟登陆
一些网站需要登录之后才能浏览网站的其他内容,爬虫需要拥有登录获取cookie/session的能力才能继续采集数据,以下关于说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
登录成功后获取的cookie一般来说永久有效
```
## 选项
### A
```
模拟登陆需要先注册网站的账号,或者多注册一些账号来维护一个cookies池
```
### B
```
获取登录页面,可以从登录按钮处获取到登录的url
```
### C
```
登录成功后获取到cookie,其他请求带上cookie就可以获取到请求的页面资源
```
data/2.python中阶/3.网络爬虫/6.Selenium/config.json
浏览文件 @
88b1e097
{
{
"export"
:
[],
"export"
:
[
"selenium.json"
],
"keywords"
:
[],
"keywords"
:
[],
"children"
:
[
"children"
:
[
{
{
...
...
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.json
0 → 100644
浏览文件 @
88b1e097
{
"author"
:
"zxm2015"
,
"source"
:
"selenium.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/6.Selenium/selenium.md
0 → 100644
浏览文件 @
88b1e097
# selenium
Selenium是web自动化测试工具集,爬虫可以利用其实现对页面动态资源的采集,对于其这种说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
selenium和requests一样,都能用来采集数据,具有同等的速度
```
## 选项
### A
```
页面执行js才能呈现的内容,可以使用selenium来协助采集
```
### B
```
selenium本质是驱动浏览器来发送请求,模拟浏览器的行为
```
### C
```
请求之后往往需要等待一段时间,等待资源加载渲染完成
```
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/config.json
浏览文件 @
88b1e097
{
{
"export"
:
[],
"export"
:
[
"pyspider.json"
],
"keywords"
:
[],
"keywords"
:
[],
"children"
:
[
"children"
:
[
{
{
...
...
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.json
0 → 100644
浏览文件 @
88b1e097
{
"author"
:
"zxm2015"
,
"source"
:
"pyspider.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/8.pyspider框架的使用/pyspider.md
0 → 100644
浏览文件 @
88b1e097
# pyspider
Pyspider与Scrapy都可以用来爬取数据,关于他们的说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
Scrapy提供了web界面,可以用来调试部署
```
## 选项
### A
```
Pyspider提供了web界面,可以进行可视化调试
```
### B
```
初学者如果想快速入门爬取一个新闻网站,推荐使用Pyspider
```
### C
```
Scrapy的可扩展程度更高,主要用来应对一些复杂的爬取场景
```
data/2.python中阶/3.网络爬虫/9.验证码处理/config.json
浏览文件 @
88b1e097
{
{
"export"
:
[],
"export"
:
[
"verification_code.json"
],
"keywords"
:
[],
"keywords"
:
[],
"children"
:
[
"children"
:
[
{
{
...
...
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.json
0 → 100644
浏览文件 @
88b1e097
{
"author"
:
"zxm2015"
,
"source"
:
"verification_code.md"
,
"depends"
:
[],
"type"
:
"code_options"
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/9.验证码处理/verification_code.md
0 → 100644
浏览文件 @
88b1e097
# 爬虫验证码
验证码是用来区分人和机器的一种方式,以下关于验证码的说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
验证码的识别是一个老话题,已经做到了100%的识别率
```
## 选项
### A
```
验证码的种类繁多,包括中英混合,点选,滑动等等
```
### B
```
验证码识别要使用到OCR(Optical Character Recognition)技术
```
### C
```
对于有难度的验证码,可以对接打码平台或者第三方平台提供的识别服务
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录