Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
CSDN 技术社区
skill_tree_python
提交
b2148e6a
S
skill_tree_python
项目概览
CSDN 技术社区
/
skill_tree_python
通知
66
Star
14
Fork
6
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
1
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
S
skill_tree_python
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
1
合并请求
1
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
b2148e6a
编写于
1月 13, 2022
作者:
CSDN-Ada助手
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
add questions
上级
e903cb17
变更
18
显示空白变更内容
内联
并排
Showing
18 changed file
with
362 addition
and
0 deletion
+362
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.json
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.json
+8
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.md
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.md
+29
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/config.json
data/2.python中阶/3.网络爬虫/12.autoscraper/config.json
+10
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.json
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.json
+8
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.md
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.md
+46
-0
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.py
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.py
+13
-0
data/2.python中阶/3.网络爬虫/13.selectolax/config.json
data/2.python中阶/3.网络爬虫/13.selectolax/config.json
+10
-0
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.json
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.json
+8
-0
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.md
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.md
+57
-0
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.py
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.py
+24
-0
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.json
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.json
+8
-0
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.md
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.md
+29
-0
data/2.python中阶/3.网络爬虫/14.requests-html/config.json
data/2.python中阶/3.网络爬虫/14.requests-html/config.json
+10
-0
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.json
...python中阶/3.网络爬虫/14.requests-html/hello_requests_html.json
+8
-0
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.md
...2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.md
+45
-0
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.py
...2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.py
+12
-0
data/2.python中阶/3.网络爬虫/14.requests-html/requests_html_desc.json
....python中阶/3.网络爬虫/14.requests-html/requests_html_desc.json
+8
-0
data/2.python中阶/3.网络爬虫/14.requests-html/requests_html_desc.md
.../2.python中阶/3.网络爬虫/14.requests-html/requests_html_desc.md
+29
-0
未找到文件。
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"autoscraper_desc.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/12.autoscraper/autoscraper_desc.md
0 → 100644
浏览文件 @
b2148e6a
# autoscraper简介
autoscraper是一个基于python的智能、自动、快速和轻量级的网络爬虫,以下说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
bash
是目前解析速度最快的网络爬虫
```
## 选项
### A
```
bash
同时提供了精确抽取的方法
```
### B
```
bash
可以根据示例文本自动抽取相似的文本
```
### C
```
bash
避免了手写页面抽取规则的烦恼
```
data/2.python中阶/3.网络爬虫/12.autoscraper/config.json
0 → 100644
浏览文件 @
b2148e6a
{
"export"
:
[
"autoscraper_desc.json"
,
"hello_autoscraper.json"
],
"keywords"
:
[],
"children"
:
[],
"keywords_must"
:
[
"autoscraper"
],
"keywords_forbid"
:
[]
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"hello_autoscraper.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.md
0 → 100644
浏览文件 @
b2148e6a
# autoscraper示例
使用 autoscraper 从stackoverflow搜索页提取相似的主题帖,代码如下:
```
python
# -*- coding: UTF-8 -*-
from
autoscraper
import
AutoScraper
def
get_similar_result
(
url
,
wanted_list
):
scraper
=
AutoScraper
()
# TODO(You): 正确的提取代码
return
result
url
=
'https://stackoverflow.com/search?q=autoscraper&s=7b5866da-920e-4926-8c33-09fb7d32886b'
wanted_list
=
[
"AutoScraper module not found in Python Autoscraper library"
]
print
(
get_similar_result
(
url
,
wanted_list
))
```
关于缺失代码部分,以下选项
<span
style=
"color:red"
>
正确
</span>
的是:
## 答案
```
python
result
=
scraper
.
build
(
url
,
wanted_list
)
```
## 选项
### A
```
python
result
=
scraper
.
get_result_similar
(
url
,
wanted_list
)
```
### B
```
python
result
=
scraper
.
get
(
url
,
wanted_list
)
```
### C
```
python
result
=
scraper
.
get_result_exact
(
url
,
wanted_list
)
```
data/2.python中阶/3.网络爬虫/12.autoscraper/hello_autoscraper.py
0 → 100644
浏览文件 @
b2148e6a
# -*- coding: UTF-8 -*-
from
autoscraper
import
AutoScraper
def
get_similar_result
(
url
,
wanted_list
):
scraper
=
AutoScraper
()
result
=
scraper
.
build
(
url
,
wanted_list
)
return
result
url
=
'https://stackoverflow.com/search?q=autoscraper&s=7b5866da-920e-4926-8c33-09fb7d32886b'
wanted_list
=
[
"AutoScraper module not found in Python Autoscraper library"
]
print
(
get_similar_result
(
url
,
wanted_list
))
\ No newline at end of file
data/2.python中阶/3.网络爬虫/13.selectolax/config.json
0 → 100644
浏览文件 @
b2148e6a
{
"export"
:
[
"selectolax_desc.json"
,
"hello_selectolax.json"
],
"keywords"
:
[],
"children"
:
[],
"keywords_must"
:
[
"selectolax"
],
"keywords_forbid"
:
[]
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"hello_selectolax.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.md
0 → 100644
浏览文件 @
b2148e6a
# selectolax示例
使用 selectolax 提取页面p标签的内容,代码如下:
```
python
# -*- coding: UTF-8 -*-
from
selectolax.parser
import
HTMLParser
def
get_p
(
html
):
p_list
=
[]
for
node
in
HTMLParser
(
html
).
css
(
"p"
):
# TODO(You): 正确的提取代码
return
p_list
html
=
'''
<html>
<head>
<title>这是一个简单的测试页面</title>
</head>
<body>
<p class="item-0">body 元素的内容会显示在浏览器中。</p>
<p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>
'''
print
(
get_p
(
html
))
```
关于缺失代码部分,以下选项
<span
style=
"color:red"
>
正确
</span>
的是:
## 答案
```
python
p_list
.
append
(
node
.
text
())
```
## 选项
### A
```
python
p_list
.
append
(
node
.
text
)
```
### B
```
python
p_list
.
append
(
node
)
```
### C
```
python
p_list
.
append
(
node
.
get_text
())
```
data/2.python中阶/3.网络爬虫/13.selectolax/hello_selectolax.py
0 → 100644
浏览文件 @
b2148e6a
# -*- coding: UTF-8 -*-
from
selectolax.parser
import
HTMLParser
def
get_p
(
html
):
p_list
=
[]
for
node
in
HTMLParser
(
html
).
css
(
"p"
):
p_list
.
append
(
node
.
text
())
return
p_list
html
=
'''
<html>
<head>
<title>这是一个简单的测试页面</title>
</head>
<body>
<p class="item-0">body 元素的内容会显示在浏览器中。</p>
<p class="item-1">title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>
'''
print
(
get_p
(
html
))
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"selectolax_desc.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/13.selectolax/selectolax_desc.md
0 → 100644
浏览文件 @
b2148e6a
# selectolax简介
selectolax用来高效解析网页,以下说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
bash
selectolax提供了下载网页功能
```
## 选项
### A
```
bash
selectolax解析速度优于lxml
```
### B
```
bash
爬取大量数据,解析页面可以考虑使用selectolax
```
### C
```
bash
使用了Modest和Lexbor引擎
```
data/2.python中阶/3.网络爬虫/14.requests-html/config.json
0 → 100644
浏览文件 @
b2148e6a
{
"export"
:
[
"requests_html_desc.json"
,
"hello_requests_html.json"
],
"keywords"
:
[],
"children"
:
[],
"keywords_must"
:
[
"requests-html"
],
"keywords_forbid"
:
[]
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"hello_requests_html.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.md
0 → 100644
浏览文件 @
b2148e6a
# requests-html示例
使用 requests-html 提取页面https://www.baidu.com/上面的所有链接,代码如下:
```
python
# -*- coding: UTF-8 -*-
from
requests_html
import
HTMLSession
def
get_url
(
url
):
session
=
HTMLSession
()
r
=
session
.
get
(
url
)
# TODO(You): 正确的提取代码
return
urls
print
(
get_url
(
"https://www.baidu.com/"
))
```
关于缺失代码部分,以下选项
<span
style=
"color:red"
>
正确
</span>
的是:
## 答案
```
python
urls
=
r
.
html
.
links
```
## 选项
### A
```
python
urls
=
r
.
html
.
find
(
"url"
)
```
### B
```
python
urls
=
r
.
html
.
find
(
"url"
)[
0
]
```
### C
```
python
urls
=
r
.
html
.
urls
```
data/2.python中阶/3.网络爬虫/14.requests-html/hello_requests_html.py
0 → 100644
浏览文件 @
b2148e6a
# -*- coding: UTF-8 -*-
from
requests_html
import
HTMLSession
def
get_url
(
url
):
session
=
HTMLSession
()
r
=
session
.
get
(
url
)
return
r
.
html
.
links
print
(
get_url
(
"https://www.baidu.com/"
))
\ No newline at end of file
data/2.python中阶/3.网络爬虫/14.requests-html/requests_html_desc.json
0 → 100644
浏览文件 @
b2148e6a
{
"source"
:
"requests_html_desc.md"
,
"depends"
:
[],
"type"
:
"code_options"
,
"author"
:
"zxm2015"
,
"notebook_enable"
:
true
}
\ No newline at end of file
data/2.python中阶/3.网络爬虫/14.requests-html/requests_html_desc.md
0 → 100644
浏览文件 @
b2148e6a
# requests-html简介
requests-html可以使爬虫开发人员方便的编写爬虫代码,以下说法
<span
style=
"color:red"
>
错误
</span>
的是:
## 答案
```
bash
支持验证码识别
```
## 选项
### A
```
bash
requests-html不仅可以下载网页,还可以解析网页
```
### B
```
bash
支持CSS和XPath选择器
```
### C
```
bash
支持持久cookie和代理
```
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录