Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
梦想橡皮擦
Python 爬虫120例
提交
1166084f
Python 爬虫120例
项目概览
梦想橡皮擦
/
Python 爬虫120例
通知
6420
Star
761
Fork
392
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
1166084f
编写于
6月 15, 2021
作者:
H
hjCodeCloud
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
多肉
上级
75a3dd6e
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
71 addition
and
0 deletion
+71
-0
NO5/images/吕千惠多肉植物图片_3.png
NO5/images/吕千惠多肉植物图片_3.png
+0
-0
NO5/index.py
NO5/index.py
+71
-0
未找到文件。
NO5/images/吕千惠多肉植物图片_3.png
0 → 100644
浏览文件 @
1166084f
30.4 KB
NO5/index.py
0 → 100644
浏览文件 @
1166084f
import
requests
import
re
headers
=
{
"user-agent"
:
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}
def
get_list
(
url
):
"""
获取全部详情页链接
"""
all_list
=
[]
res
=
requests
.
get
(
url
,
headers
=
headers
)
html
=
res
.
text
start
=
'<ul class="list2">'
end
=
'<ul class="pagination">'
html
=
html
[
res
.
text
.
find
(
start
):
res
.
text
.
find
(
end
)]
pattern
=
re
.
compile
(
'<h3><a href="(.*?)" target="_blank" title="(.*?)">.*?</a></h3>'
)
all_list
=
pattern
.
findall
(
html
)
return
all_list
def
save_img
(
title
,
index
,
url
):
try
:
img_res
=
requests
.
get
(
url
,
headers
=
headers
)
img_data
=
img_res
.
content
print
(
f
"抓取:
{
url
}
"
)
with
open
(
f
"images/
{
title
}
_
{
index
}
.png"
,
"wb+"
)
as
f
:
f
.
write
(
img_data
)
except
Exception
as
e
:
print
(
e
)
def
get_detail
(
title
,
url
):
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
)
html
=
res
.
text
# print(html)
pattern
=
re
.
compile
(
'<img alt=".*?" src="(.*?)"'
)
imgs
=
pattern
.
findall
(
html
)
for
index
,
url
in
enumerate
(
imgs
):
# print(title, index, url)
save_img
(
title
,
index
,
url
)
def
run
(
start
,
end
):
wait_url
=
[
f
"https://www.zhimengo.com/duoroutu?page=
{
i
}
"
for
i
in
range
(
int
(
start
),
int
(
end
)
+
1
)]
print
(
wait_url
)
url_list
=
[]
for
item
in
wait_url
:
ret
=
get_list
(
item
)
# print(len(ret))
print
(
f
"已经抓取:
{
len
(
ret
)
}
条数据"
)
url_list
.
extend
(
ret
)
# print(len(url_list))
for
url
,
title
in
url_list
:
get_detail
(
title
,
url
)
if
__name__
==
"__main__"
:
start
=
input
(
"请输入起始页:"
)
end
=
input
(
"请输入结束页:"
)
run
(
start
,
end
)
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录