Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
梦想橡皮擦
Python 爬虫120例
提交
1f66e1e5
Python 爬虫120例
项目概览
梦想橡皮擦
/
Python 爬虫120例
通知
6417
Star
761
Fork
392
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
1f66e1e5
编写于
5月 21, 2021
作者:
梦想橡皮擦
💬
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
no1
上级
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
68 addition
and
0 deletion
+68
-0
index.py
index.py
+68
-0
未找到文件。
index.py
0 → 100644
浏览文件 @
1f66e1e5
import
requests
import
re
import
time
# 请求函数
def
request_get
(
url
,
ret_type
=
"text"
,
timeout
=
5
,
encoding
=
"GBK"
):
headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
,
timeout
=
timeout
)
res
.
encoding
=
encoding
if
ret_type
==
"text"
:
return
res
.
text
elif
ret_type
==
"image"
:
return
res
.
content
# 抓取函数
def
main
():
urls
=
[
f
"http://www.netbian.com/mei/index_
{
i
}
.htm"
for
i
in
range
(
2
,
201
)]
url
=
"http://www.netbian.com/mei/index.htm"
urls
.
insert
(
0
,
url
)
for
url
in
urls
:
print
(
"抓取列表页地址为:"
,
url
)
text
=
request_get
(
url
)
format
(
text
)
# 解析函数
def
format
(
text
):
origin_text
=
split_str
(
text
,
'<div class="list">'
,
'<div class="page">'
)
pattern
=
re
.
compile
(
'href="(.*?)"'
)
hrefs
=
pattern
.
findall
(
origin_text
)
hrefs
=
[
i
for
i
in
hrefs
if
i
.
find
(
"desk"
)
>
0
]
for
href
in
hrefs
:
url
=
f
"http://www.netbian.com
{
href
}
"
print
(
f
"正在下载:
{
url
}
"
)
text
=
request_get
(
url
)
format_detail
(
text
)
def
split_str
(
text
,
s_html
,
e_html
):
start
=
text
.
find
(
s_html
)
+
len
(
e_html
)
end
=
text
.
find
(
e_html
)
origin_text
=
text
[
start
:
end
]
return
origin_text
def
format_detail
(
text
):
origin_text
=
split_str
(
text
,
'<div class="pic">'
,
'<div class="pic-down">'
)
pattern
=
re
.
compile
(
'src="(.*?)"'
)
image_src
=
pattern
.
search
(
origin_text
).
group
(
1
)
# 保存图片
save_image
(
image_src
)
# 存储函数
def
save_image
(
image_src
):
content
=
request_get
(
image_src
,
"image"
)
with
open
(
f
"
{
str
(
time
.
time
())
}
.jpg"
,
"wb"
)
as
f
:
f
.
write
(
content
)
print
(
"图片保存成功"
)
if
__name__
==
'__main__'
:
main
()
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录