Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
k54kdk
Python 爬虫120例
提交
24c753c5
Python 爬虫120例
项目概览
k54kdk
/
Python 爬虫120例
与 Fork 源项目一致
Fork自
梦想橡皮擦 / Python 爬虫120例
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
24c753c5
编写于
6月 21, 2021
作者:
H
hjCodeCloud
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
可爱图片网
上级
a55a654c
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
80 addition
and
0 deletion
+80
-0
NO7/index.py
NO7/index.py
+80
-0
未找到文件。
NO7/index.py
0 → 100644
浏览文件 @
24c753c5
import
requests
import
re
import
threading
import
time
headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 全局 urls
urls
=
[]
mutex
=
threading
.
Lock
()
# 循环获取URL
def
get_image
(
start_url
):
global
urls
urls
.
append
(
start_url
)
next_url
=
start_url
while
next_url
!=
"#"
:
res
=
requests
.
get
(
url
=
next_url
,
headers
=
headers
)
if
res
is
not
None
:
html
=
res
.
text
pattern
=
re
.
compile
(
'<a class="next_main_img" href="(.*?)">'
)
match
=
pattern
.
search
(
html
)
if
match
:
next_url
=
match
.
group
(
1
)
if
next_url
.
find
(
'www.keaitupian'
)
<
0
:
next_url
=
f
"https://www.keaitupian.net
{
next_url
}
"
print
(
next_url
)
# 上锁
mutex
.
acquire
()
urls
.
append
(
next_url
)
mutex
.
release
()
# 保存图片线程
def
save_image
():
global
urls
print
(
urls
)
while
True
:
mutex
.
acquire
()
# 上锁
if
len
(
urls
)
>
0
:
img_url
=
urls
[
0
]
del
urls
[
0
]
mutex
.
release
()
res
=
requests
.
get
(
url
=
img_url
,
headers
=
headers
)
if
res
is
not
None
:
html
=
res
.
text
pattern
=
re
.
compile
(
'<img class="img-responsive center-block" src="(.*?)"/>'
)
img_match
=
pattern
.
search
(
html
)
if
img_match
:
img_data_url
=
img_match
.
group
(
1
)
print
(
"抓取图片中:"
,
img_data_url
)
try
:
res
=
requests
.
get
(
img_data_url
)
with
open
(
f
"images/
{
time
.
time
()
}
.png"
,
"wb+"
)
as
f
:
f
.
write
(
res
.
content
)
except
Exception
as
e
:
print
(
e
)
else
:
print
(
"等待中,长时间等待,可以直接关闭"
)
if
__name__
==
'__main__'
:
# 获取图片线程
gets
=
threading
.
Thread
(
target
=
get_image
,
args
=
(
"https://www.keaitupian.net/article/202389.html"
,))
gets
.
start
()
save
=
threading
.
Thread
(
target
=
save_image
)
save
.
start
()
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录