Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
梦想橡皮擦
Python 爬虫120例
提交
6053433a
Python 爬虫120例
项目概览
梦想橡皮擦
/
Python 爬虫120例
通知
6424
Star
761
Fork
392
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
6053433a
编写于
6月 23, 2021
作者:
H
hjCodeCloud
3
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
手机壁纸抓取
上级
24c753c5
变更
1
显示空白变更内容
内联
并排
Showing
1 changed file
with
54 addition
and
0 deletion
+54
-0
NO8/index.py
NO8/index.py
+54
-0
未找到文件。
NO8/index.py
0 → 100644
浏览文件 @
6053433a
import
requests
import
re
import
threading
headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 循环获取 URL
def
get_image
(
base_url
):
res
=
requests
.
get
(
url
=
base_url
,
headers
=
headers
)
if
res
is
not
None
:
html
=
res
.
text
pattern
=
re
.
compile
(
'<img lazysrc="(.*?)" lazysrc2x=".*?" width="221" height="362" alt=".*?" title="(.*?)"'
)
match_list
=
pattern
.
findall
(
html
)
for
url
,
title
in
match_list
:
save_image
(
url
[:
url
.
find
(
'jpg'
)
+
3
],
title
)
print
(
match_list
)
def
save_image
(
url
,
title
):
try
:
print
(
f
"
{
title
}
-
{
url
}
"
)
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
)
if
res
is
not
None
:
html
=
res
.
content
with
open
(
f
"images/
{
title
}
.jpg"
,
"wb+"
)
as
f
:
f
.
write
(
res
.
content
)
except
Exception
as
e
:
print
(
e
)
if
__name__
==
'__main__'
:
num
=
0
# 最多开启5个线程
semaphore
=
threading
.
BoundedSemaphore
(
5
)
for
index
in
range
(
189
):
t
=
threading
.
Thread
(
target
=
get_image
,
args
=
(
f
"https://www.3gbizhi.com/sjbz/index_
{
index
}
.html"
,))
t
.
start
()
while
threading
.
active_count
()
!=
1
:
pass
else
:
print
(
'所有线程运行完毕'
)
guokeyixiao
@guokeyixiao
·
6月 28, 2021
如果能把后面的原始图抓下来就更好了
如果能把后面的原始图抓下来就更好了
梦想橡皮擦
💬
@hihell
·
6月 30, 2021
Maintainer
相同的逻辑可以在重复一遍
相同的逻辑可以在重复一遍
ChiShiJinChi
@ChiShiJinChi
·
7月 13, 2021
为什么会有一个孤零零的“html”
为什么会有一个孤零零的“html”
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录