Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
梦想橡皮擦
Python 爬虫120例
提交
705acb4c
Python 爬虫120例
项目概览
梦想橡皮擦
/
Python 爬虫120例
通知
6431
Star
763
Fork
392
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
705acb4c
编写于
12月 05, 2022
作者:
梦想橡皮擦
💬
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
可爱女人
上级
ce4a6c2d
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
100 addition
and
0 deletion
+100
-0
可爱女人源码/可爱女人.py
可爱女人源码/可爱女人.py
+100
-0
未找到文件。
可爱女人源码/可爱女人.py
0 → 100644
浏览文件 @
705acb4c
import
requests
import
re
import
threading
import
time
headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 详情页图片地址 URL
detail_urls
=
[]
mutex
=
threading
.
Lock
()
# 循环获取URL
def
get_detail_urls
(
url
):
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
)
res
.
encoding
=
'gb2312'
if
res
is
not
None
:
html
=
res
.
text
# 读取页面源码
# 对目标源码页数据进行裁剪
# 获取 ul class = "g-gxlist-imgbox" 的数据
# 该数据在标签 <ul class="g-gxlist-imgbox"> 和 <div class="pagelist"> 之间
html
=
html
[
html
.
find
(
'<ul class="g-gxlist-imgbox">'
):
html
.
find
(
'<div class="pagelist">'
)]
# 裁剪之后的数据,可以使用正则提取
# 设置正则表达式对象
pattern
=
re
.
compile
(
'<a href="(.*?)" target="_blank" title=".*?">'
)
# 提取详情页地址
find_urls
=
pattern
.
findall
(
html
)
if
find_urls
:
# 上锁
mutex
.
acquire
()
# 添加到全局变量中
detail_urls
.
extend
(
find_urls
)
# 释放锁
mutex
.
release
()
# 保存图片线程
def
save_image
():
global
detail_urls
while
True
:
# 上锁
mutex
.
acquire
()
if
len
(
detail_urls
)
>
0
:
# 获取列表第1项
img_url
=
detail_urls
[
0
]
# 删除列表第1项
del
detail_urls
[
0
]
# 释放锁
mutex
.
release
()
res
=
requests
.
get
(
url
=
img_url
,
headers
=
headers
)
if
res
is
not
None
:
html
=
res
.
text
# 裁切目标源码,便于后续整体提取
html
=
html
[
html
.
find
(
'<div class="img-list3">'
):
html
.
find
(
'<div class="m_ssxx">'
)]
pattern
=
re
.
compile
(
'<img alt=".*?" src="(.*?)" />'
)
img_list
=
pattern
.
findall
(
html
)
if
img_list
:
for
img
in
img_list
:
print
(
f
"线程
{
threading
.
currentThread
().
name
}
"
,
"抓取图片中:"
,
img
)
try
:
res
=
requests
.
get
(
img
)
with
open
(
f
"images/
{
threading
.
currentThread
().
name
+
str
(
time
.
time
())
}
.png"
,
"wb+"
)
as
f
:
f
.
write
(
res
.
content
)
except
Exception
as
e
:
print
(
e
)
else
:
print
(
"等待中,长时间等待,可以直接关闭"
)
if
__name__
==
'__main__'
:
# 生成分页地址
origin_url
=
[
'http://www.imeitou.com/nvsheng/'
]
for
i
in
range
(
2
,
11
):
origin_url
.
append
(
f
'http://www.imeitou.com/nvsheng/index_
{
i
}
.html'
)
# 获取图片详情页地址
for
d_url
in
origin_url
:
get_detail_urls
(
d_url
)
# 测试得到的详情页地址列表
# 测试得到 160 条地址,数据量是正确的
print
(
len
(
detail_urls
))
# 保存图片线程配置+启动
# 这里我们开启2个线程
save1
=
threading
.
Thread
(
target
=
save_image
)
save1
.
start
()
save2
=
threading
.
Thread
(
target
=
save_image
)
save2
.
start
()
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录