Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
茵可露露
Python 爬虫120例
提交
89d1cfad
Python 爬虫120例
项目概览
茵可露露
/
Python 爬虫120例
与 Fork 源项目一致
Fork自
梦想橡皮擦 / Python 爬虫120例
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
89d1cfad
编写于
10月 15, 2021
作者:
梦想橡皮擦
💬
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
gevent
上级
ecc073a0
变更
3
隐藏空白更改
内联
并排
Showing
3 changed file
with
50 addition
and
1 deletion
+50
-1
NO37/imgs/00后霸气头像女生超拽高雅 忘却那些流言蜚语.jpg
NO37/imgs/00后霸气头像女生超拽高雅 忘却那些流言蜚语.jpg
+0
-0
NO37/女生头像网采集.py
NO37/女生头像网采集.py
+49
-0
README.md
README.md
+1
-1
未找到文件。
NO37/imgs/00后霸气头像女生超拽高雅 忘却那些流言蜚语.jpg
0 → 100644
浏览文件 @
89d1cfad
19.5 KB
NO37/女生头像网采集.py
0 → 100644
浏览文件 @
89d1cfad
from
gevent
import
monkey
monkey
.
patch_all
()
import
threading
from
bs4
import
BeautifulSoup
import
gevent
import
requests
import
lxml
def
get_page
(
this_urls
):
while
True
:
if
this_urls
is
None
:
break
url
=
this_urls
.
pop
()
print
(
'正在抓取:{},当前的虚拟线程为:{}'
.
format
(
url
,
threading
.
current_thread
().
getName
()))
res
=
requests
.
get
(
url
=
url
)
res
.
encoding
=
"gb2312"
if
res
.
status_code
==
200
:
soup
=
BeautifulSoup
(
res
.
text
,
'lxml'
)
content
=
soup
.
find
(
attrs
=
{
'class'
:
'g-gxlist-imgbox'
})
img_tags
=
content
.
find_all
(
'img'
)
for
img_tag
in
img_tags
:
img_src
=
img_tag
[
'src'
]
# 注意去除文件路径中的特殊符号,防止出错
try
:
name
=
img_tag
[
'alt'
].
replace
(
'/'
,
''
).
replace
(
'+'
,
''
).
replace
(
'?'
,
''
).
replace
(
'*'
,
''
)
except
OSError
as
e
:
continue
save_img
(
img_src
,
name
)
def
save_img
(
img_src
,
name
):
res
=
requests
.
get
(
img_src
)
with
open
(
f
'imgs/
{
name
}
.jpg'
,
mode
=
'wb'
)
as
f
:
f
.
write
(
res
.
content
)
if
__name__
==
'__main__'
:
urls
=
[
f
"https://www.qqtn.com/tx/nvshengtx_
{
page
}
.html"
for
page
in
range
(
1
,
244
)]
# 开启 5 个协程
gevent
.
joinall
([
gevent
.
spawn
(
get_page
,
urls
)
for
i
in
range
(
5
)])
print
(
"爬取完毕"
)
README.md
浏览文件 @
89d1cfad
...
...
@@ -77,7 +77,7 @@
### 📙 协程学习
37.
腾牛个性网QQ头像采集,gevent 模块
37.
[
python 爬虫爱好者必须掌握的知识点“ 协程爬虫”,看一下如何用 gevent 采集女生用头像
](
https://dream.blog.csdn.net/article/details/120421824
)
38.
麦涩网 MyCoser|cosplay 采集,asyncio 库学习
39.
中少绘本 MP4 视频采集,asyncio 协程第3篇
40.
Bensound 站 MP3 采集,asyncio + aiohttp 协程第4篇
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录