Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
茵可露露
Python 爬虫120例
提交
934e2741
Python 爬虫120例
项目概览
茵可露露
/
Python 爬虫120例
与 Fork 源项目一致
Fork自
梦想橡皮擦 / Python 爬虫120例
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
934e2741
编写于
10月 12, 2021
作者:
梦想橡皮擦
💬
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
第九工场
上级
cb81dccf
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
55 addition
and
0 deletion
+55
-0
NO34/imgs/爱心撕纸艺术二维码.jpg
NO34/imgs/爱心撕纸艺术二维码.jpg
+0
-0
NO34/第九工场.py
NO34/第九工场.py
+55
-0
未找到文件。
NO34/imgs/爱心撕纸艺术二维码.jpg
0 → 100644
浏览文件 @
934e2741
33.6 KB
NO34/第九工场.py
0 → 100644
浏览文件 @
934e2741
from
bs4
import
BeautifulSoup
import
requests
import
logging
logging
.
basicConfig
(
level
=
logging
.
NOTSET
)
def
get_html
(
url
,
headers
)
->
None
:
try
:
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
,
timeout
=
3
)
except
Exception
as
e
:
logging
.
debug
(
"采集异常"
,
e
)
if
res
is
not
None
:
html_str
=
res
.
text
soup
=
BeautifulSoup
(
html_str
,
"html.parser"
)
imgs
=
soup
.
find_all
(
attrs
=
{
'class'
:
'lazy'
})
print
(
"获取到的数据量是"
,
len
(
imgs
))
datas
=
[]
for
item
in
imgs
:
name
=
item
.
get
(
'alt'
)
src
=
item
[
"src"
]
logging
.
info
(
f
"
{
name
}
,
{
src
}
"
)
# 获取拼接数据
datas
.
append
((
name
,
src
))
save
(
datas
,
headers
)
def
save
(
datas
,
headers
)
->
None
:
if
datas
is
not
None
:
for
item
in
datas
:
try
:
# 抓取图片
res
=
requests
.
get
(
url
=
item
[
1
],
headers
=
headers
,
timeout
=
5
)
except
Exception
as
e
:
logging
.
debug
(
"图片采集异常"
+
str
(
e
))
if
res
is
not
None
:
img_data
=
res
.
content
with
open
(
"./imgs/{}.jpg"
.
format
(
item
[
0
]),
"wb+"
)
as
f
:
f
.
write
(
img_data
)
else
:
return
None
if
__name__
==
'__main__'
:
headers
=
{
"User-Agent"
:
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.82 Safari/537.36"
,
"Referer"
:
"https://www.9thws.com/"
}
url_format
=
"https://www.9thws.com/#p{}"
urls
=
[
url_format
.
format
(
i
)
for
i
in
range
(
2
,
3
)]
# 由于该网站是POST 请求,所以仅抓取一页,目的是测试 BS 的用法
get_html
(
urls
[
0
],
headers
)
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录