Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
qyhua
Python 爬虫120例
提交
39b65cef
Python 爬虫120例
项目概览
qyhua
/
Python 爬虫120例
与 Fork 源项目一致
Fork自
梦想橡皮擦 / Python 爬虫120例
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
39b65cef
编写于
7月 02, 2021
作者:
H
hjCodeCloud
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
19lou相亲爬虫
上级
fb2f7913
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
53 addition
and
0 deletion
+53
-0
NO11/19LOU相亲爬虫.py
NO11/19LOU相亲爬虫.py
+53
-0
未找到文件。
NO11/19LOU相亲爬虫.py
0 → 100644
浏览文件 @
39b65cef
import
requests
from
lxml
import
etree
from
fake_useragent
import
UserAgent
import
time
def
save
(
src
,
title
):
try
:
res
=
requests
.
get
(
src
)
with
open
(
f
"imgs/
{
title
}
.jpg"
,
"wb+"
)
as
f
:
f
.
write
(
res
.
content
)
except
Exception
as
e
:
print
(
e
)
def
run
(
url
):
# ua = UserAgent(cache=False)
ua
=
"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
headers
=
{
"User-Agent"
:
ua
,
"Host"
:
"www.19lou.com"
,
"Referer"
:
"https://www.19lou.com/r/1/19lnsxq-233.html"
,
"Cookie"
:
"_Z3nY0d4C_=37XgPK9h"
# 从反爬代码中获取到的值
}
try
:
res
=
requests
.
get
(
url
=
url
,
headers
=
headers
)
text
=
res
.
text
# 将 html 转换成 Element 对象
html
=
etree
.
HTML
(
text
)
# xpath 路径提取 @class 为选取 class 属性
divs
=
html
.
xpath
(
"//div[@class='pics']"
)
# print(len(divs))
# 遍历 Elements 节点
for
div
in
divs
:
# 提取地址,注意提取的属性为 data-src 而不是 src
src
=
div
.
xpath
(
"./img/@data-src"
)[
0
]
# 提取标题
title
=
div
.
xpath
(
"./img/@alt"
)[
0
]
save
(
src
,
title
)
except
Exception
as
e
:
print
(
e
)
if
__name__
==
'__main__'
:
urls
=
[
"https://www.19lou.com/r/1/19lnsxq.html"
]
for
i
in
range
(
114
,
243
):
urls
.
append
(
f
"https://www.19lou.com/r/1/19lnsxq-
{
i
}
.html"
)
for
url
in
urls
:
print
(
f
"正在抓取
{
url
}
"
)
run
(
url
)
# time.sleep(5)
print
(
"全部爬取完毕"
)
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录