Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
梦想橡皮擦
Python 爬虫120例
提交
5521b117
Python 爬虫120例
项目概览
梦想橡皮擦
/
Python 爬虫120例
通知
6424
Star
761
Fork
392
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
1
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
Python 爬虫120例
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
1
Issue
1
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
提交
5521b117
编写于
9月 06, 2021
作者:
梦想橡皮擦
💬
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
自然资源部信息中心
上级
a30c1d3c
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
237 addition
and
0 deletion
+237
-0
NO31/htmls/0.html
NO31/htmls/0.html
+157
-0
NO31/index.py
NO31/index.py
+80
-0
未找到文件。
NO31/htmls/0.html
0 → 100644
浏览文件 @
5521b117
<!DOCTYPE html>
<html>
<head
lang=
"en"
>
<meta
charset=
"UTF-8"
>
<title>
山西转型综合改革示范区土地管理局国有土地使用权挂牌出让公告(晋综示土(告)字[2021]33号)
</title>
<link
href=
"../../../../images/Zrzyb_site.css"
rel=
"stylesheet"
type=
"text/css"
/>
<script
src=
"../../../../images/jquery-1.8.3.min.js"
type=
"text/javascript"
></script>
<link
href=
"../../../../images/selectFilter_1.css"
rel=
"stylesheet"
type=
"text/css"
/>
<script
src=
"http://www.lrn.cn/share2017/share-0.9.js"
type=
"text/javascript"
></script>
<script
src=
"../../../../images/jquery.select.js"
type=
"text/javascript"
></script>
</head>
<script>
/*打印*/
function
printPage
()
{
var
newWin
=
window
.
open
(
'
/printpage11.html
'
,
''
,
''
);
}
/*字体大小*/
function
doZoom
(
size
){
document
.
getElementById
(
'
content1
'
).
style
.
fontSize
=
size
+
'
px
'
;
}
/*关闭*/
function
Winclose
(){
window
.
parent
.
close
();
}
</script>
<body>
<style>
.gu-art-tit
{
font-size
:
32px
;
line-height
:
42px
;}
.gu-art-con
{
font-size
:
16px
;
line-height
:
32px
;}
</style>
<!--head_top开始-->
<div
class=
"head_top"
>
<div
class=
"head_top_nei"
>
<div
class=
"head_top_nei_r fr"
>
<a
href=
"http://mail.mnr.gov.cn/"
target=
"_blank"
title=
"电子邮件"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_03.png"
width=
"22"
height=
"19"
/></a>
<a
href=
"http://www.mnr.gov.cn/wzxx/yy/wh/"
target=
"_blank"
title=
"网站维护邮箱"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_05.png"
width=
"24"
height=
"19"
/></a>
<a
href=
"javascript:;"
onclick=
"toggleToolBar();"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_07.png"
width=
"16"
height=
"19"
/></a>
<a
href=
"http://www.mnr.gov.cn/wzxx/yy/app/"
target=
"_blank"
title=
"自然资源部APP"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_09.png"
width=
"18"
height=
"19"
/></a>
<a
href=
"http://www.mnr.gov.cn/wzxx/yy/m/"
target=
"_blank"
title=
"手机移动版"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_11.png"
width=
"12"
height=
"19"
/></a>
<a
href=
"http://www.mnr.gov.cn/wzxx/yy/wb/"
target=
"_blank"
title=
"微博"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_13.png"
width=
"25"
height=
"19"
/></a>
<a
href=
"http://www.mnr.gov.cn/wzxx/yy/wx/"
target=
"_blank"
title=
"微信"
><img
src=
"../../../../images/Zrzyb_headtop_ico_scy201806_15.png"
width=
"23"
height=
"19"
/></a>
<!--span><a href="#">注册</a></span>
<span><a href="#" class="on">登录</a></span-->
</div>
<a
href=
"http://www.gov.cn/"
>
中国政府网
</a>
</div>
</div>
<!--head_top结束-->
<!--head_logo开始-->
<div
class=
"head_logo"
>
<div
class=
"head_logo_nei clearfix"
>
<div
class=
"head_logo_nei_l fl"
><a
href=
"/"
><img
src=
"../../../../images/Zrzyb_logo_scy201806_1.png"
/></a></div>
<style>
.wzb
{
font-size
:
32px
;
color
:
#07438a
;
margin-bottom
:
10px
;
font-weight
:
bold
;
text-align
:
right
;
margin-right
:
40px
;
margin-top
:
20px
;}
.wzb
a
{
color
:
#07438a
;
text-decoration
:
none
;}
</style>
<div
style=
"width:315px; height:100px; float:right; margin-top:10px; padding-left:15px;"
>
<div
class=
"wzb"
><a
href=
"http://landchina.mnr.gov.cn/"
target=
"_blank"
>
土地市场
</a></div>
</div>
</div>
</div>
<!--head_logo结束-->
<!--nav开始-->
<div
class=
"nav"
>
<div
class=
"nav_nei clearfix"
>
<ul
class=
"clearfix"
>
<li><a
href=
"http://www.mnr.gov.cn/"
class=
"sy"
>
首页
</a></li>
<li><a
href=
"http://www.mnr.gov.cn/jg/"
class=
"jg"
>
机构
</a>
</li>
<li><a
href=
"http://www.mnr.gov.cn/dt/"
class=
"dt"
>
动态
</a>
</li>
<li>
<a
href=
"http://www.mnr.gov.cn/gk/"
class=
"gk"
>
公开
</a>
</li>
<li>
<a
href=
"http://www.mnr.gov.cn/fw/"
class=
"bs"
>
服务
</a>
</li>
<li><a
href=
"http://www.mnr.gov.cn/hd/"
class=
"hd"
>
互动
</a>
</li>
<li><a
href=
"http://www.mnr.gov.cn/sj/"
class=
"sj"
>
数据
</a>
</li>
<li><a
href=
"http://www.mnr.gov.cn/zt/"
class=
"zt"
>
专题
</a>
</li>
</ul>
</div>
</div>
<div
class=
"gu-wrap"
>
<div
class=
"gu-kyart"
>
<div
class=
"gu-art-tit"
>
山西转型综合改革示范区土地管理局国有土地使用权挂牌出让公告(晋综示土(告)字[2021]33号)
<!--</br>
(邢县国土告字[2018]21号)-->
</div>
<div
class=
"gu-art-source clearfix"
>
<div
class=
"gu-art-data fl"
>
发布时间:2021-09-05
<span>
|
</span>
行政区:阳曲县
</div>
<div
class=
"gu-art-tool fr"
>
【字号:
<font
class=
"font-big"
>
大
</font><font
class=
"font-mid"
>
中
</font><font
class=
"font-s"
>
小
</font>
】
<a
href=
"javascript:print();"
>
【打印】
</a>
<a
href=
"javascript:window.close();"
>
【关闭】
</a>
分享到:
<a
onclick=
"shareWeibo()"
href=
"#"
><img
src=
"../../../../images/Zrzyb_ky_share_gu20180917_01.jpg"
/>
</a><a
onclick=
"shareQQ()"
href=
"#"
><img
src=
"../../../../images/Zrzyb_ky_share_gu20180917_02.jpg"
/>
</a><a
href=
"#"
onclick=
"shareWeixin()"
><img
src=
"../../../../images/Zrzyb_ky_share_gu20180917_03.jpg"
/>
</a><a
href=
"#"
onclick=
"shareRenRen()"
><img
src=
"../../../../images/Zrzyb_ky_share_gu20180917_04.jpg"
/>
</a>
</div>
</div>
<div
class=
"gu-art-con"
>
<table
width=
"95%"
border=
"0"
cellspacing=
"0"
cellpadding=
"0"
style=
"font-family: '宋体';font-size: 14px;line-height: 150%;table-layout:fixed"
>
<tr>
<td
align=
"center"
style=
"font-size:16px; font-weight:bold; height:30px"
>
山西转型综合改革示范区土地管理局国有土地使用权挂牌出让公告(晋综示土(告)字[2021]33号)
</td>
</tr>
<tr>
<td
align=
"center"
>
晋综示土(告)字[2021]33号
2021/9/5
</td>
</tr>
<tr>
<td>
<p></p>
<p>
经山西转型综合改革示范区管理委员会批准,山西转型综合改革示范区土地管理局决定以
<u>
挂牌
</u>
方式出让
<u>
1(幅)
</u>
地块的国有土地使用权。现将有关事项公告如下:
</p>
<p>
一、挂牌出让地块的基本情况和规划指标要求 :
</p>
<div
style=
" font-size:12px;"
>
<table
width=
"100%"
border=
"1"
cellpadding=
"1"
cellspacing=
"0"
style=
"border-collapse:collapse; border-color:#333333;font-size:12px;"
>
<tr>
<td
style=
"width:100px;"
>
宗地编号:
</td>
<td
style=
"width:220px;word-break: break-all;"
>
ZGYQ2021-17(阪寺山片区GYXQ02-02街区008地块西侧)
</td>
<td
style=
"width:100px;"
>
宗地总面积:
</td>
<td
style=
"width:100px;"
>
167106.96平方米
</td>
<td
style=
"width:90px;"
>
宗地坐落:
</td>
<td
style=
"width:200px;"
colspan=
"3"
>
山西综改示范区阳曲产业园区阪寺山片区
</td>
</tr>
<tr>
<td>
出让年限:
</td>
<td>
50年
</td>
<td>
容积率:
</td>
<td>
大于或等于1并且小于或等于2
</td>
<td>
建筑密度(%):
</td>
<td>
大于或等于40
</td>
</tr>
<tr>
<td>
绿化率(%):
</td>
<td>
小于或等于20
</td>
<td>
建筑限高(米):
</td>
<td>
</td>
<td></td>
<td></td>
</tr>
<tr>
<td>
主要用途:
</td>
<td>
工业用地
</td>
<td>
区位
</td>
<td
colspan=
"3"
>
</td>
</tr>
<tr><td
rowspan =
'2'
>
土地用途明细
</td><td>
用途名称
</td><td>
面积
</td
><td>
土地级别
</td
><td></td
><td
colspan=
'3'
></td
></tr><tr><td>
工业用地
</td><td>
167106.96
</td
><td>
十四级
</td><td></td><td
colspan=
'3'
></td></tr>
<tr
algin=
"center"
>
<td>
投资强度:
</td>
<td>
万元/公顷
</td>
<td>
保证金:
</td>
<td>
5365万元
</td>
<td>
估价报告备案号
</td>
<td></td>
</tr>
<tr>
<td
colspan=
"6"
>
场地平整:平整 基础设施:通水、通电、通路
</td>
</tr>
<tr>
<td>
起始价:
</td>
<td>
5365万元
</td>
<td>
加价幅度:
</td>
<td
colspan=
"3"
>
126万元
</td>
</tr>
<tr>
<td>
挂牌开始时间:
</td>
<td>
2021年09月25日10时00分
</td>
<td>
挂牌截止时间:
</td>
<td
colspan=
"3"
>
2021年10月12日10时00分
</td>
</tr>
<tr>
<td>
备注:
</td>
<td
colspan=
"9"
>
固投标准:≥300万元/亩;税收标准:≥8万元/亩;能耗标准:工业产值能耗≤0.15tce/万元;环境标准(1)单位工业增加值COD排放量(KG/万元)≤1;(2)氮氧化物排放量(KG/万立方米天然气)≤18.71;(3)单位工业增加值SO2排放量(KG/万元)≤1.78;(4)单位工业增加值氨氮排放量(KG/万元)≤0.26;(5)危险废物处理率达到100%;(6)污染地块安全利用率达到100%。
</td>
</tr>
</table></div><div
style=
" height:3px;"
></div>
<p>
二、 中华人民共和国境内外的法人、自然人和其他组织均可申请参加,申请人可以单独申请,也可以联合申请。
</p>
<p>
三、 本次国有土地使用权挂牌出让按照价高者得原则确定竞得人。
</p>
<p>
四、 本次挂牌出让的详细资料和具体要求,见挂牌出让文件。申请人可于
<u>
2021年09月09日
</u>
至
<u>
2021年10月09日
</u>
到
<u>
阳曲产业园区太原市五龙口街678号(东客站对面)3层324室
</u>
获取 挂牌 出让文件。
</p>
<p>
五、 申请人可于
<u>
2021年09月09日
</u>
至
<u>
2021年10月09日
</u>
到
<u>
阳曲产业园区太原市五龙口街678号(东客站对面)3层324室
</u>
向我局提交书面申请。交纳竞买保证金的截止时间为
<u>
2021年10月09日17时00分
</u>
。经审核,申请人按规定交纳竞买保证金,具备申请条件的,我局将在
<u>
2021年10月09日17时00分
</u>
前确认其竞买资格。
</p>
<p>
六、 本次国有土地使用权挂牌活动
<u></u>
在
<u>
公共资源交易中心
</u>
进行。各地块挂牌时间分别为:
<br>
<u>
ZGYQ2021-17(阪寺山片区GYXQ02-02街区008地块西侧)
</u>
号地块:
<u>
2021年09月25日10时00分
</u>
至
<u>
2021年10月12日10时00分
</u>
;
<br/></p>
<p>
七、 其他需要公告的事项:
<br/>
(一)挂牌时间截止时,有竞买人表示愿意继续竞价,转入现场竞价,通过现场竞价确定竞得人。
<br/>
</p>
<p>
八、 联系方式与银行帐户
<br/>
联系地址:阳曲产业园区太原市五龙口街678号(东客站对面)3层324室
<br/>
联 系 人:王志刚
<br/>
联系电话:13393410077
<br/>
开户单位:
<br/>
开户银行:
<br/>
银行帐号:
<br/></td>
</tr>
<tr>
<td
align=
"right"
>
山西转型综合改革示范区土地管理局
<br></td>
</tr>
<tr>
<td></td>
</tr>
<tr>
<td></td>
</tr></table>
</div>
</div>
</div>
<script>
$
(
"
.font-big
"
).
click
(
function
(){
$
(
"
.gu-art-con
"
).
css
(
"
font-size
"
,
"
20px
"
)
});
$
(
"
.font-mid
"
).
click
(
function
(){
$
(
"
.gu-art-con
"
).
css
(
"
font-size
"
,
"
18px
"
)
})
$
(
"
.font-s
"
).
click
(
function
(){
$
(
"
.gu-art-con
"
).
css
(
"
font-size
"
,
"
16px
"
)
})
</script>
<!--尾部开始-->
<div
class=
"foot"
style=
"margin-top:30px;"
>
<div
class=
"foot_nei"
>
<div
class=
"foot_nei_bt"
>
<dl
class=
"clearfix"
>
<dt>
<script
id=
"_jiucuo_"
sitecode=
'bm16000001'
src=
'https://zfwzgl.www.gov.cn/exposure/jiucuo.js'
></script>
<a
href=
"http://bszs.conac.cn/sitename?method=show&id=1ACC49F8764914F7E053012819ACEFF4"
target=
"_blank"
><img
src=
"../../../../images/Zrzyb_foot_tu_ico_scy201806_03_1.png"
width=
"52"
height=
"62"
/></a>
</dt>
<dd>
<span><a
href=
"http://hao.mnr.gov.cn/"
target=
"_blank"
>
网站地图
</a>
-
<a
href=
"http://www.mnr.gov.cn/wzxx/gybz/"
target=
"_blank"
>
关于本站
</a>
-
<a
href=
"http://www.mnr.gov.cn/wzxx/sybz/"
target=
"_blank"
>
使用帮助
</a>
-
<a
href=
"http://www.mnr.gov.cn/wzxx/lxwm/"
target=
"_blank"
>
联系我们
</a>
-
<a
href=
"http://www.mnr.gov.cn/wzxx/wzdc/"
target=
"_blank"
>
网站调查
</a></span>
<span>
主办:中华人民共和国自然资源部
<em>
承办:自然资源部信息中心
</em><em>
版权所有
自然资源部门户网站
</em></span>
<span>
政府网站标识码:bm16000001
<em><a
href=
"http://www.beian.miit.gov.cn"
target=
"_blank"
>
京ICP备18044900号
</a></em><em><a
target=
"_blank"
href=
"http://www.beian.gov.cn/portal/registerSystemInfo?recordcode=11010202007799"
style=
"display:inline-block;height:20px;line-height:20px;color:#fff;font-size:14px;"
>
<img
src=
"../../../../images/scy_Zrzyb20180903_gawb.png"
width=
"20"
height=
"20"
style=
"float:left;"
/>
<p
class=
"hover"
style=
"float:left;height:20px;line-height:20px;padding-left:5px;margin:0;color:#fff;"
>
京公网安备 11010202007799号
</p>
<br
style=
"clear:both;"
>
</a></em></span>
<span>
建议使用IE9.0以上浏览器或兼容浏览器,分辨率1280*720
</span>
</dd>
</dl>
</div>
<style>
.hover
:hover
{
text-decoration
:
underline
;}
#_span_jiucuo
img
{
background
:
#fff
;}
</style>
</div>
</div>
<!--尾部结束-->
</body>
</html>
\ No newline at end of file
NO31/index.py
0 → 100644
浏览文件 @
5521b117
from
requests_html
import
HTMLSession
,
HTML
import
random
import
time
import
os
def
get_detail
()
->
list
:
# 待抓取的详情页地址
wait_scrapy_urls
=
[]
# 声明一个 url 模板,用于批量生成待采集地址
url_format
=
"http://landchina.mnr.gov.cn/land/crgg/gyyd/index_{}.htm"
urls
=
[
"http://landchina.mnr.gov.cn/land/crgg/gyyd/index.htm"
]
base_url
=
"http://landchina.mnr.gov.cn/land/crgg/gyyd/"
# 测试只存储3页即可
for
page
in
range
(
1
,
3
):
urls
.
append
(
url_format
.
format
(
page
))
for
url
in
urls
:
try
:
res
=
session
.
get
(
url
,
timeout
=
3
)
res
.
html
.
encoding
=
"utf-8"
# print(res.html.html)
details
=
res
.
html
.
find
(
"ul.gu-iconList>li>a"
)
for
detail
in
details
:
# http://landchina.mnr.gov.cn/land/crgg/gyyd/202109/t20210904_8081129.htm
wait_scrapy_urls
.
append
(
base_url
+
detail
.
attrs
[
'href'
][
2
:])
except
Exception
as
e
:
print
(
"采集分页数据异常"
,
e
)
# 时间停留
time
.
sleep
(
random
.
randint
(
1
,
3
))
return
wait_scrapy_urls
def
save
(
index
:
int
,
url
:
str
)
->
str
:
try
:
print
(
"正在采集:"
,
url
)
res
=
session
.
get
(
url
=
url
,
timeout
=
3
)
res
.
html
.
encoding
=
"utf-8"
with
open
(
f
"./htmls/
{
index
}
.html"
,
"w+"
,
encoding
=
"utf-8"
)
as
f
:
f
.
write
(
res
.
html
.
html
)
except
Exception
as
e
:
print
(
"采集详情页数据异常"
,
e
)
return
save
(
index
,
url
)
def
analysis
(
html
:
str
)
->
list
:
return
[]
if
__name__
==
'__main__'
:
session
=
HTMLSession
()
# 获取待抓取的详情页数据
# scrapy_urls = get_detail()
# 存储详情页HTML到本地,便于后续分析
# for index, scrapy_url in enumerate(scrapy_urls):
# time.sleep(1)
# save(index, scrapy_url)
# 提取数据
file_names
=
os
.
listdir
(
"./htmls/"
)
for
file
in
file_names
:
with
open
(
f
"./htmls/
{
file
}
"
,
"r"
,
encoding
=
"utf-8"
)
as
f
:
html_content
=
f
.
read
()
html_doc
=
HTML
(
html
=
html_content
)
# zongdi = html_doc.xpath('//td[contains(text(),"宗地编号:")]/following-sibling::td[1]/text()')
# #
# mianji = html_doc.xpath('//td[contains(text(),"宗地总面积:")]/following-sibling::td[1]/text()')
# for z in mianji:
# print(z.strip())
# 宗地编号:
zongdi
=
html_doc
.
xpath
(
'//td[contains(text(),"宗地编号:")]/../../../table'
)
print
(
file
)
for
z
in
zongdi
:
card_id
=
z
.
xpath
(
'.//td[contains(text(),"宗地编号:")]/following-sibling::td[1]/text()'
)[
0
].
strip
()
mianji
=
z
.
xpath
(
'.//td[contains(text(),"宗地总面积:")]/following-sibling::td[1]/text()'
)[
0
].
strip
()
print
(
card_id
,
mianji
)
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录