Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
7fan
dr_py
提交
825d967d
dr_py
项目概览
7fan
/
dr_py
与 Fork 源项目一致
Fork自
晚风拂柳颜 / dr_py
通知
1
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
dr_py
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
825d967d
编写于
11月 12, 2022
作者:
H
hjdhnx
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
jar恢复到6号版本
上级
d40ed0ac
变更
4
展开全部
隐藏空白更改
内联
并排
Showing
4 changed file
with
27 addition
and
20 deletion
+27
-20
js/custom_spider.jar
js/custom_spider.jar
+0
-0
js/version.txt
js/version.txt
+1
-1
libs/drpy2.js
libs/drpy2.js
+25
-18
libs/drpy2.min.js
libs/drpy2.min.js
+1
-1
未找到文件。
js/custom_spider.jar
浏览文件 @
825d967d
无法预览此类型文件
js/version.txt
浏览文件 @
825d967d
3.9.20beta8
\ No newline at end of file
3.9.20beta9
\ No newline at end of file
libs/drpy2.js
浏览文件 @
825d967d
...
...
@@ -575,11 +575,11 @@ const parseTags = {
return
''
}
parse
=
parse
.
trim
();
// print('parse前:'+parse)
;
let
option
=
undefined
;
// if (parse.startsWith('body&&')) {
// parse = parse.substr(6);
// }
let
option
=
null
;
if
(
parse
.
startsWith
(
'
body&&
'
))
{
parse
=
parse
.
substr
(
6
);
}
print
(
'
pdfh parse前:
'
+
parse
);
if
(
parse
.
indexOf
(
'
&&
'
)
>
-
1
)
{
let
sp
=
parse
.
split
(
'
&&
'
);
option
=
sp
[
sp
.
length
-
1
];
...
...
@@ -591,21 +591,28 @@ const parseTags = {
it
=
it
.
replace
(
/:eq
\((
.*
?)\)
/
,
`:eq(
${
pos
+
1
}
)`
);
sp
[
idex
]
=
it
;
}
}
else
if
(
!
SELECT_REGEX
.
test
(
it
)
&&
it
!==
'
body
'
)
{
sp
[
idex
]
=
it
+
'
:eq(1)
'
;
// jsoup的eq从1开始
}
});
parse
=
sp
.
join
(
'
&&
'
);
parse
=
sp
.
join
(
'
'
);
}
if
(
option
)
{
parse
=
parse
+
'
&&
'
+
option
;
if
(
parse
===
'
Text
'
){
parse
=
'
body
'
;
option
=
'
Text
'
;
}
else
if
(
parse
===
'
Html
'
){
parse
=
'
body
'
;
option
=
'
Html
'
;
}
// print('parse后:'+parse);
let
result
=
defaultParser
.
pdfh
(
html
,
parse
);
if
(
/style/
.
test
(
option
.
toLowerCase
())
&&
/url
\(
/
.
test
(
result
)){
print
(
'
pdfh parse后:
'
+
parse
+
'
,option:
'
+
option
);
let
result
=
defaultParser
.
pdfh
(
html
,
parse
,
option
);
print
(
result
);
if
(
option
&&
/style/
.
test
(
option
.
toLowerCase
())
&&
/url
\(
/
.
test
(
result
)){
try
{
result
=
result
.
match
(
/url
\((
.*
?)\)
/
)[
1
];
}
catch
(
e
)
{}
}
if
(
result
&&
base_url
&&
DOM_CHECK_ATTR
.
test
(
option
))
{
if
(
result
&&
base_url
&&
option
&&
DOM_CHECK_ATTR
.
test
(
option
))
{
if
(
/http/
.
test
(
result
))
{
result
=
result
.
substr
(
result
.
indexOf
(
'
http
'
));
}
else
{
...
...
@@ -620,7 +627,7 @@ const parseTags = {
return
[];
}
parse
=
parse
.
trim
();
print
(
'
parse前:
'
+
parse
);
print
(
'
p
dfa p
arse前:
'
+
parse
);
if
(
parse
.
indexOf
(
'
&&
'
)
>
-
1
)
{
let
sp
=
parse
.
split
(
'
&&
'
);
sp
.
forEach
((
it
,
idex
)
=>
{
...
...
@@ -630,15 +637,15 @@ const parseTags = {
it
=
it
.
replace
(
/:eq
\((
.*
?)\)
/
,
`:eq(
${
pos
+
1
}
)`
);
sp
[
idex
]
=
it
;
}
}
else
if
(
!
SELECT_REGEX_A
.
test
(
it
)
&&
idex
<
sp
.
length
-
1
&&
it
!==
'
body
'
)
{
sp
[
idex
]
=
it
+
'
:eq(1)
'
;
// jsoup的eq从1开始
}
});
parse
=
sp
.
join
(
'
&&
'
);
}
else
if
(
!
parse
.
startsWith
(
'
body
'
)
&&!
/ |&&/
.
test
(
parse
)){
// 自动补body
parse
=
'
body&&
'
+
parse
;
parse
=
sp
.
join
(
'
'
);
}
print
(
'
parse后:
'
+
parse
);
print
(
'
p
dfa p
arse后:
'
+
parse
);
let
result
=
defaultParser
.
pdfa
(
html
,
parse
);
print
(
result
);
//
print(result);
print
(
result
.
length
);
return
result
;
},
...
...
libs/drpy2.min.js
浏览文件 @
825d967d
此差异已折叠。
点击以展开。
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录