Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
亦蔚然
Project Crawler Elasticsearch
提交
024c6eff
P
Project Crawler Elasticsearch
项目概览
亦蔚然
/
Project Crawler Elasticsearch
通知
4
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
P
Project Crawler Elasticsearch
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
024c6eff
编写于
5月 22, 2021
作者:
亦蔚然
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
第二次重构
上级
76f28cd4
变更
2
隐藏空白更改
内联
并排
Showing
2 changed file
with
67 addition
and
16 deletion
+67
-16
pom.xml
pom.xml
+5
-0
src/main/java/com/github/weiranyi/Main.java
src/main/java/com/github/weiranyi/Main.java
+62
-16
未找到文件。
pom.xml
浏览文件 @
024c6eff
...
...
@@ -70,6 +70,11 @@
<version>
1.4.199
</version>
<scope>
compile
</scope>
</dependency>
<dependency>
<groupId>
com.google.code.findbugs
</groupId>
<artifactId>
annotations
</artifactId>
<version>
3.0.1
</version>
</dependency>
<dependency>
<groupId>
org.junit.jupiter
</groupId>
<artifactId>
junit-jupiter-api
</artifactId>
...
...
src/main/java/com/github/weiranyi/Main.java
浏览文件 @
024c6eff
package
com.github.weiranyi
;
import
edu.umd.cs.findbugs.annotations.SuppressFBWarnings
;
import
org.apache.http.HttpEntity
;
import
org.apache.http.client.methods.CloseableHttpResponse
;
import
org.apache.http.client.methods.HttpGet
;
...
...
@@ -13,42 +14,41 @@ import org.jsoup.nodes.Element;
import
java.io.IOException
;
import
java.sql.*
;
import
java.util.ArrayList
;
import
java.util.HashSet
;
import
java.util.List
;
import
java.util.Set
;
public
class
Main
{
private
static
final
String
USER_NAME
=
"root"
;
private
static
final
String
USER_PASSWORD
=
"123456"
;
@SuppressFBWarnings
(
"DMI_CONSTANT_DB_PASSWORD"
)
public
static
void
main
(
String
[]
args
)
throws
IOException
,
SQLException
{
// 创建一个数据库链接
Connection
connection
=
connection
=
DriverManager
.
getConnection
(
"jdbc:h2:file:/Users/yiweiran/Documents/workPlace/java/JavaProject-Crawler-Elasticsearch/news"
,
"root"
,
"123456"
);
// 【待处理】存放待处理的链接的池子
List
<
String
>
linkPool
=
loadUrlsFromDatabase
(
connection
,
"select link from LINKS_TO_BE_PROCESSED;"
);
// 【已处理】存放已经处理的链接
Set
<
String
>
processedLinks
=
new
HashSet
<>(
loadUrlsFromDatabase
(
connection
,
"select link from LINKS_ALREADY_PROCESSED;"
));
Connection
connection
=
DriverManager
.
getConnection
(
"jdbc:h2:file:/Users/yiweiran/Documents/workPlace/java/JavaProject-Crawler-Elasticsearch/news"
,
USER_NAME
,
USER_PASSWORD
);
while
(
true
)
{
// 【待处理】存放待处理的链接的池子
List
<
String
>
linkPool
=
loadUrlsFromDatabase
(
connection
,
"select link from LINKS_TO_BE_PROCESSED;"
);
// 链接池是空的就退出循环
if
(
linkPool
.
isEmpty
())
{
break
;
}
// 获取并移除最后一个链接,对于ArrayList来说更有效率
String
link
=
linkPool
.
remove
(
linkPool
.
size
()
-
1
);
insertIntoDatabase
(
connection
,
link
,
"delete FROM LINKS_TO_BE_PROCESSED where LINK=?"
);
// 若链接已经处理过了就跳到下一次循环
if
(
processedLinks
.
contains
(
link
))
{
if
(
isLinkProcessed
(
connection
,
link
))
{
continue
;
}
// 判断是否是感兴趣滴内容【新浪站内的网页】
if
(
isInterestingLink
(
link
))
{
Document
doc
=
httpGetAndParseHtml
(
link
);
// 使用CSS选择器,html中去获取
ArrayList
<
Element
>
links
=
doc
.
select
(
"a"
);
// 用Java8引入的特性对代码进行简化,过程式语言变成描述式语言
links
.
stream
().
map
(
aTag
->
aTag
.
attr
(
"href"
)).
forEach
(
linkPool:
:
add
);
// 假设这是一个新闻的详情页,就存入数据库,否则,就什么都不做
// 分析页面url将它们放到即将处理的url池子中去
parseUrlsFromAndStoreIntoDatabase
(
connection
,
doc
);
storeIntoDatabaseIfItIsNewsPage
(
doc
);
processedLinks
.
add
(
link
);
insertIntoDatabase
(
connection
,
link
,
"insert into LINKS_ALREADY_PROCESSED(link) values (?)"
);
}
else
{
// 不感兴趣
continue
;
...
...
@@ -57,22 +57,68 @@ public class Main {
}
private
static
void
parseUrlsFromAndStoreIntoDatabase
(
Connection
connection
,
Document
doc
)
throws
SQLException
{
for
(
Element
aTag
:
doc
.
select
(
"a"
))
{
String
href
=
aTag
.
attr
(
"href"
);
insertIntoDatabase
(
connection
,
href
,
"insert into LINKS_TO_BE_PROCESSED(link) values (?)"
);
}
}
/*
* 3、重构对数据库操作部分的代码
*
*/
private
static
List
<
String
>
loadUrlsFromDatabase
(
Connection
connection
,
String
sql
)
throws
SQLException
{
List
<
String
>
results
=
new
ArrayList
<>();
ResultSet
resultSet
=
null
;
try
(
PreparedStatement
statement
=
connection
.
prepareStatement
(
sql
))
{
// 从数据库加载即将处理的代码
ResultSet
resultSet
=
statement
.
executeQuery
();
resultSet
=
statement
.
executeQuery
();
while
(
resultSet
.
next
())
{
results
.
add
(
resultSet
.
getString
(
1
));
}
}
finally
{
if
(
resultSet
!=
null
)
{
resultSet
.
close
();
}
}
return
results
;
}
private
static
void
insertIntoDatabase
(
Connection
connection
,
String
link
,
String
sql
)
throws
SQLException
{
try
(
PreparedStatement
statement
=
connection
.
prepareStatement
(
sql
))
{
statement
.
setString
(
1
,
link
);
statement
.
executeUpdate
();
}
}
private
static
boolean
isLinkProcessed
(
Connection
connection
,
String
link
)
throws
SQLException
{
ResultSet
resultSet
=
null
;
try
(
PreparedStatement
statement
=
connection
.
prepareStatement
(
"select link from LINKS_ALREADY_PROCESSED where LINK=?;"
))
{
statement
.
setString
(
1
,
link
);
// 从数据库加载即将处理的代码
resultSet
=
statement
.
executeQuery
();
while
(
resultSet
.
next
())
{
return
true
;
}
}
finally
{
if
(
resultSet
!=
null
)
{
resultSet
.
close
();
}
}
return
false
;
}
// private static List<String> deleteFromDatabase(Connection connection, String sql) throws SQLException {
// List<String> results = new ArrayList<>();
// try (PreparedStatement statement = connection.prepareStatement("delete FROM LINKS_TO_BE_PROCESSED where LINK=?")) {
// statement.setString(1,link);
// // 从数据库加载即将处理的代码
// statement.executeUpdate();
// }
// return results;
// }
/*
* 2、将表达不同逻辑的代码抽象为短方法
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录