Skip to content
体验新版
项目
组织
正在加载...
登录
切换导航
打开侧边栏
hgcvg
3117005197
提交
5c7da8be
3
3117005197
项目概览
hgcvg
/
3117005197
通知
4
Star
0
Fork
0
代码
文件
提交
分支
Tags
贡献者
分支图
Diff
Issue
0
列表
看板
标记
里程碑
合并请求
0
DevOps
流水线
流水线任务
计划
Wiki
0
Wiki
分析
仓库
DevOps
项目成员
Pages
3
3117005197
项目概览
项目概览
详情
发布
仓库
仓库
文件
提交
分支
标签
贡献者
分支图
比较
Issue
0
Issue
0
列表
看板
标记
里程碑
合并请求
0
合并请求
0
Pages
DevOps
DevOps
流水线
流水线任务
计划
分析
分析
仓库分析
DevOps
Wiki
0
Wiki
成员
成员
收起侧边栏
关闭侧边栏
动态
分支图
创建新Issue
流水线任务
提交
Issue看板
前往新版Gitcode,体验更适合开发者的 AI 搜索 >>
提交
5c7da8be
编写于
12月 29, 2022
作者:
hgcvg
浏览文件
操作
浏览文件
下载
电子邮件补丁
差异文件
1.3
上级
fdcf87cd
变更
1
隐藏空白更改
内联
并排
Showing
1 changed file
with
4 addition
and
33 deletion
+4
-33
main.py
main.py
+4
-33
未找到文件。
main.py
浏览文件 @
5c7da8be
...
...
@@ -7,18 +7,9 @@ import json
import
sys
# 分词
# def splitWords(text):
# with open(text, 'r', encoding='UTF-8') as f1:
# f2 = f1.read()
# pattern = re.compile(u"[^a-zA-Z0-9\u4e00-\u9fa5]") # 匹配过滤
# s = pattern.sub("", f2)
# f1.close()
# length = len(list(jieba.lcut(s))) # length为分词后词的个数
# string = jieba.analyse.extract_tags(s, topK=length) # 提取主题词
# return string
def
getword
(
text
):
def
getword
(
text
):
with
open
(
text
,
'r'
,
encoding
=
'UTF-8'
)
as
f1
:
f2
=
f1
.
read
()
f1
.
close
()
...
...
@@ -28,7 +19,7 @@ def getword(text):
# simhash
def
getSimh
(
s
):
def
getSimh
(
s
):
i
=
0
weight
=
len
(
s
)
fv
=
[
0
]
*
128
# feature vector
...
...
@@ -48,7 +39,7 @@ def getSimh(s):
i
+=
1
simh
=
''
for
k
in
range
(
len
(
fv
)):
# 降维
if
fv
[
k
]
>=
0
:
# 对于n-bit签名的累加结果,大于0则置1,否则置0
if
fv
[
k
]
>=
0
:
# 对于n-bit签名的累加结果,大于0则置1,否则置0
simh
+=
'1'
else
:
simh
+=
'0'
...
...
@@ -68,26 +59,6 @@ def getSimilarity(simh1, simh2):
return
s
# def main_project():
# input()
# path1 = ','.join(sys.argv[1:2]) # 获取命令行参数 将列表转换为字符串
# path2 = ','.join(sys.argv[2:3])
# path3 = ','.join(sys.argv[3:])
# if not os.path.exists(path1):
# print("论文原文不存在!")
# exit()
# if not os.path.exists(path2):
# print("抄袭论文不存在!")
# exit()
# simhash1 = getSimh(splitWords(path1))
# simhash2 = getSimh(splitWords(path2))
# s1 = getSimilarity(simhash1, simhash2)
# s2 = round(s1, 2) # 精确到小数点后两位
# print('文章相似度为:%f' % s2)
# with open(path3, 'a', encoding='utf-8')as f: # 将结果写入指定路径path3
# f.write(path2 + '与原文的相似度为:')
# f.write(json.dumps(s2, ensure_ascii=False) + '\n')
# return s2
def
test
():
...
...
编辑
预览
Markdown
is supported
0%
请重试
或
添加新附件
.
添加附件
取消
You are about to add
0
people
to the discussion. Proceed with caution.
先完成此消息的编辑!
取消
想要评论请
注册
或
登录