diff --git a/utils/htmlParser.py b/utils/htmlParser.py index 9d9370f6e04c9a14de7b160467bc7a75c3efb4b2..c81e72eeae3a20753e25dd6b333dd2f42307ed19 100644 --- a/utils/htmlParser.py +++ b/utils/htmlParser.py @@ -15,6 +15,7 @@ PARSE_CACHE = True # 解析缓存 NOADD_INDEX = ':eq|:lt|:gt|:first|:last|^body$|^#' # 不自动加eq下标索引 URLJOIN_ATTR = '(url|src|href|-original|-src|-play|-url)$' # 需要自动urljoin的属性 + class jsoup: def __init__(self, MY_URL=''): self.MY_URL = MY_URL @@ -62,7 +63,7 @@ class jsoup: return parse - def getParseInfo(self,nparse): + def getParseInfo(self, nparse): """ 根据传入的单规则获取 parse规则,索引位置,排除列表 -- 可以用于剔除元素,支持多个,按标签剔除,按id剔除等操作 :param nparse: @@ -70,7 +71,7 @@ class jsoup: """ excludes = [] # 定义排除列表默认值为空 nparse_index = 0 # 定义位置索引默认值为0 - nparse_rule = nparse # 定义规则默认值为本身 + nparse_rule = nparse # 定义规则默认值为本身 if self.test(':eq', nparse): nparse_rule = nparse.split(':eq')[0] nparse_pos = nparse.split(':eq')[1] @@ -88,7 +89,7 @@ class jsoup: nparse_index = 0 if nparse_index > 0: print(f'nparse_rule:{nparse_rule},nparse_index:{nparse_index},excludes:{excludes}') - return nparse_rule,nparse_index,excludes + return nparse_rule, nparse_index, excludes else: if self.test('--', nparse): nparse_rule = nparse.split('--')[0] @@ -115,7 +116,7 @@ class jsoup: # if nparse_index > 4: # print('2nparse_index',ret) if excludes and ret: - ret = ret.clone() # 克隆一个,免得直接remove会影响doc的缓存 + ret = ret.clone() # 克隆一个,免得直接remove会影响doc的缓存 for exclude in excludes: ret.remove(exclude) else: @@ -125,7 +126,7 @@ class jsoup: else: ret = ret(nparse_rule) if excludes and ret: - ret = ret.clone() # 克隆一个,免得直接remove会影响doc的缓存 + ret = ret.clone() # 克隆一个,免得直接remove会影响doc的缓存 for exclude in excludes: ret.remove(exclude) return ret @@ -150,7 +151,7 @@ class jsoup: ret = None for nparse in parses: ret = self.parseOneRule(doc, nparse, ret) - if not ret: # 可能循环取值后ret 对应eq取完无值了,pdfa直接返回空列表 + if not ret: # 可能循环取值后ret 对应eq取完无值了,pdfa直接返回空列表 return [] res = [item.outerHtml() for item in ret.items()] return res @@ -183,7 +184,7 @@ class jsoup: for nparse in parses: ret = self.parseOneRule(doc, nparse, ret) # print(nparse,ret) - if not ret: # 可能循环取值后ret 对应eq取完无值了,pdfh直接返回空字符串 + if not ret: # 可能循环取值后ret 对应eq取完无值了,pdfh直接返回空字符串 return '' if option: @@ -270,4 +271,4 @@ class jsoup: if __name__ == '__main__': - pass \ No newline at end of file + pass