4b1fffa0 · 4b1fffa0 · 4b1fffa0
隐藏空白更改
内联并排

Showing with 8 addition and 1 deletion

CHANGELOG.md CHANGELOG.md +4 -0

EpubCrawler/__init__.py EpubCrawler/__init__.py +1 -1

EpubCrawler/__main__.py EpubCrawler/__main__.py +3 -0

未找到文件。
--- a/history.md
+++ b/history.md
 # 历史记录

+v2022.5.30.0
+
+   修复带有 XML 标签的文档爬取失败的问题
+
 v2022.3.25.0

 +   新增缓存功能

--- a/EpubCrawler/__init__.py
+++ b/EpubCrawler/__init__.py
@@ -10,4 +10,4 @@ from . import util
 __author__ = "ApacheCN"
 __email__ = "apachecn@163.com"
 __license__ = "SATA"
-__version__ = "2022.3.25.0"
+__version__ = "2022.5.30.0"
--- a/EpubCrawler/__main__.py
+++ b/EpubCrawler/__main__.py
@@ -65,6 +65,9 @@ def get_toc(html, base):
    return res
    
 def get_article(html, url):
+    # 预处理掉 XML 声明和命名空间
+    html = re.sub(r'<\?xml[^>]*\?>', '', html)
+    html = re.sub(r'xmlns=".+?"', '', html)
    root = pq(html)
    
    if config['remove']: