Merge pull request #2394 from nyov/fix-le

[MRG+1] LinkExtractor PY3 'unicode' type fix

Merge pull request #2394 from nyov/fix-le
[MRG+1] LinkExtractor PY3 'unicode' type fix
201a16f6 · Paul Tremberth · GitHub · de89b1b5 · e8205f67 · 201a16f6
隐藏空白更改
内联并排

Showing with 4 addition and 2 deletion

scrapy/linkextractors/htmlparser.py scrapy/linkextractors/htmlparser.py +2 -1

scrapy/linkextractors/sgml.py scrapy/linkextractors/sgml.py +2 -1

未找到文件。
--- a/scrapy/linkextractors/htmlparser.py
+++ b/scrapy/linkextractors/htmlparser.py
@@ -3,6 +3,7 @@ HTMLParser-based link extractor
 """

 import warnings
+import six
 from six.moves.html_parser import HTMLParser
 from six.moves.urllib.parse import urljoin

@@ -39,7 +40,7 @@ class HtmlParserLinkExtractor(HTMLParser):
        ret = []
        base_url = urljoin(response_url, self.base_url) if self.base_url else response_url
        for link in links:
-            if isinstance(link.url, unicode):
+            if isinstance(link.url, six.text_type):
                link.url = link.url.encode(response_encoding)
            try:
                link.url = urljoin(base_url, link.url)

--- a/scrapy/linkextractors/sgml.py
+++ b/scrapy/linkextractors/sgml.py
 """
 SGMLParser-based Link extractors
 """
+import six
 from six.moves.urllib.parse import urljoin
 import warnings
 from sgmllib import SGMLParser
@@ -40,7 +41,7 @@ class BaseSgmlLinkExtractor(SGMLParser):
        if base_url is None:
            base_url = urljoin(response_url, self.base_url) if self.base_url else response_url
        for link in self.links:
-            if isinstance(link.url, unicode):
+            if isinstance(link.url, six.text_type):
                link.url = link.url.encode(response_encoding)
            try:
                link.url = urljoin(base_url, link.url)