--- title: "网络爬虫" date: 2018-12-29 lastmod: 2020-01-05 weight: 3 type: icon: # description: "Python中阶路线图,网络爬虫" # search related keywords --- - 基础概念 - 什么是网络爬虫 - HTML与DOM树分析 - 常用网络爬虫工具 - 相关法律及注意事项 - urllib - 正则表达式 - RE(Regular Expression ) - 基础语法 - 标签匹配常用规则 - Beautiful Soup - Beautiful Soup简介 - 安装配置 - Beautiful Soup对象 - 元素定位 - 文档树遍历与搜索 - lxml - 安装配置 - lxml.etree - XPath选择器 - find/findall - CSS选择器 - 解析HTML - requests - 安装配置 - 发送请求与HTTP请求类型 - 传递URL参数 - 响应内容 - 定制请求头 - 响应状态码 - Cookie - POST请求 - 身份认证 - Selenium - Selenium简介 - 安装配置 - 单元素定位(find_element_id/name/xpath) - 多元素定位(find_elements_id/name/xpath) - 常用方法和属性 - 键盘和鼠标操作 - WebDriver API - 表单交互 - Scrapy框架 - Scrapy简介 - 安装配置 - Scrapy框架组成 - Item Pipeline - Downloader - Spiders - Scheduler - 数据存储 - 文件存储 - 数据库存储 - 渲染动态网页 - WebKit/Selenium/headless/PhantomJS - 表单交互处理 - 超时异常处理 - timeout - 验证码处理 - 自动输入/OCR字符识别 - 高并发处理 - 多线程爬虫