---
title: "网络爬虫"
date: 2018-12-29
lastmod: 2020-01-05
weight: 3
type: 
icon: #
description: "Python中阶路线图,网络爬虫"
# search related keywords
---

- 基础概念
  - 什么是网络爬虫
  - HTML与DOM树分析
  - 常用网络爬虫工具
  - 相关法律及注意事项
- urllib
- 正则表达式
  - RE(Regular Expression )
  - 基础语法
  - 标签匹配常用规则
- Beautiful Soup
  - Beautiful Soup简介
  - 安装配置
  - Beautiful Soup对象
  - 元素定位
  - 文档树遍历与搜索
- lxml
  - 安装配置
  - lxml.etree
  - XPath选择器
  - find/findall
  - CSS选择器
  - 解析HTML
- requests
  - 安装配置
  - 发送请求与HTTP请求类型
  - 传递URL参数
  - 响应内容
  - 定制请求头
  - 响应状态码
  - Cookie
  - POST请求
  - 身份认证
- Selenium
  - Selenium简介
  - 安装配置
  - 单元素定位（find_element_id/name/xpath）
  - 多元素定位（find_elements_id/name/xpath）
  - 常用方法和属性
  - 键盘和鼠标操作
  - WebDriver API
  - 表单交互
- Scrapy框架
  - Scrapy简介
  - 安装配置
  - Scrapy框架组成
  - Item Pipeline
  - Downloader
  - Spiders
  - Scheduler
- 数据存储
  - 文件存储
  - 数据库存储
- 渲染动态网页
  - WebKit/Selenium/headless/PhantomJS
- 表单交互处理
- 超时异常处理
  - timeout
- 验证码处理
  - 自动输入/OCR字符识别
- 高并发处理
- 多线程爬虫