{% extends "base.html" %} {% block content %}
爬虫训练场项目 正在建设中~

普通爬虫


单页爬虫

目标数据呈现在单一页面中,使用最简单的爬虫库可以直接采集,一般用正则表达式即可完成数据提取。

难度:⭐

案例: 新闻页 图片清单 表格

分页爬虫

本案例是由 2760 条数据组成的分页爬虫,数据为国内学校清单,主要用于练习分页数据采集。

难度:⭐

案例: 学校分页数据

二进制文件采集

本案例用于大家学习文件和视频文件内容采集,重点掌握 M3U8 格式视频下载,掌握二进制内容保存。

难度:⭐

案例: 普通 MP4文件 M3U8文件

AJAX 爬虫

本案例涉及的数据采用异步AJAX返回,编写爬虫时需要注意抓取接口相关信息。

难度:⭐

案例: AJAX学校数据

慢速爬虫

本案例通过控制请求响应速度,来实现慢速爬虫,编写采集程序,需要控制请求和响应时间。

难度:⭐

案例: 香港电影

滚动加载

最新更新

本案例模拟的滚动加载数据,当使用鼠标滚轮下拉数据到底部时,会自动触发异步函数,调用后台数据。

难度:⭐

案例: 学校清单

登录加载数据

最新更新

本案例需模拟登录,然后才可采集数据,实践中可分析登录之后系统在客户端存储的用户状态信息。

难度:⭐⭐

案例: 学校清单

PC端反爬


UA 参数反爬

该案例要求爬虫程序构造请求头的时候,必须携带 User-Agent 参数,否则会返回403错误。

难度:⭐

案例: 预言故事

定值 Cookie 反爬

本案例要求爬虫程序在采集时,必须在请求头中携带固定 Cookie 值,如果缺少无法访问。

难度:⭐

案例: 边界故事

简易响应加密

本案例请求数据接口之后,会返回加密值,在前台需要对加密串进行解密,然后在渲染数据。

难度:⭐⭐

案例: 学校清单

动态token反爬

本案例每间隔10秒通过时间戳生成一token值,后台解析该值和同步传递的时间戳进行匹配,确定是否返回数据。

难度:⭐⭐

案例: 学校清单

IP 限制爬虫

最新更新

本案例限制单IP每秒仅能访问3次API,学习时,需要用到代理IP池,或者间隔时间采集。

难度:⭐⭐

案例: 学校清单

文字图片反爬

最新更新

本案例将重要信息手机号码以图片形式展示,爬虫程序无法通过简单提取获取手机号码

难度:⭐⭐

案例: 名片

CSS偏移反爬

最新更新

本案例使用CSS偏移技术实现反爬,涉及两种案例,一种采用定位实现,一种采用伪元素实现

难度:⭐⭐

案例: 旅游景点① 博客清单

禁用开发者工具

最新更新

爬虫工程师在调试Web站点的时候,离不开开发者工具,实战中我们可以对开发者工具进行限制,达到反爬目的

难度:⭐

案例: 限制开发者工具

{% endblock %}