{% extends "base.html" %} {% block content %}
目标数据呈现在单一页面中,使用最简单的爬虫库可以直接采集,一般用正则表达式即可完成数据提取。
难度:⭐
案例: 新闻页 图片清单 表格
本案例是由 2760 条数据组成的分页爬虫,数据为国内学校清单,主要用于练习分页数据采集。
案例: 学校分页数据
本案例用于大家学习文件和视频文件内容采集,重点掌握 M3U8 格式视频下载,掌握二进制内容保存。
案例: 普通 MP4文件 M3U8文件
本案例涉及的数据采用异步AJAX返回,编写爬虫时需要注意抓取接口相关信息。
案例: AJAX学校数据
本案例通过控制请求响应速度,来实现慢速爬虫,编写采集程序,需要控制请求和响应时间。
案例: 香港电影
本案例模拟的滚动加载数据,当使用鼠标滚轮下拉数据到底部时,会自动触发异步函数,调用后台数据。
案例: 学校清单
本案例需模拟登录,然后才可采集数据,实践中可分析登录之后系统在客户端存储的用户状态信息。
难度:⭐⭐
该案例要求爬虫程序构造请求头的时候,必须携带 User-Agent 参数,否则会返回403错误。
案例: 预言故事
本案例要求爬虫程序在采集时,必须在请求头中携带固定 Cookie 值,如果缺少无法访问。
案例: 边界故事
本案例请求数据接口之后,会返回加密值,在前台需要对加密串进行解密,然后在渲染数据。
本案例每间隔10秒通过时间戳生成一token值,后台解析该值和同步传递的时间戳进行匹配,确定是否返回数据。
本案例限制单IP每秒仅能访问3次API,学习时,需要用到代理IP池,或者间隔时间采集。
本案例将重要信息手机号码以图片形式展示,爬虫程序无法通过简单提取获取手机号码
案例: 名片
本案例使用CSS偏移技术实现反爬,涉及两种案例,一种采用定位实现,一种采用伪元素实现
案例: 旅游景点① 博客清单
爬虫工程师在调试Web站点的时候,离不开开发者工具,实战中我们可以对开发者工具进行限制,达到反爬目的
案例: 限制开发者工具