{% extends "base.html" %} {% block content %}
目标数据呈现在单一页面中,使用最简单的爬虫库可以直接采集,一般用正则表达式即可完成数据提取。
难度:⭐
案例: 新闻页 图片清单 表格
本案例是由 2760 条数据组成的分页爬虫,数据为国内学校清单,主要用于练习分页数据采集。
案例: 学校分页数据
本案例用于大家学习文件和视频文件内容采集,重点掌握 M3U8 格式视频下载,掌握二进制内容保存。
案例: 普通 MP4文件 M3U8文件
本案例涉及的数据采用异步AJAX返回,编写爬虫时需要注意抓取接口相关信息。
案例: AJAX学校数据
本案例通过控制请求响应速度,来实现慢速爬虫,编写采集程序,需要控制请求和响应时间。
案例: 香港电影
本案例模拟的滚动加载数据,当使用鼠标滚轮下拉数据到底部时,会自动触发异步函数,调用后台数据。
案例: 学校清单
该案例要求爬虫程序构造请求头的时候,必须携带 User-Agent 参数,否则会返回403错误。
案例: 预言故事
本案例要求爬虫程序在采集时,必须在请求头中携带固定 Cookie 值,如果缺少无法访问。
案例: 边界故事
本案例请求数据接口之后,会返回加密值,在前台需要对加密串进行解密,然后在渲染数据。
难度:⭐⭐
本案例每间隔10秒通过时间戳生成一token值,后台解析该值和同步传递的时间戳进行匹配,确定是否返回数据。
本案例限制单IP每秒仅能访问3次API,学习时,需要用到代理IP池,或者间隔时间采集。