上节课中,给大家介绍了爬取流程,是先爬取列表,解析出详情页地址,再去详情页获取电影信息。这节课,我们就来搞定列表页的数据爬取。
代码示例
1、模块引入
# data/douban_crawler.py import requests from bs4 import BeautifulSoup import re, json from tqdm import tqdm import traceback
2、定义爬虫类
class Crawler(): pass if __name__ == '__main__': crawler = Crawler()
3、循环创建列表url
观察发现,列表页面共有10页,所以我们需要通过循环,先把列表页的url地址创建出来。
if __name__ == '__main__': crawler = Crawler() for i in range(10): url = 'https://movie.douban.com/top250?start=%s&filter=' % str(i*25) print(url)
规范的爬取套路,应该是从入口页面进入,然后找分页节点,通过解析分页节点来获取全部列表页面,但在这个任务中,列表url有明显的规律,而且我们知道总数,所以就用循环的方式简单处理了。
本文为 陈华 原创,欢迎转载,但请注明出处:http://ichenhua.cn/read/582