在这一章里面,我将带大家来爬取「豆瓣电影Top250」的数据,爬取到的数据,将作为后面知识图谱课程的素材。因为豆瓣没有反爬策略,所以爬取的过程比较简答。我们课上演示的是Top250的数据,大家如果有兴趣,想去爬取豆瓣上全量的电影数据,也是相同的套路,可以去酌情尝试。

目标分析

入口地址:https://movie.douban.com/top250

爬取内容:电影标题、url、基本信息、评分、简介。

导演、编剧、主演这些页面,结构和解析方法基本一致,课上不重复演示,大家如果想进一步扩展,可以自己尝试。

爬虫的基本流程

1. 发送请求:使用Python的requests库向目标网站发送请求,获取网页源代码。

2. 解析网页:使用Python的BeautifulSoup库,和正则表达式,解析网页源代码,提取需要的数据。

3. 存储数据:将每一个电影的数据转成json格式,存储到本地文件中。

以上介绍的基本流程,是针对单个页面的,但是在这个爬取任务中,我们需要批量爬取多部电影数据。所以完整流程是,先找到列表页(索引页),解析列表页中单个电影的地址,再进入单个电影页面中,解析需要的电影信息。

补充说明

最后,再补充说明一点,这个课程涉及的内容比较多,会用到requests、re、bs4这些模块。因为这个课程是一个项目课,所以课上不会细讲,正则表达式、bs4解析这些基础内容,如果大家不了解,可以针对性的去看一下相关的文档。

系统正则表达式课程:http://edu.ichenhua.cn/edu/course/12

如果是原生Python环境,需要安装以下依赖包,conda环境自带,无需重复安装。

pip install requests
pip install Beautifulsoup4

本文为 陈华 原创,欢迎转载,但请注明出处:http://ichenhua.cn/read/581