到目前为止,只剩下一小部分影片信息没有获取了,这节课,我们就把最后的几项内容匹配到,然后把完整的影片信息,保存到本地的json文件中。

代码示例

1、影片类型

内容不可见,请联系管理员开通权限。

2、国家、语言

内容不可见,请联系管理员开通权限。

3、上映日期

内容不可见,请联系管理员开通权限。

4、片长

内容不可见,请联系管理员开通权限。

5、别名

内容不可见,请联系管理员开通权限。

6、IMDB

内容不可见,请联系管理员开通权限。

7、写入json文件

内容不可见,请联系管理员开通权限。

8、捕获异常

内容不可见,请联系管理员开通权限。

到目前为止,第一个爬虫入门的项目,就给大家讲完了。豆瓣这个网站没有反爬策略,整个爬取过程还是比较简单的,很多初学爬虫的开发者,也喜欢拿豆瓣,作为第一个练手项目,爬虫基础薄弱的同学,也可以拿这个练练手。

爬虫本身是一个无限游戏,特别是一些做内容的平台,一直在不停地探索新的反爬策略,来保护他们的内容。所以爬虫这块,我准备做成一个连载的专题,在其他项目中,需要爬取数据,这边就会有相应的更新,爬取的难度也会逐渐加大,大家可以持续关注。

本文链接:http://ichenhua.cn/edu/note/592

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!