知识库

记录点点滴滴

Python3爬虫系列(一):爬取整本小说内容

IDE:jupyter

version:Python3.5

Lib:requests、re、pyquery

最近恰巧看到斗罗大陆3尚在连载,作为斗罗1的忠实粉丝,看到斗罗3自然是兴奋不已。但无奈在网上一页页的翻看实在是太麻烦,再加上时间有限,于是便萌生了用爬虫爬取整本小说的想法。

最开始接触爬虫是在两年前开发网站时,用php写了教务系统的爬虫、CET查分的爬虫,可以称得上是几只可爱的务实的爬虫。而虽然接触Python爬虫时间也比较长了,但没几只用在正经儿的地方。而Python拥有的丰富的第三方工具库,给我们带来了不一样的体验。

因此创建Python3爬虫系列,记录我所学我所写,也分享给有需要的人。等老了再回来看看,说不定会发现年轻的自己还是年轻 :)

库简介

嗯,requests和re库较为常见,就不再这儿累赘了。

pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。免去了写正则的烦恼。

点我去官网

分析

这次我们爬取的对象是笔趣看的斗罗大陆3龙门传说

url=http://www.biqukan.com/10_10643/

我们可以看到在该目录下有很多的章节页面

《Python3爬虫系列(一):爬取整本小说内容》

查看网页源代码,发现这些链接布局简直不要太简单

《Python3爬虫系列(一):爬取整本小说内容》

从源代码上看,我们只要得到<dd>下的超链接中的链接即可。

至于章节内容,我们随意点开一章

《Python3爬虫系列(一):爬取整本小说内容》

同样也是so easy,只要提取到 id=”contentclass=”showtxt“中的内容即可

最后就是保存成txt文件啦,在这儿需要注意,open中第二个参数建议为a追加模式,如果写w会先清空txt中内容,再写入。

 

代码

最后

开始爬取后,喝了杯茶,不一会儿就爬取完成了

《Python3爬虫系列(一):爬取整本小说内容》

看着这一本完整的(到目前为止算是吧)斗罗3,内心还是美滋滋的~

《Python3爬虫系列(一):爬取整本小说内容》

 

补充:斗罗3写的是啥 – – 略无聊啊 = =

点赞

发表评论

邮箱地址不会被公开。 必填项已用*标注