今天学习总结下爬取今日头条江歌案的新闻,今天头条用到了Ajax技术,所以用传统的索取网页元素的方法是获取不到内容的,之前我写了篇爬取拉钩上海Python职位信息,有兴趣的可以点开看看!
第一步
用Chrome打开网页https://www.toutiao.com/search/?keyword=%E6%B1%9F%E6%AD%8C,打开开发者工具,红框内的信息是我们需要的,我们要抓取的数据就在data一栏中
我们再观察下网页信息,把网页不断的忘下翻,可以看到第一页是offset=0,往下翻过一个节点就是20,40,60这样递增上去
好了,基本的分析完了,准备动手写代码
|
|
运行下代码,返回了这样的数据
第二步
解析数据
我们可以看下data一栏下的网页数据
|
|
解析后再次运行代码,这就是我们要的数据了
第三步
可以爬下单页数据了,现在来看下怎么爬取多页面
第一步网页分析的时候,offset的数据是抓取多页面内容的关键,我们先创建一个配置文件config.py,再创建多进程调用map方法
GROUP_START = 1
GROUP_END = 20
|
|
最后运行代码,开启了多进程后爬取的效率可以说是坐了火箭