闲来无事温故了下BeautifulSoup和requests,之后又写了个简单的爬虫,网址豆瓣TOP250电影
先附上关键模块文档,对新手还是比较友好的!
这次不总结详细的过程,有兴趣了解的可以看下我之前写的Python爬取豆瓣电子小说或者有兴趣了解scrapy的可以看下我另外一篇Scrapy爬取豆瓣电影TOP250
我们先来看下,requests和bs4怎么结合使用。
|
|
解析出来的部分HTML
分析元素
movie_list_soup = soup.find(‘ol’, attrs={‘class’: ‘grid_view’}) #电影列表
movie_name = movie_li.find(‘span’, attrs={‘class’: ‘title’}).get_text() #电影名字
movie_info = movie_li.find(‘div’, attrs={‘class’: ‘bd’}).find(‘p’).get_text() # 电影信息
movie_star = movie_li.find(‘span’, attrs={‘class’: ‘rating_num’}).get_text() # 电影评分
先来看下电影列表
附上完整代码,关于next_page的理解可以看下我的python爬取豆瓣小说
|
|