之前是使用request库爬取网页,但是大型的网络
爬虫
使用框架爬取会事半功倍,今天实战爬取这个网页讲师的信息:https://www.itcast.cn/channel/teacher.shtml#ac
查看网页源码:
所有的老师信息都在这个div中,并且是以下格式存储:
<div class="li_txt">
<h3>姓名</h3>
for i in range(0,10):
url = 'http://bbs.tianya.cn/list-no02-1.shtml'
douban_data = requests.get(url)
soup = Beautifu...
for i in range(0, 100, 20):
r = requests.get(url + '?start=' + str(i))
soup = BeautifulSoup(r.text, 'html.parser')
items = soup.find_all(class_='subject-item')
for item in items:
title = item.find(class_='info').find('a')['title']
rating = item.find(class_='rating_nums').get_text()
if float(rating) >= 8.0:
books.append(title)
for i, book in enumerate(books):
print(str(i+1) + '. ' + book)
这段代码会抓取豆瓣编程类标签下评分高于8.0的书籍名称,并以列表形式输出。请注意,在实际应用中需要注意合适的
爬虫
策略,以避免对豆瓣
网站
造成不必要的干扰。