本文介绍如何使用Python结合BeautifulSoup和urllib.request.urlretrieve爬取并下载CSDN博客中的图片。作者详细阐述了爬取用户所有博客、处理多页面跳转、规避特殊字符命名文件夹以及创建文件夹保存图片的步骤和实现代码。 摘要由CSDN通过智能技术生成

《Web Scrapying with Python》
《精通 Scrapy 网络爬虫》

而今天受到启发的就是 《Web Scrapying with Python》 P115 页的这段代码:

from urllib.request import urlretrieve 
from urllib.request import urlopen 
from bs4 import BeautifulSoup 
html = urlopen("http://www.pythonscraping.com") 
bsObj = BeautifulSoup(html) 
imageLocation = bsObj.find("a", {
  "id": "logo"}).find("img")["src"] 
urlretrieve (imageLocation, "logo.jpg")

这段代码非常简洁清晰的演示了 urllib.request.urlretrieve 方法的使用,即用来下载远程 url 的资源文件。

接下来,我使用这个核心函数,加上 BeautifulSoup 库,实现自己的 CSDN 博客文章中附带图片的下载。


  • 爬取用户的所有博客文章,获取其标题,以其标题为文件夹名称创建一个文件夹用来容纳该博客内的附带图片

  • 在每个以博客文章标题为名的文件夹中,放置我们下载的图片资源

  • 为了实现这个需求,我们需要回答自己的,也就是以下几个核心问题:

    1. 如何爬取用户的所有博客文章?

    其中根据我在 Chrome 和 scrapy shell 中测试调试的结果:

    # 文章列表和文章链接:http://blog.csdn.net/u012814856
    articles = bsObj.findAll('div', {
      'class': 'article_item'})
    link = article.h1.a.attrs['href']
    # 文章标题和图片:http://blog.csdn.net/u012814856/article/details/78370952
    title = bsObj.h1.get_text()
    images = bsObj.find('div', {
      'class': 'article_content'}).findAll('img'</
