添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。

在网上找了许多办法诸如请求中加入headers、在调用urllib2.Request.urlopen().read()后需要调用close()等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的open函数打开数据流,再以二进制写入文件保存:
参考代码段:其中注释为原来被替换掉的方法

# urlretrieve速度慢不稳定
# urllib.urlretrieve(i, path +'%s.jpg' % ImgNum)
urlopen = urllib.URLopener()
#下载图片流
fp = urlopen.open(imageUrl)
data = fp.read()
#清除并以二进制写入
f = open(path + '1.jpg' , 'w+b')
f.write(data)
f.close()
最近在弄一个OCR的课设,其中需要用到实现Beam Search功能的CTC层.由于是 使用 Pytorch,所以在网上找到了CTCENCODE这个库.本人的环境是:Manjaro+Anaconda+ Python 3.8. 但是在安装过程中(cd到ctcdecode目录后运行$ pip install .后)遇到了以下 : Traceback (most recent call last): File "setup.py", line 29, in <module> 【 爬虫 使用 urllib 下的 urlretrieve 下载图片时 urllib . error .HTTP Error : HTTP Error 403: Forbidden 如果下载到D盘也是没有问题的,下载到我建立的目录下就有问题(主要是我想在D盘建立以URL这个问号前面的数字为名字的目录如(http://v.yupoo.com/photos/196...')中的46975340就是不行,因为有很多链接,每个链接的这个数字不同,我想用这个数字作为文件夹的名字,存放这个链接下载下来的图片)源码如下:import urllib .requestimport reimpor... 常见 误码详解: Socket error 10048 - Address already in use (bind) Socket error 10049 - Cannot assign requested address 无法 使用 该地址(bind) Socket error 10054 - Connection reset by peer 远程主机已关闭(send,rec 已解决( python 使用 urlopen/ urlretrieve 下载文件时出现403 forbidden) urllib . error .HTTP Error : HTTP Error 403: Forbidden 就是如此如此如此: urllib . urlretrieve (url) 10061 用所有 urllib 下的加载数据的方法都会 10061的 ,只能下载一个文件,但是大小是0k… 然后这般这般这般: 查了很多方法,包括下面这个博客 python 爬虫 使用 urllib 误 URL Error : <urlopen error [ Errno 10061] 解决方法 把浏览器和电脑的代理都关了: 浏览器的是win+r ->inetcpl.cpl -> 连接 -&g 提示:******************************************************在命令提示符下输入:net helpmsg 1xxxx就能够得到Windows系统提供的 误提示的详细解释。******************************************************出现网络联机 Socket error #11001表示您的计算机无